Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537
avaScript 的 Rest 和 Spread 操作符自 ES6 引入以來,大大改變了開發者處理數組和對象的方式。這些操作符提供了更簡潔、更易讀的語法,使代碼更易于理解和維護。本文將介紹如何有效地使用 Rest 和 Spread 操作符,并通過示例進行說明。
Rest 操作符(...)允許你將多個元素收集到一個數組或對象中,通常用于函數參數中,將參數列表轉換為數組。而 Spread 操作符(...)則用于將數組或對象展開為單個元素,這在復制、合并或傳遞數組和對象時特別有用。
理解并掌握這些操作符可以大大提升你的 JavaScript 編碼水平,使代碼更加簡潔和富有表現力。
函數參數處理
Rest 操作符在函數定義中非常有用,可以處理不定數量的參數:
function multiply(...numbers) {
return numbers.reduce((product, number) => product * number, 1);
}
console.log(multiply(2, 3, 4)); // 輸出: 24
在這個例子中,multiply 函數接受任意數量的參數并進行相乘。Rest 操作符將所有參數收集到 numbers 數組中,使得可以輕松應用 reduce 等數組方法。
數組解構
Rest 操作符還可以在數組解構中使用,將剩余元素收集到一個新數組中:
const [head, ...tail] = ['a', 'b', 'c', 'd'];
console.log(head); // 輸出: 'a'
console.log(tail); // 輸出: ['b', 'c', 'd']
在這個例子中,數組的第一個元素被賦值給 head,其余元素則被收集到 tail 數組中。
數組合并
使用 Spread 操作符,數組合并變得非常簡單:
const fruits = ['apple', 'banana'];
const vegetables = ['carrot', 'potato'];
const food = [...fruits, ...vegetables];
console.log(food); // 輸出: ['apple', 'banana', 'carrot', 'potato']
在這個例子中,Spread 操作符將 fruits 和 vegetables 展開為單個元素并合并到 food 數組中。
數組復制
創建數組副本同樣很方便:
const numbers = [1, 2, 3];
const numbersCopy = [...numbers];
console.log(numbersCopy); // 輸出: [1, 2, 3]
這樣創建了一個包含與 numbers 數組相同元素的新數組 numbersCopy,修改 numbersCopy 不會影響 numbers。
對象合并
Spread 操作符還可以用于對象的合并:
const person = { name: 'Alice', age: 25 };
const job = { title: 'developer', company: 'Tech Co.' };
const employee = { ...person, ...job };
console.log(employee); // 輸出: { name: 'Alice', age: 25, title: 'developer', company: 'Tech Co.' }
在這個例子中,person 和 job 被合并到 employee 對象中,形成一個新的對象。
對象解構中的 Rest 操作符
Rest 操作符可以在對象解構中使用,收集剩余的屬性:
const { title, ...details } = { title: 'Book', author: 'John Doe', year: 2021 };
console.log(title); // 輸出: 'Book'
console.log(details); // 輸出: { author: 'John Doe', year: 2021 }
這個例子展示了如何提取特定屬性(title),同時將剩余屬性收集到 details 對象中。
Spread 操作符用于函數參數
在調用接受多個參數的函數時,Spread 操作符可以簡化傳遞數組元素作為參數:
function concatenate(str1, str2, str3) {
return str1 + str2 + str3;
}
const words = ['Hello', ' ', 'World!'];
console.log(concatenate(...words)); // 輸出: 'Hello World!'
通過展開 words 數組,每個元素作為獨立參數傳遞給 concatenate 函數。
JavaScript 中的 Rest 和 Spread 操作符是強大的工具,可以極大地增強代碼的靈活性和可讀性。不論是處理數組、對象還是函數參數,這些操作符都能提供優雅的解決方案。通過掌握這些操作符,你可以編寫更簡潔、高效的代碼,提升整體開發體驗。
理解并有效使用 Rest 和 Spread 操作符,不僅可以簡化當前項目,還能為未來的挑戰做好準備,使你的 JavaScript 代碼更易維護和表達。
HTML超文本標記語言是應用于網頁端的頁面標記語言,它通過在文本中添加標記,瀏覽器依據標簽的不同,按照不同的方式顯示內容,組織內容結構。HTML是作為一名前端開發工程師必須精通的語言。
html
HTML有W3C組織維護,目前已經發展到HTML5,大部分的桌面瀏覽器和幾乎全部的移動端瀏覽器都已經支持了HTML5,但也還有少數的瀏覽器并不支持。因此學習者對于HTML5之前的HTML版本也需要有了解,特別HTML4,和最常見的HTML4.01。HTML的內容較為簡單,掌握起來也十分容易,但編寫出優秀的html結構卻還是有難度。
HTML標簽大致可以分為章節標簽、文本標簽、組標簽、資源標簽、表格標簽、表單標簽,共計一百多個標簽,剔除不常用和不推薦使用的標簽,還有部分支持度還不高的HTML5標簽,也就只剩下七八十個常用標簽了。記憶這些標簽及其相關屬性是精通HTML的第一步。
html標簽
自從css開始大量使用之后,HTML中直接嵌套屬性的使用已經越來越少。我們這里提到的HTML屬性是指HTML全局屬性,這些屬性用于賦予元素意義和語境。編寫過html的同學應該都知道id、class、style、title等常用的HTML屬性。
html屬性
語義化是指用正確的標簽描述頁面。HTML語言使用中最難的莫過于使用合適的標簽和屬性優雅的描述頁面。語義化是html超文本標記語言學習的進階內容,在編寫或參考到了大量的網頁結構之后,會得到很大的提升。
實體字符是在html語言中,例如空格、引號、大于號、小于號等一些已經被html語言標準所占用的字符,需要用特定的字符組合來表現。html編碼過程中你編寫了多個空格,但是在最終頁面輸出時只會有一個空格,這就是因為鍵盤上輸入的空格如果不經過特殊的標簽處理,或者未使用實體字符來表示,當你在編碼時使用 ;來表示空格,頁面上就會按照你的目的顯示空格。
html甚至沒有被歸入編程語言中,而只是作為一種標記語言存在,就是因為它太簡單了,學習起來異常容易,但是我們看高手程序員編寫的html頁面,卻總是會驚訝一個標簽怎么還會有如此用法。
掌握了上面的四塊內容,就可以算是基本掌握了HTML超文本標記語言。
本文僅代表個人觀點!歡迎關注!
x1 工具準備
工欲善其事必先利其器,爬取語料的根基便是基于python。
我們基于python3進行開發,主要使用以下幾個模塊:requests、lxml、json。
簡單介紹一個各模塊的功能
01|requests
requests是一個Python第三方庫,處理URL資源特別方便。它的官方文檔上寫著大大口號:HTTP for Humans(為人類使用HTTP而生)。相比python自帶的urllib使用體驗,筆者認為requests的使用體驗比urllib高了一個數量級。
我們簡單的比較一下:
urllib:
1import urllib2 2import urllib 3 4URL_GET = "https://api.douban.com/v2/event/list" 5#構建請求參數 6params = urllib.urlencode({'loc':'108288','day_type':'weekend','type':'exhibition'}) 7 8#發送請求 9response = urllib2.urlopen('?'.join([URL_GET,'%s'])%params) 10#Response Headers 11print(response.info()) 12#Response Code 13print(response.getcode()) 14#Response Body 15print(response.read()) 復制代碼
requests:
1import requests 2 3URL_GET = "https://api.douban.com/v2/event/list" 4#構建請求參數 5params = {'loc':'108288','day_type':'weekend','type':'exhibition'} 6 7#發送請求 8response = requests.get(URL_GET,params=params) 9#Response Headers 10print(response.headers) 11#Response Code 12print(response.status_code) 13#Response Body 14print(response.text)復制代碼
我們可以發現,這兩種庫還是有一些區別的:
1. 參數的構建:urllib需要對參數進行urlencode編碼處理,比較麻煩;requests無需額外編碼處理,十分簡潔。
2. 請求發送:urllib需要額外對url參數進行構造,變為符合要求的形式;requests則簡明很多,直接get對應鏈接與參數。
3. 連接方式:看一下返回數據的頭信息的“connection”,使用urllib庫時,"connection":"close",說明每次請求結束關掉socket通道,而使用requests庫使用了urllib3,多次請求重復使用一個socket,"connection":"keep-alive",說明多次請求使用一個連接,消耗更少的資源
4. 編碼方式:requests庫的編碼方式Accept-Encoding更全,在此不做舉例
綜上所訴,使用requests更為簡明、易懂,極大的方便我們開發。
02|lxml
BeautifulSoup是一個庫,而XPath是一種技術,python中最常用的XPath庫是lxml。
當我們拿到requests返回的頁面后,我們怎么拿到想要的數據呢?這個時候祭出lxml這強大的HTML/XML解析工具。python從不缺解析庫,那么我們為什么要在眾多庫里選擇lxml呢?我們選擇另一款出名的HTML解析庫BeautifulSoup來進行對比。
我們簡單的比較一下:
BeautifulSoup:
1from bs4 import BeautifulSoup #導入庫 2# 假設html是需要被解析的html 3 4#將html傳入BeautifulSoup 的構造方法,得到一個文檔的對象 5soup = BeautifulSoup(html,'html.parser',from_encoding='utf-8') 6#查找所有的h4標簽 7links = soup.find_all("h4") 復制代碼
lxml:
1from lxml import etree 2# 假設html是需要被解析的html 3 4#將html傳入etree 的構造方法,得到一個文檔的對象 5root = etree.HTML(html) 6#查找所有的h4標簽 7links = root.xpath("http://h4") 復制代碼
我們可以發現,這兩種庫還是有一些區別的:
1. 解析html: BeautifulSoup的解析方式和JQ的寫法類似,API非常人性化,支持css選擇器;lxml的語法有一定的學習成本
2. 性能:BeautifulSoup是基于DOM的,會載入整個文檔,解析整個DOM樹,因此時間和內存開銷都會大很多;而lxml只會局部遍歷,另外lxml是用c寫的,而BeautifulSoup是用python寫的,明顯的性能上lxml>>BeautifulSoup。
綜上所訴,使用BeautifulSoup更為簡明、易用,lxml雖然有一定學習成本,但總體也很簡明易懂,最重要的是它基于C編寫,速度快很多,對于筆者這種強迫癥,自然而然就選lxml啦。
03|json
python自帶json庫,對于基礎的json的處理,自帶庫完全足夠。但是如果你想更偷懶,可以使用第三方json庫,常見的有demjson、simplejson。
這兩種庫,無論是import模塊速度,還是編碼、解碼速度,都是simplejson更勝一籌,再加上兼容性 simplejson 更好。所以大家如果想使用方庫,可以使用simplejson。
0x2 確定語料源
將武器準備好之后,接下來就需要確定爬取方向。
以電競類語料為例,現在我們要爬電競類相關語料。大家熟悉的電競平臺有企鵝電競、企鵝電競和企鵝電競(斜眼),所以我們以企鵝電競上直播的游戲作為數據源進行爬取。
我們登陸企鵝電競官網,進入游戲列表頁,可以發現頁面上有很多游戲,通過人工去寫這些游戲名收益明顯不高,于是我們就開始我們爬蟲的第一步:游戲列表爬取。
1import requests 2from lxml import etree 3 4# 更新游戲列表 5def _updateGameList(): 6 # 發送HTTP請求時的HEAD信息,用于偽裝為瀏覽器 7 heads = { 8 'Connection': 'Keep-Alive', 9 'Accept': 'text/html, application/xhtml+xml, */*', 10 'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3', 11 'Accept-Encoding': 'gzip, deflate', 12 'User-Agent': 'Mozilla/6.1 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko' 13 } 14 # 需要爬取的游戲列表頁 15 url = 'https://egame.qq.com/gamelist' 16 17 # 不壓縮html,最大鏈接時間為10妙 18 res = requests.get(url, headers=heads, verify=False, timeout=10) 19 # 為防止出錯,編碼utf-8 20 res.encoding = 'utf-8' 21 # 將html構建為Xpath模式 22 root = etree.HTML(res.content) 23 # 使用Xpath語法,獲取游戲名 24 gameList = root.xpath("http://ul[@class='livelist-mod']//li//p//text()") 25 # 輸出爬到的游戲名 26 print(gameList) 復制代碼
當我們拿到這幾十個游戲名后,下一步就是對這幾十款游戲進行語料爬取,這時候問題就來了,我們要從哪個網站來爬這幾十個游戲的攻略呢,taptap?多玩?17173?在對這幾個網站進行分析后,發現這些網站僅有一些熱門游戲的文章語料,一些冷門或者低熱度的游戲,例如“靈魂籌碼”、“奇跡:覺醒”、“死神來了”等,很難在這些網站上找到大量文章語料,如圖所示:
我們可以發現,“ 奇跡:覺醒”、“靈魂籌碼”的文章語料特別少,數量上不符合我們的要求。 那么有沒有一個比較通用的資源站,它擁有著無比豐富的文章語料,可以滿足我們的需求。
其實靜下心來想想,這個資源站我們天天都有用到,那就是百度。我們在百度新聞搜索相關游戲,拿到搜索結果列表,這些列表的鏈接的網頁內容幾乎都與搜索結果強相關,這樣我們數據源不夠豐富的問題便輕松解決了。但是此時出現了一個新的問題,并且是一個比較難解決的問題——如何抓取到任意網頁的文章內容?
因為不同的網站都有不同的頁面結構,我們無法與預知將會爬到哪個網站的數據,并且我們也不可能針對每一個網站都去寫一套爬蟲,那樣的工作量簡直難以想象!但是我們也不能簡單粗暴的將頁面中的所有文字都爬下來,用那樣的語料來進行訓練無疑是噩夢!
經過與各個網站斗智斗勇、查詢資料與思索之后,終于找到一條比較通用的方案,下面為大家講一講筆者的思路。
0x3 任意網站的文章語料爬取
01|提取方法
1)基于Dom樹正文提取
2)基于網頁分割找正文塊
3)基于標記窗的正文提取
4)基于數據挖掘或機器學習
5)基于行塊分布函數正文提取
02|提取原理
大家看到這幾種是不是都有點疑惑了,它們到底是怎么提取的呢?讓筆者慢慢道來。
1)基于Dom樹的正文提取:
這一種方法主要是通過比較規范的HTML建立Dom樹,然后地柜遍歷Dom,比較并識別各種非正文信息,包括廣告、鏈接和非重要節點信息,將非正文信息抽離之后,余下來的自然就是正文信息。
但是這種方法有兩個問題
① 特別依賴于HTML的良好結構,如果我們爬取到一個不按W3c規范的編寫的網頁時,這種方法便不是很適用。
② 樹的建立和遍歷時間復雜度、空間復雜度都較高,樹的遍歷方法也因HTML標簽會有不同的差異。
2) 基于網頁分割找正文塊 :
這一種方法是利用HTML標簽中的分割線以及一些視覺信息(如文字顏色、字體大小、文字信息等)。
這種方法存在一個問題:
① 不同的網站HTML風格迥異,分割沒有辦法統一,無法保證通用性。
3) 基于標記窗的正文提取:
先科普一個概念——標記窗,我們將兩個標簽以及其內部包含的文本合在一起成為一個標記窗(比如 <h1>我是h1</h1> 中的“我是h1”就是標記窗內容),取出標記窗的文字。
這種方法先取文章標題、HTML中所有的標記窗,在對其進行分詞。然后計算標題的序列與標記窗文本序列的詞語距離L,如果L小于一個閾值,則認為此標記窗內的文本是正文。
這種方法雖然看上去挺好,但其實也是存在問題的:
① 需要對頁面中的所有文本進行分詞,效率不高。
② 詞語距離的閾值難以確定,不同的文章擁有不同的閾值。
4)基于數據挖掘或機器學習
使用大數據進行訓練,讓機器提取主文本。
這種方法肯定是極好的,但是它需要先有html與正文數據,然后進行訓練。我們在此不進行探討。
5)基于行塊分布函數正文提取
對于任意一個網頁,它的正文和標簽總是雜糅在一起。此方法的核心有亮點:① 正文區的密度;② 行塊的長度;一個網頁的正文區域肯定是文字信息分布最密集的區域之一,這個區域可能最大(評論信息長、正文較短),所以同時引進行塊長度進行判斷。
實現思路:
① 我們先將HTML去標簽,只留所有正文,同時留下標簽取出后的所有空白位置信息,我們稱其為Ctext;
② 對每一個Ctext取周圍k行(k<5),合起來稱為Cblock;
③ 對Cblock去掉所有空白符,其文字總長度稱為Clen;
④ 以Ctext為橫坐標軸,以各行的Clen為縱軸,建立坐標系。
以這個網頁為例: http://www.gov.cn/ldhd/2009-11/08/content_1459564.htm 該網頁的正文區域為145行至182行。
由上圖可知,正確的文本區域全都是分布函數圖上含有最值且連續的一個區域,這個區域往往含有一個驟升點和一個驟降點。因此,網頁正文抽取問題轉化為了求行塊分布函數上的驟升點和驟降點兩個邊界點,這兩個邊界點所含的區域包含了當前網頁的行塊長度最大值并且是連續的。
經過大量實驗,證明此方法對于中文網頁的正文提取有較高的準確度,此算法的優點在于,行塊函數不依賴與HTML代碼,與HTML標簽無關,實現簡單,準確率較高。
主要邏輯代碼如下:
1# 假設content為已經拿到的html 2 3# Ctext取周圍k行(k<5),定為3 4blocksWidth = 3 5# 每一個Cblock的長度 6Ctext_len = [] 7# Ctext 8lines = content.split('n') 9# 去空格 10for i in range(len(lines)): 11 if lines[i] == ' ' or lines[i] == 'n': 12 lines[i] = '' 13# 計算縱坐標,每一個Ctext的長度 14for i in range(0, len(lines) - blocksWidth): 15 wordsNum = 0 16 for j in range(i, i + blocksWidth): 17 lines[j] = lines[j].replace("\s", "") 18 wordsNum += len(lines[j]) 19 Ctext_len.append(wordsNum) 20# 開始標識 21start = -1 22# 結束標識 23end = -1 24# 是否開始標識 25boolstart = False 26# 是否結束標識 27boolend = False 28# 行塊的長度閾值 29max_text_len = 88 30# 文章主內容 31main_text = [] 32# 沒有分割出Ctext 33if len(Ctext_len) < 3: 34 return '沒有正文' 35for i in range(len(Ctext_len) - 3): 36 # 如果高于這個閾值 37 if(Ctext_len[i] > max_text_len and (not boolstart)): 38 # Cblock下面3個都不為0,認為是正文 39 if (Ctext_len[i + 1] != 0 or Ctext_len[i + 2] != 0 or Ctext_len[i + 3] != 0): 40 boolstart = True 41 start = i 42 continue 43 if (boolstart): 44 # Cblock下面3個中有0,則結束 45 if (Ctext_len[i] == 0 or Ctext_len[i + 1] == 0): 46 end = i 47 boolend = True 48 tmp = [] 49 50 # 判斷下面還有沒有正文 51 if(boolend): 52 for ii in range(start, end + 1): 53 if(len(lines[ii]) < 5): 54 continue 55 tmp.append(lines[ii] + "n") 56 str = "".join(list(tmp)) 57 # 去掉版權信息 58 if ("Copyright" in str or "版權所有" in str): 59 continue 60 main_text.append(str) 61 boolstart = boolend = False 62# 返回主內容 63result = "".join(list(main_text)) 復制代碼
0x4 結語
至此我們就可以獲取任意內容的文章語料了,但這僅僅是開始,獲取到了這些語料后我們還需要在一次進行清洗、分詞、詞性標注等,才能獲得真正可以使用的語料。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。