Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 亚洲一区亚洲二区亚洲三区,先锋资源中文,国产靠逼视频

          整合營(yíng)銷服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢熱線:

          手把手教你用Python網(wǎng)絡(luò)爬蟲爬網(wǎng)頁(yè)(附代碼)

          讀:本文主要分為兩個(gè)部分:一部分是網(wǎng)絡(luò)爬蟲的概述,幫助大家詳細(xì)了解網(wǎng)絡(luò)爬蟲;另一部分是HTTP請(qǐng)求的Python實(shí)現(xiàn),幫助大家了解Python中實(shí)現(xiàn)HTTP請(qǐng)求的各種方式,以便具備編寫HTTP網(wǎng)絡(luò)程序的能力。

          作者:范傳輝

          如需轉(zhuǎn)載請(qǐng)聯(lián)系華章科技

          01 網(wǎng)絡(luò)爬蟲概述

          接下來(lái)從網(wǎng)絡(luò)爬蟲的概念、用處與價(jià)值和結(jié)構(gòu)等三個(gè)方面,讓大家對(duì)網(wǎng)絡(luò)爬蟲有一個(gè)基本的了解。

          1. 網(wǎng)絡(luò)爬蟲及其應(yīng)用

          隨著網(wǎng)絡(luò)的迅速發(fā)展,萬(wàn)維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn),網(wǎng)絡(luò)爬蟲應(yīng)運(yùn)而生。網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁(yè)蜘蛛、網(wǎng)絡(luò)機(jī)器人),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。下面通過(guò)圖3-1展示一下網(wǎng)絡(luò)爬蟲在互聯(lián)網(wǎng)中起到的作用:

          ▲圖3-1 網(wǎng)絡(luò)爬蟲

          網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),大致可以分為以下幾種類型:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲。實(shí)際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實(shí)現(xiàn)的。

          搜索引擎(Search Engine),例如傳統(tǒng)的通用搜索引擎baidu、Yahoo和Google等,是一種大型復(fù)雜的網(wǎng)絡(luò)爬蟲,屬于通用性網(wǎng)絡(luò)爬蟲的范疇。但是通用性搜索引擎存在著一定的局限性:

          1. 不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。
          2. 通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。
          3. 萬(wàn)維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫(kù)、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無(wú)能為力,不能很好地發(fā)現(xiàn)和獲取。
          4. 通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語(yǔ)義信息提出的查詢。

          為了解決上述問(wèn)題,定向抓取相關(guān)網(wǎng)頁(yè)資源的聚焦爬蟲應(yīng)運(yùn)而生。

          聚焦爬蟲是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序,它根據(jù)既定的抓取目標(biāo),有選擇地訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲不同,聚焦爬蟲并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè),為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。

          說(shuō)完了聚焦爬蟲,接下來(lái)再說(shuō)一下增量式網(wǎng)絡(luò)爬蟲。增量式網(wǎng)絡(luò)爬蟲是指對(duì)已下載網(wǎng)頁(yè)采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁(yè)的爬蟲,它能夠在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。

          和周期性爬行和刷新頁(yè)面的網(wǎng)絡(luò)爬蟲相比,增量式爬蟲只會(huì)在需要的時(shí)候爬行新產(chǎn)生或發(fā)生更新的頁(yè)面,并不重新下載沒(méi)有發(fā)生變化的頁(yè)面,可有效減少數(shù)據(jù)下載量,及時(shí)更新已爬行的網(wǎng)頁(yè),減小時(shí)間和空間上的耗費(fèi),但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度。

          例如:想獲取趕集網(wǎng)的招聘信息,以前爬取過(guò)的數(shù)據(jù)沒(méi)有必要重復(fù)爬取,只需要獲取更新的招聘數(shù)據(jù),這時(shí)候就要用到增量式爬蟲。

          最后說(shuō)一下深層網(wǎng)絡(luò)爬蟲。Web頁(yè)面按存在方式可以分為表層網(wǎng)頁(yè)和深層網(wǎng)頁(yè)。表層網(wǎng)頁(yè)是指?jìng)鹘y(tǒng)搜索引擎可以索引的頁(yè)面,以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁(yè)為主構(gòu)成的Web頁(yè)面。深層網(wǎng)絡(luò)是那些大部分內(nèi)容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶提交一些關(guān)鍵詞才能獲得的Web頁(yè)面。

          例如用戶登錄或者注冊(cè)才能訪問(wèn)的頁(yè)面。可以想象這樣一個(gè)場(chǎng)景:爬取貼吧或者論壇中的數(shù)據(jù),必須在用戶登錄后,有權(quán)限的情況下才能獲取完整的數(shù)據(jù)。

          2. 網(wǎng)絡(luò)爬蟲結(jié)構(gòu)

          下面用一個(gè)通用的網(wǎng)絡(luò)爬蟲結(jié)構(gòu)來(lái)說(shuō)明網(wǎng)絡(luò)爬蟲的基本工作流程,如圖3-4所示。

          ▲圖3-4 網(wǎng)絡(luò)爬蟲結(jié)構(gòu)

          網(wǎng)絡(luò)爬蟲的基本工作流程如下:

          1. 首先選取一部分精心挑選的種子URL。
          2. 將這些URL放入待抓取URL隊(duì)列。
          3. 從待抓取URL隊(duì)列中讀取待抓取隊(duì)列的URL,解析DNS,并且得到主機(jī)的IP,并將URL對(duì)應(yīng)的網(wǎng)頁(yè)下載下來(lái),存儲(chǔ)進(jìn)已下載網(wǎng)頁(yè)庫(kù)中。此外,將這些URL放進(jìn)已抓取URL隊(duì)列。
          4. 分析已抓取URL隊(duì)列中的URL,從已下載的網(wǎng)頁(yè)數(shù)據(jù)中分析出其他URL,并和已抓取的URL進(jìn)行比較去重,最后將去重過(guò)的URL放入待抓取URL隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)。

          02 HTTP請(qǐng)求的Python實(shí)現(xiàn)

          通過(guò)上面的網(wǎng)絡(luò)爬蟲結(jié)構(gòu),我們可以看到讀取URL、下載網(wǎng)頁(yè)是每一個(gè)爬蟲必備而且關(guān)鍵的功能,這就需要和HTTP請(qǐng)求打交道。接下來(lái)講解Python中實(shí)現(xiàn)HTTP請(qǐng)求的三種方式:urllib2/urllib、httplib/urllib以及Requests。

          1. urllib2/urllib實(shí)現(xiàn)

          urllib2和urllib是Python中的兩個(gè)內(nèi)置模塊,要實(shí)現(xiàn)HTTP功能,實(shí)現(xiàn)方式是以u(píng)rllib2為主,urllib為輔。

          1.1 首先實(shí)現(xiàn)一個(gè)完整的請(qǐng)求與響應(yīng)模型

          urllib2提供一個(gè)基礎(chǔ)函數(shù)urlopen,通過(guò)向指定的URL發(fā)出請(qǐng)求來(lái)獲取數(shù)據(jù)。最簡(jiǎn)單的形式是:

          import urllib2
          response=urllib2.urlopen('http://www.zhihu.com')
          html=response.read()
          print html
          

          其實(shí)可以將上面對(duì)http://www.zhihu.com的請(qǐng)求響應(yīng)分為兩步,一步是請(qǐng)求,一步是響應(yīng),形式如下:

          import urllib2
          # 請(qǐng)求
          request=urllib2.Request('http://www.zhihu.com')
          # 響應(yīng)
          response = urllib2.urlopen(request)
          html=response.read()
          print html
          

          上面這兩種形式都是GET請(qǐng)求,接下來(lái)演示一下POST請(qǐng)求,其實(shí)大同小異,只是增加了請(qǐng)求數(shù)據(jù),這時(shí)候用到了urllib。示例如下:

          import urllib
          import urllib2
          url = 'http://www.xxxxxx.com/login'
          postdata = {'username' : 'qiye',
           'password' : 'qiye_pass'}
          # info 需要被編碼為urllib2能理解的格式,這里用到的是urllib
          data = urllib.urlencode(postdata)
          req = urllib2.Request(url, data)
          response = urllib2.urlopen(req)
          html = response.read()
          

          但是有時(shí)會(huì)出現(xiàn)這種情況:即使POST請(qǐng)求的數(shù)據(jù)是對(duì)的,但是服務(wù)器拒絕你的訪問(wèn)。這是為什么呢?問(wèn)題出在請(qǐng)求中的頭信息,服務(wù)器會(huì)檢驗(yàn)請(qǐng)求頭,來(lái)判斷是否是來(lái)自瀏覽器的訪問(wèn),這也是反爬蟲的常用手段。

          1.2 請(qǐng)求頭headers處理

          將上面的例子改寫一下,加上請(qǐng)求頭信息,設(shè)置一下請(qǐng)求頭中的User-Agent域和Referer域信息。

          import urllib
          import urllib2
          url = 'http://www.xxxxxx.com/login'
          user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
          referer='http://www.xxxxxx.com/'
          postdata = {'username' : 'qiye',
           'password' : 'qiye_pass'}
          # 將user_agent,referer寫入頭信息
          headers={'User-Agent':user_agent,'Referer':referer}
          data = urllib.urlencode(postdata)
          req = urllib2.Request(url, data,headers)
          response = urllib2.urlopen(req)
          html = response.read()
          

          也可以這樣寫,使用add_header來(lái)添加請(qǐng)求頭信息,修改如下:

          import urllib
          import urllib2
          url = 'http://www.xxxxxx.com/login'
          user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
          referer='http://www.xxxxxx.com/'
          postdata = {'username' : 'qiye',
           'password' : 'qiye_pass'}
          data = urllib.urlencode(postdata)
          req = urllib2.Request(url)
          # 將user_agent,referer寫入頭信息
          req.add_header('User-Agent',user_agent)
          req.add_header('Referer',referer)
          req.add_data(data)
          response = urllib2.urlopen(req)
          html = response.read()
          

          對(duì)有些header要特別留意,服務(wù)器會(huì)針對(duì)這些header做檢查,例如:

          • User-Agent:有些服務(wù)器或Proxy會(huì)通過(guò)該值來(lái)判斷是否是瀏覽器發(fā)出的請(qǐng)求。
          • Content-Type:在使用REST接口時(shí),服務(wù)器會(huì)檢查該值,用來(lái)確定HTTP Body中的內(nèi)容該怎樣解析。在使用服務(wù)器提供的RESTful或SOAP服務(wù)時(shí),Content-Type設(shè)置錯(cuò)誤會(huì)導(dǎo)致服務(wù)器拒絕服務(wù)。常見的取值有:application/xml(在XML RPC,如RESTful/SOAP調(diào)用時(shí)使用)、application/json(在JSON RPC調(diào)用時(shí)使用)、application/x-www-form-urlencoded(瀏覽器提交Web表單時(shí)使用)。
          • Referer:服務(wù)器有時(shí)候會(huì)檢查防盜鏈。

          1.3 Cookie處理

          urllib2對(duì)Cookie的處理也是自動(dòng)的,使用CookieJar函數(shù)進(jìn)行Cookie的管理。如果需要得到某個(gè)Cookie項(xiàng)的值,可以這么做:

          import urllib2
          import cookielib
          cookie = cookielib.CookieJar()
          opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
          response = opener.open('http://www.zhihu.com')
          for item in cookie:
           print item.name+':'+item.value
          

          但是有時(shí)候會(huì)遇到這種情況,我們不想讓urllib2自動(dòng)處理,我們想自己添加Cookie的內(nèi)容,可以通過(guò)設(shè)置請(qǐng)求頭中的Cookie域來(lái)做:

          import urllib2
          opener = urllib2.build_opener()
          opener.addheaders.append( ( 'Cookie', 'email=' + "xxxxxxx@163.com" ) )
          req = urllib2.Request( "http://www.zhihu.com/" )
          response = opener.open(req)
          print response.headers
          retdata = response.read()
          

          1.4 Timeout設(shè)置超時(shí)

          在Python2.6之前的版本,urllib2的API并沒(méi)有暴露Timeout的設(shè)置,要設(shè)置Timeout值,只能更改Socket的全局Timeout值。示例如下:

          import urllib2
          import socket
          socket.setdefaulttimeout(10) # 10 秒鐘后超時(shí)
          urllib2.socket.setdefaulttimeout(10) # 另一種方式
          

          在Python2.6及新的版本中,urlopen函數(shù)提供了對(duì)Timeout的設(shè)置,示例如下:

          import urllib2
          request=urllib2.Request('http://www.zhihu.com')
          response = urllib2.urlopen(request,timeout=2)
          html=response.read()
          print html
          

          1.5 獲取HTTP響應(yīng)碼

          對(duì)于200 OK來(lái)說(shuō),只要使用urlopen返回的response對(duì)象的getcode()方法就可以得到HTTP的返回碼。但對(duì)其他返回碼來(lái)說(shuō),urlopen會(huì)拋出異常。這時(shí)候,就要檢查異常對(duì)象的code屬性了,示例如下:

          import urllib2
          try:
           response = urllib2.urlopen('http://www.google.com')
           print response
          except urllib2.HTTPError as e:
           if hasattr(e, 'code'):
           print 'Error code:',e.code
          

          1.6 重定向

          urllib2默認(rèn)情況下會(huì)針對(duì)HTTP 3XX返回碼自動(dòng)進(jìn)行重定向動(dòng)作。要檢測(cè)是否發(fā)生了重定向動(dòng)作,只要檢查一下Response的URL和Request的URL是否一致就可以了,示例如下:

          import urllib2
          response = urllib2.urlopen('http://www.zhihu.cn')
          isRedirected = response.geturl() == 'http://www.zhihu.cn'
          

          如果不想自動(dòng)重定向,可以自定義HTTPRedirectHandler類,示例如下:

          import urllib2
          class RedirectHandler(urllib2.HTTPRedirectHandler):
           def http_error_301(self, req, fp, code, msg, headers):
           pass
           def http_error_302(self, req, fp, code, msg, headers):
           result = urllib2.HTTPRedirectHandler.http_error_301(self, req, fp, code, 
           msg, headers)
           result.status = code
           result.newurl = result.geturl()
           return result
          opener = urllib2.build_opener(RedirectHandler)
          opener.open('http://www.zhihu.cn')
          

          1.7 Proxy的設(shè)置

          在做爬蟲開發(fā)中,必不可少地會(huì)用到代理。urllib2默認(rèn)會(huì)使用環(huán)境變量http_proxy來(lái)設(shè)置HTTP Proxy。但是我們一般不采用這種方式,而是使用ProxyHandler在程序中動(dòng)態(tài)設(shè)置代理,示例代碼如下:

          import urllib2
          proxy = urllib2.ProxyHandler({'http': '127.0.0.1:8087'})
          opener = urllib2.build_opener([proxy,])
          urllib2.install_opener(opener)
          response = urllib2.urlopen('http://www.zhihu.com/')
          print response.read()
          

          這里要注意的一個(gè)細(xì)節(jié),使用urllib2.install_opener()會(huì)設(shè)置urllib2的全局opener,之后所有的HTTP訪問(wèn)都會(huì)使用這個(gè)代理。這樣使用會(huì)很方便,但不能做更細(xì)粒度的控制,比如想在程序中使用兩個(gè)不同的Proxy設(shè)置,這種場(chǎng)景在爬蟲中很常見。比較好的做法是不使用install_opener去更改全局的設(shè)置,而只是直接調(diào)用opener的open方法代替全局的urlopen方法,修改如下:

          import urllib2
          proxy = urllib2.ProxyHandler({'http': '127.0.0.1:8087'})
          opener = urllib2.build_opener(proxy,)
          response = opener.open("http://www.zhihu.com/")
          print response.read()
          

          2. httplib/urllib實(shí)現(xiàn)

          httplib模塊是一個(gè)底層基礎(chǔ)模塊,可以看到建立HTTP請(qǐng)求的每一步,但是實(shí)現(xiàn)的功能比較少,正常情況下比較少用到。在Python爬蟲開發(fā)中基本上用不到,所以在此只是進(jìn)行一下知識(shí)普及。下面介紹一下常用的對(duì)象和函數(shù):

          • 創(chuàng)建HTTPConnection對(duì)象:
          • class httplib.HTTPConnection(host[, port[, strict[, timeout[, source_address]]]])。
          • 發(fā)送請(qǐng)求:
          • HTTPConnection.request(method, url[, body[, headers]])。
          • 獲得響應(yīng):
          • HTTPConnection.getresponse()。
          • 讀取響應(yīng)信息:
          • HTTPResponse.read([amt])。
          • 獲得指定頭信息:
          • HTTPResponse.getheader(name[, default])。
          • 獲得響應(yīng)頭(header, value)元組的列表:
          • HTTPResponse.getheaders()。
          • 獲得底層socket文件描述符:
          • HTTPResponse.fileno()。
          • 獲得頭內(nèi)容:
          • HTTPResponse.msg。
          • 獲得頭http版本:
          • HTTPResponse.version。
          • 獲得返回狀態(tài)碼:
          • HTTPResponse.status。
          • 獲得返回說(shuō)明:
          • HTTPResponse.reason。

          接下來(lái)演示一下GET請(qǐng)求和POST請(qǐng)求的發(fā)送,首先是GET請(qǐng)求的示例,如下所示:

          import httplib
          conn =None
          try:
           conn = httplib.HTTPConnection("www.zhihu.com")
           conn.request("GET", "/")
           response = conn.getresponse()
           print response.status, response.reason
           print '-' * 40
           headers = response.getheaders()
           for h in headers:
           print h
           print '-' * 40
           print response.msg
          except Exception,e:
           print e
          finally:
           if conn:
           conn.close()
          

          POST請(qǐng)求的示例如下:

          import httplib, urllib
          conn = None
          try:
           params = urllib.urlencode({'name': 'qiye', 'age': 22})
           headers = {"Content-type": "application/x-www-form-urlencoded"
           , "Accept": "text/plain"}
           conn = httplib.HTTPConnection("www.zhihu.com", 80, timeout=3)
           conn.request("POST", "/login", params, headers)
           response = conn.getresponse()
           print response.getheaders() # 獲取頭信息
           print response.status
           print response.read()
          except Exception, e:
           print e
           finally:
           if conn:
           conn.close()
          

          3. 更人性化的Requests

          Python中Requests實(shí)現(xiàn)HTTP請(qǐng)求的方式,是本人極力推薦的,也是在Python爬蟲開發(fā)中最為常用的方式。Requests實(shí)現(xiàn)HTTP請(qǐng)求非常簡(jiǎn)單,操作更加人性化。

          Requests庫(kù)是第三方模塊,需要額外進(jìn)行安裝。Requests是一個(gè)開源庫(kù),源碼位于:

          GitHub: https://github.com/kennethreitz/requests

          希望大家多多支持作者。

          使用Requests庫(kù)需要先進(jìn)行安裝,一般有兩種安裝方式:

          • 使用pip進(jìn)行安裝,安裝命令為:pip install requests,不過(guò)可能不是最新版。
          • 直接到GitHub上下載Requests的源代碼,下載鏈接為:
          • https://github.com/kennethreitz/requests/releases
          • 將源代碼壓縮包進(jìn)行解壓,然后進(jìn)入解壓后的文件夾,運(yùn)行setup.py文件即可。

          如何驗(yàn)證Requests模塊安裝是否成功呢?在Python的shell中輸入import requests,如果不報(bào)錯(cuò),則是安裝成功。如圖3-5所示。

          ▲圖3-5 驗(yàn)證Requests安裝

          3.1 首先還是實(shí)現(xiàn)一個(gè)完整的請(qǐng)求與響應(yīng)模型

          以GET請(qǐng)求為例,最簡(jiǎn)單的形式如下:

          import requests
          r = requests.get('http://www.baidu.com')
          print r.content
          

          大家可以看到比urllib2實(shí)現(xiàn)方式的代碼量少。接下來(lái)演示一下POST請(qǐng)求,同樣是非常簡(jiǎn)短,更加具有Python風(fēng)格。示例如下:

          import requests
          postdata={'key':'value'}
          r = requests.post('http://www.xxxxxx.com/login',data=postdata)
          print r.content
          

          HTTP中的其他請(qǐng)求方式也可以用Requests來(lái)實(shí)現(xiàn),示例如下:

          r = requests.put('http://www.xxxxxx.com/put', data = {'key':'value'})
          r = requests.delete('http://www.xxxxxx.com/delete')
          r = requests.head('http://www.xxxxxx.com/get')
          r = requests.options('http://www.xxxxxx.com/get')
          

          接著講解一下稍微復(fù)雜的方式,大家肯定見過(guò)類似這樣的URL:

          http://zzk.cnblogs.com/s/blogpost?Keywords=blog:qiyeboy&pageindex=1

          就是在網(wǎng)址后面緊跟著“?”,“?”后面還有參數(shù)。那么這樣的GET請(qǐng)求該如何發(fā)送呢?肯定有人會(huì)說(shuō),直接將完整的URL帶入即可,不過(guò)Requests還提供了其他方式,示例如下:

          import requests
           payload = {'Keywords': 'blog:qiyeboy','pageindex':1}
          r = requests.get('http://zzk.cnblogs.com/s/blogpost', params=payload)
          print r.url
          

          通過(guò)打印結(jié)果,我們看到最終的URL變成了:

          http://zzk.cnblogs.com/s/blogpost?Keywords=blog:qiyeboy&pageindex=1

          3.2 響應(yīng)與編碼

          還是從代碼入手,示例如下:

          import requests
          r = requests.get('http://www.baidu.com')
          print 'content-->'+r.content
          print 'text-->'+r.text
          print 'encoding-->'+r.encoding
          r.encoding='utf-8'
          print 'new text-->'+r.text
          

          其中r.content返回的是字節(jié)形式,r.text返回的是文本形式,r.encoding返回的是根據(jù)HTTP頭猜測(cè)的網(wǎng)頁(yè)編碼格式。

          輸出結(jié)果中:“text-->”之后的內(nèi)容在控制臺(tái)看到的是亂碼,“encoding-->”之后的內(nèi)容是ISO-8859-1(實(shí)際上的編碼格式是UTF-8),由于Requests猜測(cè)編碼錯(cuò)誤,導(dǎo)致解析文本出現(xiàn)了亂碼。Requests提供了解決方案,可以自行設(shè)置編碼格式,r.encoding='utf-8'設(shè)置成UTF-8之后,“new text-->”的內(nèi)容就不會(huì)出現(xiàn)亂碼。

          但是這種手動(dòng)的方式略顯笨拙,下面提供一種更加簡(jiǎn)便的方式:chardet,這是一個(gè)非常優(yōu)秀的字符串/文件編碼檢測(cè)模塊。安裝方式如下:

          pip install chardet
          

          安裝完成后,使用chardet.detect()返回字典,其中confidence是檢測(cè)精確度,encoding是編碼形式。示例如下:

          import requests
          r = requests.get('http://www.baidu.com')
          print chardet.detect(r.content)
          r.encoding = chardet.detect(r.content)['encoding']
          print r.text
          

          直接將chardet探測(cè)到的編碼,賦給r.encoding實(shí)現(xiàn)解碼,r.text輸出就不會(huì)有亂碼了。

          除了上面那種直接獲取全部響應(yīng)的方式,還有一種流模式,示例如下:

          import requests
          r = requests.get('http://www.baidu.com',stream=True)
          print r.raw.read(10)
          

          設(shè)置stream=True標(biāo)志位,使響應(yīng)以字節(jié)流方式進(jìn)行讀取,r.raw.read函數(shù)指定讀取的字節(jié)數(shù)。

          3.3 請(qǐng)求頭headers處理

          Requests對(duì)headers的處理和urllib2非常相似,在Requests的get函數(shù)中添加headers參數(shù)即可。示例如下:

          import requests
          user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
          headers={'User-Agent':user_agent}
          r = requests.get('http://www.baidu.com',headers=headers)
          print r.content
          

          3.4 響應(yīng)碼code和響應(yīng)頭headers處理

          獲取響應(yīng)碼是使用Requests中的status_code字段,獲取響應(yīng)頭使用Requests中的headers字段。示例如下:

          import requests
          r = requests.get('http://www.baidu.com')
          if r.status_code == requests.codes.ok:
           print r.status_code# 響應(yīng)碼
           print r.headers# 響應(yīng)頭
           print r.headers.get('content-type')# 推薦使用這種獲取方式,獲取其中的某個(gè)字段
           print r.headers['content-type']# 不推薦使用這種獲取方式
          else:
           r.raise_for_status()
          

          上述程序中,r.headers包含所有的響應(yīng)頭信息,可以通過(guò)get函數(shù)獲取其中的某一個(gè)字段,也可以通過(guò)字典引用的方式獲取字典值,但是不推薦,因?yàn)槿绻侄沃袥](méi)有這個(gè)字段,第二種方式會(huì)拋出異常,第一種方式會(huì)返回None。

          r.raise_for_status()是用來(lái)主動(dòng)地產(chǎn)生一個(gè)異常,當(dāng)響應(yīng)碼是4XX或5XX時(shí),raise_for_status()函數(shù)會(huì)拋出異常,而響應(yīng)碼為200時(shí),raise_for_status()函數(shù)返回None。

          3.5 Cookie處理

          如果響應(yīng)中包含Cookie的值,可以如下方式獲取Cookie字段的值,示例如下:

          import requests
          user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
          headers={'User-Agent':user_agent}
          r = requests.get('http://www.baidu.com',headers=headers)
          # 遍歷出所有的cookie字段的值
          for cookie in r.cookies.keys():
           print cookie+':'+r.cookies.get(cookie)
          

          如果想自定義Cookie值發(fā)送出去,可以使用以下方式,示例如下:

          import requests
          user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
          headers={'User-Agent':user_agent}
          cookies = dict(name='qiye',age='10')
          r = requests.get('http://www.baidu.com',headers=headers,cookies=cookies)
          print r.text
          

          還有一種更加高級(jí),且能自動(dòng)處理Cookie的方式,有時(shí)候我們不需要關(guān)心Cookie值是多少,只是希望每次訪問(wèn)的時(shí)候,程序自動(dòng)把Cookie的值帶上,像瀏覽器一樣。Requests提供了一個(gè)session的概念,在連續(xù)訪問(wèn)網(wǎng)頁(yè),處理登錄跳轉(zhuǎn)時(shí)特別方便,不需要關(guān)注具體細(xì)節(jié)。使用方法示例如下:

          import Requests
          oginUrl = 'http://www.xxxxxxx.com/login'
          s = requests.Session()
          #首先訪問(wèn)登錄界面,作為游客,服務(wù)器會(huì)先分配一個(gè)cookie
          r = s.get(loginUrl,allow_redirects=True)
          datas={'name':'qiye','passwd':'qiye'}
          #向登錄鏈接發(fā)送post請(qǐng)求,驗(yàn)證成功,游客權(quán)限轉(zhuǎn)為會(huì)員權(quán)限
          r = s.post(loginUrl, data=datas,allow_redirects= True)
          print r.text
          

          上面的這段程序,其實(shí)是正式做Python開發(fā)中遇到的問(wèn)題,如果沒(méi)有第一步訪問(wèn)登錄的頁(yè)面,而是直接向登錄鏈接發(fā)送Post請(qǐng)求,系統(tǒng)會(huì)把你當(dāng)做非法用戶,因?yàn)樵L問(wèn)登錄界面時(shí)會(huì)分配一個(gè)Cookie,需要將這個(gè)Cookie在發(fā)送Post請(qǐng)求時(shí)帶上,這種使用Session函數(shù)處理Cookie的方式之后會(huì)很常用。

          3.6 重定向與歷史信息

          處理重定向只是需要設(shè)置一下allow_redirects字段即可,例如:

          r=requests.get('http://www.baidu.com',allow_redirects=True)

          將allow_redirects設(shè)置為True,則是允許重定向;設(shè)置為False,則是禁止重定向。如果是允許重定向,可以通過(guò)r.history字段查看歷史信息,即訪問(wèn)成功之前的所有請(qǐng)求跳轉(zhuǎn)信息。示例如下:

          import requests
          r = requests.get('http://github.com')
          print r.url
          print r.status_code
          print r.history
          

          打印結(jié)果如下:

          https://github.com/
          200
          (<Response [301]>,)
          

          上面的示例代碼顯示的效果是訪問(wèn)GitHub網(wǎng)址時(shí),會(huì)將所有的HTTP請(qǐng)求全部重定向?yàn)镠TTPS。

          3.7 超時(shí)設(shè)置

          超時(shí)選項(xiàng)是通過(guò)參數(shù)timeout來(lái)進(jìn)行設(shè)置的,示例如下:

          requests.get('http://github.com', timeout=2)
          

          3.8 代理設(shè)置

          使用代理Proxy,你可以為任意請(qǐng)求方法通過(guò)設(shè)置proxies參數(shù)來(lái)配置單個(gè)請(qǐng)求:

          import requests
          proxies = {
           "http": "http://0.10.1.10:3128",
           "https": "http://10.10.1.10:1080",
          }
          requests.get("http://example.org", proxies=proxies)
          

          也可以通過(guò)環(huán)境變量HTTP_PROXY和HTTPS_PROXY?來(lái)配置代理,但是在爬蟲開發(fā)中不常用。你的代理需要使用HTTP Basic Auth,可以使用http://user:password@host/語(yǔ)法:

          proxies = {
           "http": "http://user:pass@10.10.1.10:3128/",
          }
          

          03 小結(jié)

          本文主要講解了網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)和應(yīng)用,以及Python實(shí)現(xiàn)HTTP請(qǐng)求的幾種方法。希望大家對(duì)本文中的網(wǎng)絡(luò)爬蟲工作流程和Requests實(shí)現(xiàn)HTTP請(qǐng)求的方式重點(diǎn)吸收消化。

          關(guān)于作者:范傳輝,資深網(wǎng)蟲,Python開發(fā)者,參與開發(fā)了多項(xiàng)網(wǎng)絡(luò)應(yīng)用,在實(shí)際開發(fā)中積累了豐富的實(shí)戰(zhàn)經(jīng)驗(yàn),并善于總結(jié),貢獻(xiàn)了多篇技術(shù)文章廣受好評(píng)。研究興趣是網(wǎng)絡(luò)安全、爬蟲技術(shù)、數(shù)據(jù)分析、驅(qū)動(dòng)開發(fā)等技術(shù)。

          本文摘編自《Python爬蟲開發(fā)與項(xiàng)目實(shí)戰(zhàn)》,經(jīng)出版方授權(quán)發(fā)布。

          延伸閱讀《Python爬蟲開發(fā)與項(xiàng)目實(shí)戰(zhàn)》

          推薦語(yǔ):零基礎(chǔ)學(xué)習(xí)爬蟲技術(shù),從Python和Web前端基礎(chǔ)開始講起,由淺入深,包含大量案例,實(shí)用性強(qiáng)。

          文適合有 Java 基礎(chǔ)知識(shí)的人群

          本文作者:HelloGitHub-秦人

          HelloGitHub 推出的《講解開源項(xiàng)目》系列,今天給大家?guī)?lái)一款開源 Java 版一款網(wǎng)頁(yè)元素解析框架——jsoup,通過(guò)程序自動(dòng)獲取網(wǎng)頁(yè)數(shù)據(jù)。

          項(xiàng)目源碼地址:https://github.com/jhy/jsoup

          一、項(xiàng)目介紹

          jsoup 是一款 Java 的 HTML 解析器。可直接解析某個(gè) URL 地址的 HTML 文本內(nèi)容。它提供了一套很省力的 API,可通過(guò) DOM、CSS 以及類似于 jQuery 選擇器的操作方法來(lái)取出和操作數(shù)據(jù)。

          jsoup 主要功能:

          1. 從一個(gè) URL、文件或字符串中解析 HTML。
          2. 使用 DOM 或 CSS 選擇器來(lái)查找、取出數(shù)據(jù)。
          3. 可操作 HTML 元素、屬性、文本。

          二、使用框架

          2.1 準(zhǔn)備工作

          • 掌握 HTML 語(yǔ)法
          • Chrome 瀏覽器調(diào)試技巧
          • 掌握開發(fā)工具 idea 的基本操作

          2.2 學(xué)習(xí)源碼

          將項(xiàng)目導(dǎo)入 idea 開發(fā)工具,會(huì)自動(dòng)下載 maven 項(xiàng)目需要的依賴。源碼的項(xiàng)目結(jié)構(gòu)如下:

          快速學(xué)習(xí)源碼是每個(gè)程序員必備的技能,我總結(jié)了以下幾點(diǎn):

          1. 閱讀項(xiàng)目 ReadMe 文件,可以快速知道項(xiàng)目是做什么的。
          2. 概覽項(xiàng)目 pom.xml 文件,了解項(xiàng)目引用了哪些依賴。
          3. 查看項(xiàng)目結(jié)構(gòu)、源碼目錄、測(cè)試用例目錄,好的項(xiàng)目結(jié)構(gòu)清晰,層次明確。
          4. 運(yùn)行測(cè)試用例,快速體驗(yàn)項(xiàng)目。

          2.3 下載項(xiàng)目

          git clone https://github.com/jhy/jsoup
          

          2.4 運(yùn)行項(xiàng)目測(cè)試代碼

          通過(guò)上面的方法,我們很快可知 example 目錄是測(cè)試代碼,那我們直接來(lái)運(yùn)行。注:有些測(cè)試代碼需要稍微改造一下才可以運(yùn)行。

          例如,jsoup 的 Wikipedia 測(cè)試代碼:

          public class Wikipedia {
              public static void main(String[] args) throws IOException {
                  Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
                  log(doc.title());
          
                  Elements newsHeadlines = doc.select("#mp-itn b a");
                  for (Element headline : newsHeadlines) {
                      log("%s\n\t%s", headline.attr("title"), headline.absUrl("href"));
                  }
              }
          
              private static void log(String msg, String... vals) {
                  System.out.println(String.format(msg, vals));
              }
          }
          

          說(shuō)明:上面代碼是獲取頁(yè)面(http://en.wikipedia.org/)包含(#mp-itn b a)選擇器的所有元素,并打印這些元素的 title , herf 屬性。維基百科 國(guó)內(nèi)無(wú)法訪問(wèn),所以上面這段代碼運(yùn)行會(huì)報(bào)錯(cuò)。

          改造后可運(yùn)行的代碼如下:

          public static void main(String[] args) throws IOException {
              Document doc = Jsoup.connect("https://www.baidu.com/").get();
              Elements newsHeadlines = doc.select("a[href]");
              for (Element headline : newsHeadlines) {
                  System.out.println("href: " +headline.absUrl("href") );
              }
          }
          

          三、工作原理

          Jsoup 的工作原理,首先需要指定一個(gè) URL,框架發(fā)送 HTTP 請(qǐng)求,然后獲取響應(yīng)頁(yè)面內(nèi)容,然后通過(guò)各種選擇器獲取頁(yè)面數(shù)據(jù)。整個(gè)工作流程如下圖:

          以上面為例:

          3.1 發(fā)請(qǐng)求

          Document doc = Jsoup.connect("https://www.baidu.com/").get();
          

          這行代碼就是發(fā)送 HTTP 請(qǐng)求,并獲取頁(yè)面響應(yīng)數(shù)據(jù)。

          3.2 數(shù)據(jù)篩選

          Elements newsHeadlines = doc.select("a[href]");
          

          定義選擇器,獲取匹配選擇器的數(shù)據(jù)。

          3.3 數(shù)據(jù)處理

          for (Element headline : newsHeadlines) {
                  System.out.println("href: " +headline.absUrl("href") );
              }
          

          這里對(duì)數(shù)據(jù)只做了一個(gè)簡(jiǎn)單的數(shù)據(jù)打印,當(dāng)然這些數(shù)據(jù)可寫入文件或數(shù)據(jù)的。

          四、實(shí)戰(zhàn)

          獲取豆瓣讀書 -> 新書速遞中每本新書的基本信息。包括:書名、書圖片鏈接、作者、內(nèi)容簡(jiǎn)介(詳情頁(yè)面)、作者簡(jiǎn)介(詳情頁(yè)面)、當(dāng)當(dāng)網(wǎng)書的價(jià)格(詳情頁(yè)面),最后將獲取的數(shù)據(jù)保存到 Excel 文件。

          目標(biāo)鏈接:https://book.douban.com/latest?icn=index-latestbook-all

          4.1 項(xiàng)目 pom.xml 文件

          項(xiàng)目引入 jsoup、lombok、easyexcel 三個(gè)庫(kù)。

          <?xml version="1.0" encoding="UTF-8"?>
          <project xmlns="http://maven.apache.org/POM/4.0.0"
                   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                   xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
              <modelVersion>4.0.0</modelVersion>
          
              <groupId>org.example</groupId>
              <artifactId>JsoupTest</artifactId>
              <version>1.0-SNAPSHOT</version>
              <properties>
                  <maven.compiler.target>1.8</maven.compiler.target>
                  <maven.compiler.source>1.8</maven.compiler.source>
              </properties>
              <dependencies>
                  <dependency>
                      <groupId>org.jsoup</groupId>
                      <artifactId>jsoup</artifactId>
                      <version>1.13.1</version>
                  </dependency>
                  <dependency>
                      <groupId>org.projectlombok</groupId>
                      <artifactId>lombok</artifactId>
                      <version>1.18.12</version>
                  </dependency>
                  <dependency>
                      <groupId>com.alibaba</groupId>
                      <artifactId>easyexcel</artifactId>
                      <version>2.2.6</version>
                  </dependency>
              </dependencies>
          </project>
          

          4.2 解析頁(yè)面數(shù)據(jù)

          public class BookInfoUtils {
          
              public static List<BookEntity> getBookInfoList(String url) throws IOException {
                  List<BookEntity>  bookEntities=new ArrayList<>();
                  Document doc = Jsoup.connect(url).get();
                  Elements liDiv = doc.select("#content > div > div.article > ul > li");
                  for (Element li : liDiv) {
                      Elements urls = li.select("a[href]");
                      Elements imgUrl = li.select("a > img");
                      Elements bookName = li.select(" div > h2 > a");
                      Elements starsCount = li.select(" div > p.rating > span.font-small.color-lightgray");
                      Elements author = li.select("div > p.color-gray");
                      Elements description = li.select(" div > p.detail");
          
                      String bookDetailUrl = urls.get(0).attr("href");
                      BookDetailInfo detailInfo = getDetailInfo(bookDetailUrl);
                      BookEntity bookEntity = BookEntity.builder()
                              .detailPageUrl(bookDetailUrl)
                              .bookImgUrl(imgUrl.attr("src"))
                              .bookName(bookName.html())
                              .starsCount(starsCount.html())
                              .author(author.text())
                              .bookDetailInfo(detailInfo)
                              .description(description.html())
                              .build();
          //            System.out.println(bookEntity);
                      bookEntities.add(bookEntity);
                  }
                  return bookEntities;
              }
              /**
               *
               * @param detailUrl
               * @return
               * @throws IOException
               */
              public static BookDetailInfo getDetailInfo(String detailUrl)throws IOException{
          
                  Document doc = Jsoup.connect(detailUrl).get();
                  Elements content = doc.select("body");
          
                  Elements price = content.select("#buyinfo-printed > ul.bs.current-version-list > li:nth-child(2) > div.cell.price-btn-wrapper > div.cell.impression_track_mod_buyinfo > div.cell.price-wrapper > a > span");
                  Elements author = content.select("#info > span:nth-child(1) > a");
                  BookDetailInfo bookDetailInfo = BookDetailInfo.builder()
                          .author(author.html())
                          .authorUrl(author.attr("href"))
                          .price(price.html())
                          .build();
                  return bookDetailInfo;
              }
          }
          

          這里的重點(diǎn)是要獲取網(wǎng)頁(yè)對(duì)應(yīng)元素的選擇器

          例如:獲取 li.select("div > p.color-gray") 中 div > p.color-gray 是怎么知道的。

          使用 chrome 的小伙伴應(yīng)該都猜到了。打開 chrome 瀏覽器 Debug 模式,Ctrl + Shift +C 選擇一個(gè)元素,然后在 html 右鍵選擇 Copy ->Copy selector,這樣就可以獲取當(dāng)前元素的選擇器。如下圖:

          4.3 存儲(chǔ)數(shù)據(jù)到 Excel

          為了數(shù)據(jù)更好查看,我將通過(guò) jsoup 抓取的數(shù)據(jù)存儲(chǔ)的 Excel 文件,這里我使用的 easyexcel 快速生成 Excel 文件。

          Excel 表頭信息

          @Data
          @Builder
          public class ColumnData {
          
              @ExcelProperty("書名稱")
              private String bookName;
          
              @ExcelProperty("評(píng)分")
              private String starsCount;
          
              @ExcelProperty("作者")
              private String author;
          
              @ExcelProperty("封面圖片")
              private String bookImgUrl;
          
              @ExcelProperty("簡(jiǎn)介")
              private String description;
          
              @ExcelProperty("單價(jià)")
              private String price;
          }
          

          生成 Excel 文件

          public class EasyExcelUtils {
          
              public static void simpleWrite(List<BookEntity> bookEntityList) {
                  String fileName = "D:\\devEnv\\JsoupTest\\bookList" + System.currentTimeMillis() + ".xlsx";
                  EasyExcel.write(fileName, ColumnData.class).sheet("書本詳情").doWrite(data(bookEntityList));
                  System.out.println("excel文件生成完畢...");
              }
              private static List<ColumnData> data(List<BookEntity> bookEntityList) {
                  List<ColumnData> list = new ArrayList<>();
                  bookEntityList.forEach(b -> {
                      ColumnData data = ColumnData.builder()
                              .bookName(b.getBookName())
                              .starsCount(b.getStarsCount())
                              .author(b.getBookDetailInfo().getAuthor())
                              .bookImgUrl(b.getBookImgUrl())
                              .description(b.getDescription())
                              .price(b.getBookDetailInfo().getPrice())
                              .build();
                      list.add(data);
                  });
                  return list;
              }
          }
          

          4.4 最終展示效果

          最終的效果如下圖:

          以上就是從想法到實(shí)踐,我們就在實(shí)戰(zhàn)中使用了 jsoup 的基本操作。

          完整代碼地址:https://github.com/hellowHuaairen/JsoupTest

          五、最后

          Java HTML Parser 庫(kù):jsoup,把它當(dāng)成簡(jiǎn)單的爬蟲用起來(lái)還是很方便的吧?

          為什么會(huì)講爬蟲?大數(shù)據(jù),人工智能時(shí)代玩的就是數(shù)據(jù),數(shù)據(jù)很重要。作為懂點(diǎn)技術(shù)的我們,也需要掌握一種獲取網(wǎng)絡(luò)數(shù)據(jù)的技能。當(dāng)然也有一些工具 Fiddler、webscraper 等也可以抓取你想要的數(shù)據(jù)。

          教程至此,你應(yīng)該也能對(duì) jsoup 有一些感覺(jué)了吧。編程是不是也特別有意思呢?參考我上面的實(shí)戰(zhàn)案例,有好多網(wǎng)站可以實(shí)踐一下啦~歡迎在評(píng)論區(qū)曬你的實(shí)戰(zhàn)。

          言:

          今天為大家?guī)?lái)的內(nèi)容是4個(gè)詳細(xì)步驟講解Python爬取網(wǎng)頁(yè)數(shù)據(jù)操作過(guò)程!(含實(shí)例代碼)本文具有不錯(cuò)的參考意義,希望在此能夠幫助到大家!

          提示:由于涉及代碼較多,大部分代碼用圖片的方式呈現(xiàn)出來(lái)!

          一、利用webbrowser.open()打開一個(gè)網(wǎng)站:

          實(shí)例:使用腳本打開一個(gè)網(wǎng)頁(yè)。

          所有Python程序的第一行都應(yīng)以#!python開頭,它告訴計(jì)算機(jī)想讓Python來(lái)執(zhí)行這個(gè)程序。(我沒(méi)帶這行試了試,也可以,可能這是一種規(guī)范吧)

          • 1.從sys.argv讀取命令行參數(shù):打開一個(gè)新的文件編輯器窗口,輸入下面的代碼,將其保存為map.py。
          • 2.讀取剪貼板內(nèi)容:
          • 3.調(diào)用webbrowser.open()函數(shù)打開外部瀏覽:

          注:不清楚sys.argv用法的,請(qǐng)參考這里;不清楚.join()用法的,請(qǐng)參考這里。sys.argv是字符串的列表,所以將它傳遞給join()方法返回一個(gè)字符串。

          好了,現(xiàn)在選中'天安門廣場(chǎng)'這幾個(gè)字并復(fù)制,然后到桌面雙擊你的程序。當(dāng)然你也可以在命令行找到你的程序,然后輸入地點(diǎn)。

          二、用requests模塊從Web下載文件:requests模塊不是Python自帶的,通過(guò)命令行運(yùn)行pip install request安裝。沒(méi)翻墻是很難安裝成功的,手動(dòng)安裝可以參考這里。

          requests中查看網(wǎng)上下載的文件內(nèi)容的方法還有很多,如果以后的博客用的到,會(huì)做說(shuō)明,在此不再一一介紹。在下載文件的過(guò)程中,用raise_for_status()方法可以確保下載確實(shí)成功,然后再讓程序繼續(xù)做其他事情。

          三、將下載的文件保存到本地:

          四、用BeautifulSoup模塊解析HTML:在命令行中用pip install beautifulsoup4安裝它。

          1.bs4.BeautifulSoup()函數(shù)可以解析HTML網(wǎng)站鏈接requests.get(),也可以解析本地保存的HTML文件,直接open()一個(gè)本地HTML頁(yè)面。

          我這里有錯(cuò)誤提示,所以加了第二個(gè)參數(shù)。

          2.用select()方法尋找元素:需傳入一個(gè)字符串作為CSS“選擇器”來(lái)取得Web頁(yè)面相應(yīng)元素,例如:

          1. soup.select('div'):所有名為<div>的元素;
          2. soup.select('#author'):帶有id屬性為author的元素;
          3. soup.select('.notice'):所有使用CSS class屬性名為notice的元素;
          4. soup.select('div span'):所有在<div>元素之內(nèi)的<span>元素;
          5. soup.select('input[name]'):所有名為<input>并有一個(gè)name屬性,其值無(wú)所謂的元素;
          6. soup.select('input[type="button"]'):所有名為<input>并有一個(gè)type屬性,其值為button的元素。

          想查看更多的解析器,請(qǐng)參看這里。

          3.通過(guò)元素的屬性獲取數(shù)據(jù):接著上面的代碼寫。

          >>> link[0].get('href') 
          'css/mozMainStyle-min.css?v=20170705
          

          以上就是本文的全部?jī)?nèi)容啦,同時(shí)這些代碼實(shí)例也算是對(duì)“網(wǎng)絡(luò)爬蟲”的一些初探。

          最后多說(shuō)一句,小編是一名python開發(fā)工程師,這里有我自己整理了一套最新的python系統(tǒng)學(xué)習(xí)教程,包括從基礎(chǔ)的python腳本到web開發(fā)、爬蟲、數(shù)據(jù)分析、數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)等。想要這些資料的可以關(guān)注小編,并在后臺(tái)私信小編:“07”即可領(lǐng)取。


          主站蜘蛛池模板: 国产乱码精品一区二区三区中文 | 精品女同一区二区| 黄桃AV无码免费一区二区三区| 国产福利一区二区三区在线观看 | 麻豆国产在线不卡一区二区| 精品一区二区三区色花堂| 无码一区二区三区爆白浆| 亚洲韩国精品无码一区二区三区 | 蜜桃传媒视频麻豆第一区| 日本高清天码一区在线播放| 国产一区二区三区在线观看免费| 亚洲国产老鸭窝一区二区三区| 成人久久精品一区二区三区| 亚洲AV无码一区二区二三区软件 | 97久久精品午夜一区二区| 婷婷亚洲综合一区二区| 亚洲日韩国产一区二区三区在线 | 福利电影一区二区| 人妻夜夜爽天天爽一区| 亚洲另类无码一区二区三区| 精品人妻码一区二区三区| 日韩精品乱码AV一区二区| 在线观看免费视频一区| 久久一区二区三区99| 狠狠色婷婷久久一区二区三区| 久久久不卡国产精品一区二区| 一区二区三区在线免费观看视频| 日本丰满少妇一区二区三区 | 亚洲香蕉久久一区二区| 国产日韩一区二区三区| 亚洲欧美国产国产一区二区三区| 国产主播在线一区| 日本v片免费一区二区三区| 日本v片免费一区二区三区| 国产一区中文字幕在线观看| 亚洲国产专区一区| 久久青草精品一区二区三区| 91午夜精品亚洲一区二区三区| 99久久无码一区人妻a黑| 亚洲AV无码一区二区乱子仑| 日本一区二区三区在线看|