Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537
取網頁其實就是通過URL獲取網頁信息,網頁信息的實質是一段添加了JavaScript和CSS的HTML代碼。Python提供了一個抓取網頁信息的第三方模塊requests,requests模塊自稱“HTTP for Humans”,直譯過來的意思是專門為人類而設計的HTTP模塊,該模塊支持發送請求,也支持獲取響應。
1.發送請求
requests模塊提供了很多發送HTTP請求的函數,常用的請求函數具體如表10-1所示。
表10-1 requests模塊的請求函數
2.獲取響應
requests模塊提供的Response 類對象用于動態地響應客戶端的請求,控制發送給用戶的信息,并且將動態地生成響應,包括狀態碼、網頁的內容等。接下來通過一張表來列舉Response類可以獲取到的信息,如表10-2所示。
表10-2 Response 類的常用屬性
接下來通過一個案例來演示如何使用requests模塊抓取百度網頁,具體代碼如下:
# 01 requests baidu
import requests
base_url='http://www.baidu.com'
#發送GET請求
res=requests.get (base_url)
print("響應狀態碼:{}".format(res.status_code)) #獲取響應狀態碼
print("編碼方式:{}".format(res.encoding)) #獲取響應內容的編碼方式
res.encoding='utf-8' #更新響應內容的編碼方式為UIE-8
print("網頁源代碼:\n{}".format(res.text)) #獲取響應內容
以上代碼中,第2行使用import導入了requests模塊;第3~4行代碼根據URL向服務器發送了一個GET請求,并使用變量res接收服務器返回的響應內容;第5~6行代碼打印了響應內容的狀態碼和編碼方式;第7行將響應內容的編碼方式更改為“utf-8”;第8行代碼打印了響應內容。運行程序,程序的輸出結果如下:
響應狀態碼:200
編碼方式:ISO-8859-1
網頁源代碼:
<!DOCTYPE html>
<!–-STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;
charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.
com/r/www/cache/bdorz/baidu.min.css><title>百度一下,你就知道</title></head>
<body link=#0000cc>…省略N行…</body></html>
值得一提的是,使用requests模塊爬取網頁時,可能會因為沒有連接網絡、服務器連接失敗等原因導致產生各種異常,最常見的兩個異常是URLError和HTTPError,這些網絡異常可以使用 try…except 語句捕獲與處理。
身體驗:用jquery輕松抓取其他網站的內容!
在當今信息爆炸的時代,我們經常需要從各個網站獲取所需的數據。而jquery這個強大的JavaScript庫,不僅可以幫助我們構建交互式網頁,還可以輕松實現抓取其他網站的內容。下面我將分享我的親身體驗,告訴你如何利用jquery輕松抓取其他網站的內容。
一、了解jquery的基本原理
jquery是一個快速、簡潔且功能豐富的JavaScript庫,它封裝了許多常用操作和函數,使得我們能夠更加便捷地操作DOM、處理事件以及實現動畫效果等。而在抓取其他網站內容方面,jquery主要利用了其強大的選擇器和AJAX功能。
二、選擇合適的選擇器
在使用jquery抓取其他網站內容時,首先要選擇合適的選擇器來定位所需數據。jquery提供了豐富多樣的選擇器,可以根據元素的ID、類名、標簽名等進行選擇。例如,如果想要抓取某個網頁中所有的標題元素,可以使用類選擇器(.title)或標簽選擇器(h1)來定位。
三、使用AJAX進行異步請求
在實際抓取其他網站內容時,一般需要使用AJAX進行異步請求。通過jquery的$.ajax()方法,我們可以發送HTTP請求并獲取其他網站的內容。例如,可以使用GET方法請求一個網頁,并將返回的HTML代碼保存到一個變量中,然后再通過選擇器提取所需數據。
四、處理跨域問題
在抓取其他網站內容時,常常會遇到跨域問題。由于瀏覽器的同源策略限制,我們無法直接從一個域名下獲取另一個域名的內容。但是,jquery提供了一些方法來解決這個問題。例如,在AJAX請求中設置dataType為"jsonp",即可實現跨域請求。
五、處理返回數據
當我們成功獲取其他網站的內容后,就需要對返回的數據進行處理。可以使用jquery提供的各種方法來操作DOM元素、提取文本或屬性值等。例如,可以使用text()方法來獲取元素的文本內容,attr()方法來獲取元素的屬性值。
六、注意網站規范和法律問題
在抓取其他網站內容時,我們必須遵守相關的法律法規和網站規范。不得非法獲取他人隱私信息或侵犯他人權益。在實際操作中,建議先閱讀目標網站的robots.txt文件,并遵守其規定。
七、案例分享:抓取電商商品信息
作為一個程序員兼購物狂人,我經常需要從各個電商網站獲取商品信息。最近,我想要抓取某電商網站上的手機價格信息,于是我使用jquery編寫了一個小腳本。通過設置合適的選擇器和AJAX請求,我成功地抓取到了所需的手機價格,并將其保存到了一個文件中。這樣一來,我就能夠方便地比較不同電商網站上的手機價格,從而做出更明智的購買決策。
八、總結
通過我的親身體驗,我發現利用jquery抓取其他網站內容非常簡單。只需要掌握基本的jquery知識,選擇合適的選擇器和AJAX請求,就能夠輕松實現抓取其他網站的內容。當然,在實際操作中還需注意法律法規和網站規范。希望我的分享對你有所幫助,祝你在抓取其他網站內容的旅程中順利前行!
相關文章推薦:
-《用Python爬蟲抓取網頁數據》
-《學習Web開發必備:HTML、CSS和JavaScript入門指南》
節內容是"VBA信息獲取與處理"教程中第八個專題"VBA與HTML文檔"的第五節。,希望想掌握這方面知識的朋友能參考我的教程學習。
大家好,我們繼續對HTML文檔進行學習,在前幾節中我們認識了網頁文檔上面的各種元素,那么我們又該怎么訪問他們呢,是如何實現呢?其實,HTML文檔,提供了訪問其元素的端口,這就是HTML DOM,其定義了一套標準的針對 HTML 文檔的對象訪問或操作的機制。HTML DOM 定義了所有 HTML 元素的對象和屬性,以及訪問它們的方法。換言之,HTML DOM 是關于如何獲取、修改、添加或刪除 HTML 元素的標準。
每個載入瀏覽器的 HTML 文檔都會成為 Document 對象。Document 對象使我們可以從腳本中對 HTML 頁面中的所有元素進行訪問。Document 對象是 HTML 文檔的根節點。
特別注意:Document 對象是 Window 對象的一部分,可通過 window.document 屬性對其進行訪問。
集合 描述
all[] 提供對文檔中所有 HTML 元素的訪問。
anchors[] 返回對文檔中所有 Anchor 對象的引用。
applets 返回對文檔中所有 Applet 對象的引用。
forms[] 返回對文檔中所有 Form 對象引用。
images[] 返回對文檔中所有 Image 對象引用。
links[] 返回對文檔中所有 Area 和 Link 對象引用。
VBA直接支持調用的對象有限,如下:
對象 描述
Document 代表整個 HTML 文檔,可被用來訪問頁面中的所有元素
Anchors 代表 <a> 元素集合
Body 代表 <body> 元素
Forms 代表 <form> 元素集合
Frames 代表 <frame> 元素或<iframe> 元素集合
Images 代表 <img> 元素集合
Links 代表 <link> 元素集合
Options 代表 <option> 元素集合(select元素里面可以直接使用)
Cells 代表 <td> 元素集合(table元素里面可以直接使用)
Rows 代表 <tr> 元素集合(table元素里面可以直接使用)
All 對象集合,提供對文檔中所有 HTML 元素的訪問。
上述VBA支持直接調用對象的元素,調用起來就非常方便了,可以用序號調用,例如forms(0),也可以按名稱/ID調用,例如forms("名稱/ID")。其他沒法直接調用對象的元素,可以間接從通用all對象集合中去調用該元素或該元素對應的dom對象。
在HTML DOM中,所有事物都是節點。DOM 是被視為節點樹的 HTML文檔的每一部分都是節點,整個文檔被定義為一個文檔節點,每個標簽是一個元素節點,包含在元素中的文本是文本節點,每一個元素的屬性是一個屬性節點。如下:
1)整個文檔是一個文檔節點
2)每個 HTML 元素是元素節點
3)HTML 元素內的文本是文本節點
4)每個 HTML 屬性是屬性節點
5)注釋是注釋節點
HTML DOM 將 HTML 文檔視作樹結構。這種結構被稱為節點樹,這時一個非常形象的比喻,根節點就是html,主干就是body等,枝干就是body內含的各種元素節點,葉子和花就是元素節點關聯的元素的屬性(屬性節點)或內含文本(文本節點)。
通過 HTML DOM,樹中的所有節點均可通過 JavaScript 進行訪問。所有 HTML 元素(節點)均可被修改,也可以創建或刪除節點。節點樹中的節點彼此擁有層級關系。父(parent)、子(child)和同胞(sibling)等術語用于描述這些關系。父節點擁有子節點。同級的子節點被稱為同胞(兄弟或姐妹)。
網頁文檔,可以說是由元素組合而成的,也可以說是由節點連接而成的樹構造的。節點是文檔樹結構中特有的名詞,元素是節點,但是節點不一定是元素,節點還有文檔節點、文本節點、屬性節點等;元素是元素節點的擴展,元素可以擁有屬性還有文本。初學者不是很必要糾結元素和節點的區別,這個需要甚至數據結構、類和繼承等知識。可大致理解為,同一個html dom對象,提供的兩個不同接口。如下的程序,你會發現,他既有支持node(節點)的相關屬性和方法,也提供了element(元素)的相關屬性和方法。
Sub MYNZ()
Dim ie, dmt, bd
Set ie=CreateObject("InternetExplorer.Application") '創建一個IE對象
With ie
.Visible=True '顯示它
.navigate "http://www.baidu.com" '加載某個頁面
Do Until .ReadyState=4 '等待頁面加載完畢
DoEvents
Loop
Set dmt=.document '將IE瀏覽器加載的頁面文檔,賦予dmt變量
Set bd=dmt.body '將文檔的body賦予bd變量
End With
End Sub
代碼截圖:
按F8鍵運行截圖:
屬性是節點(HTML 元素)的值,您能夠獲取或設置。所有 HTML 元素被定義為對象,而編程接口則是對象方法和對象屬性。我們看看下面一些常見的屬性:
1)innerHTML 屬性 對象內部的HTML代碼,是獲取元素內容的最簡單方法。innerHTML 屬性對于獲取或替換 HTML 元素的內容很有用。
下面的代碼獲取 id="intro" 的 <p> 元素的 innerHTML:
<script>
var txt=document.getElementById("intro").innerHTML;
document.write(txt);
2)OuterHtml:對象的HTML代碼,包括對象本身的HTML標簽
3)innerText:對象內部的文本
4)OuterText:對象的文本,包括對象本身的文本
5)nodeName 屬性 nodeName 屬性規定節點的名稱。
nodeName 是只讀的
元素節點的 nodeName 與標簽名相同
屬性節點的 nodeName 與屬性名相同
文本節點的 nodeName 始終是 #text
文檔節點的 nodeName 始終是 #document
注釋:nodeName 始終包含 HTML 元素的大寫字母標簽名。
6)nodeValue 屬性 nodeValue 屬性規定節點的值。
元素節點的 nodeValue 是 undefined 或 null
文本節點的 nodeValue 是文本本身
屬性節點的 nodeValue 是屬性值
7)nodeType 屬性 nodeType 屬性返回節點的類型。nodeType 是只讀的。
比較重要的節點類型有:
元素類型 NodeType
元素 1
屬性 2
文本 3
注釋 8
文檔 9
以上只是給出了屬性值,大家在使用的時候要注意。
本節知識點回向:
什么是HTML DOM文檔的屬性,常用的屬性有哪些。
本節參考文件:008工作表.xlsm
在我的系列書籍中一直在強調"搭積木"的編程思路,這也是學習利用VBA的主要方法,特別是職場人員,更是要采用這種方案。其主要的內涵:
1 代碼不要自己全部的錄入。你要做的是把積木放在合適的位置然后去修正代碼,一定要拷貝,從你的積木庫中去拷貝,然后修正代碼,把時間利用到高效的思考上。
2 建立自己的"積木庫"。平時在學習過程中,把自己認為有用的代碼放在一起,多積累,在用到的時候,可以隨時拿來。你的積木庫資料越多,你做程序的思路就會越廣。
VBA是利用Office實現個人小型辦公自動化的有效手段(工具)。這是我對VBA的應用界定。在取代OFFICE新的辦公軟件沒有到來之前,誰能在數據處理方面做到極致,誰就是王者。其中登峰至極的技能非VBA莫屬!
我記得20年前自己初學VBA時,那時的資料甚少,只能看源碼自己琢磨,真的很難。20年過去了,為了不讓學習VBA的朋友重復我之前的經歷,我根據自己多年VBA實際利用經驗,推出了六部VBA專門教程:
第一套:VBA代碼解決方案 是VBA中各個知識點的講解,教程共147講,覆蓋絕大多數的VBA知識點,初學必備;
第二套:VBA數據庫解決方案 數據庫是數據處理的專業利器,教程中詳細介紹了利用ADO連接ACCDB和EXCEL的方法和實例操作,適合中級人員的學習。
第三套:VBA數組與字典解決方案 數組和字典是VBA的精華,字典是VBA代碼水平提高的有效手段,值得深入的學習,是初級及中級人員代碼精進的手段。
第四套:VBA代碼解決方案之視頻 是專門面向初學者的視頻講解,可以快速入門,更快的掌握這門技能。這套教程是第一套教程的視頻講解,聽元音更易接受。
第五套:VBA中類的解讀和利用 這是一部高級教程,講解類的虛無與肉身的度化,類的利用雖然較少,但仔細的學習可以促進自己VBA理論的提高。這套教程的領會主要是讀者的領悟了,領悟一種佛學的哲理。
第六套教程:《VBA信息獲取與處理》,這是一部高級教程,涉及范圍更廣,實用性更強,面向中高級人員。教程共二十個專題,包括:跨應用程序信息獲得、隨機信息的利用、電子郵件的發送、VBA互聯網數據抓取、VBA延時操作,剪切板應用、Split函數擴展、工作表信息與其他應用交互,FSO對象的利用、工作表及文件夾信息的獲取、圖形信息的獲取以及定制工作表信息函數等等內容。
大家可以根據以上資料1→3→2→6→5或者是4→3→2→6→5的順序逐漸深入的逐漸學習。教程提供講解的同時提供了大量的積木,如需要可以WeChat: NZ9668
如太白詩云:眾鳥高飛盡,孤云獨去閑。相看兩不厭,只有敬亭山。學習的過程也是修心的過程,修一個平靜的心。在代碼的世界中,心平靜了,心情好了,身體自然而然就好。心靜則正,內心里沒有那么多邪知邪見,也就沒有那么多妄想。利人就是利己。這些教程也是為幫助大家起航,助上我自己之力,我的上述教程是我多的經驗的傳遞,
"水善利萬物而不爭",綿綿密密,微則無聲,巨則洶涌。學習亦如此,知道什么是自己所需要的,不要蜷縮在一小塊自認為天堂的世界里,待到暮年時再去做自欺欺人的言論。要努力提高自己,用一顆充滿生機的心靈,把握現在,這才是進取。越是有意義的事情,困難會越多。愿力決定始終,智慧決定成敗。不管遇到什么,都是風景。看淡紛爭,看輕得失。茶,滿也好,少也好,不要計較;濃也好,淡也好,其中自有值得品的味道。去感悟真實的時間,靜下心,多學習,積累福報。而不是天天混日子,也不是天天熬日子。在后疫情更加嚴峻的存量殘殺世界中,為自己的生存進行知識的儲備,特別是新知識的儲備。學習時微而無聲,利用時則巨則洶涌。
每一分收獲都是成長的記錄,怎無憑,正是這種執著,成就了朝霞的燦爛。最后將一闕詞送給致力于VBA學習的朋友,讓大家感受一下學習過程的枯燥與執著:
浮云掠過,暗語無聲,
唯有清風,驚了夢中啼鶯。
望星,疏移北斗,
奈將往事雁同行。
阡陌人,昏燈明暗,
忍顧長亭。
多少VBA人,
暗夜中,悄聲尋夢,盼卻天明。
怎無憑!
回向學習利用VBA的歷歷往事,不勝感慨,謹以這些文字給大家,分享我多年工作實際經驗的成果,隨喜這些有用的東西,給確實需要利用VBA的同路人。
分享成果,隨喜正能量
*請認真填寫需求信息,我們會在24小時內與您取得聯系。