web實戰開發-巧用Jsoup提取網頁的有效信息

言:

關于Jsoup的使用, 使用的時間也算蠻長了, 真心覺得這東西很牛掰. 對于從頁面中提取信息的應用需求, Java版XPath的解決方案, 讓人非常的失望, 本質原因是XPath需要嚴格的XML規范的文本內容, 而網頁內容本身, 千變萬化, 其標簽體系并不嚴格, 比如標簽沒完全配對, 缺少閉合標簽等等. 沒有一定的容錯性, 導致XPath在頁面處理的方案競爭中, 無情地被pass掉了, T_T.

Jsoup采用css selector機制去定位/操作DOM樹的元素, 快速而語法簡潔, 對網頁內容的有效信息提取, 去噪音, 簡直就是大利器. 文章將講述下jsoup的常見應用場景, 并簡單介紹下如何使用?

DOM樹和CSS選擇器:

網頁本質是一棵DOM樹(文檔對象模型), 可以基于此, 對該DOM樹進行操作, 增刪節點, 修改節點屬性, 從而到達改變網頁的內容的效果.

CSS選擇器(css selector), 用于快速查詢相應的節點. 和XPath解決方案的不同在于, 其談化了路徑概念, 而且語法更加簡潔. 對于熟悉jquery的用戶而言, 基于上是零成本技能遷移.

CSS選擇器, 包含元素選擇器, 類選擇器, id選擇器, 偽類選擇器等, 可以組合使用.

舉個例子:

<html>
<body>
<div class="container">
<img id="img_id_0" src="" alt="圖片A"/>
<img id="img_id_1" src="" alt="圖片B"/>
</div>
</body>
</html>

想要獲取圖片B的元素, 則使用表達式: img#img_id_1 即可.

想要獲取div的整個內容, 則使用表示是: div.container 即可.

網頁信息的提取策略:

以新浪新聞稿頁面為例, 標題為: 女人一生最怕什么?

其正文內容, 可以通過Google Chrome的控制臺去快速定位.

其通過chrome的控制臺, 測試css選擇器:section.j_article_main, 是唯一的, 而且覆蓋了文章正文內容.

因此簡單的通過, 下載該網頁內容, 然后使用jsoup處理一下, 即可達到目標.

String url=".....";
String html=".....";
Document doc=Jsoup.parse(html, url);
Element articleEle=doc.select("section.j_article_main").first();
String text=articleEle.text();

就這樣簡單的, 把正文的文本內容給提取出來了, 如果你收集新聞網頁用于搜索引擎, 那這種處理方式是最好的, 既獲取到有效信息, 又排除了各類噪音信息(廣告, 相關文章推薦, 評論, 公共導航鏈接).

鏈接提取:

網頁里面的鏈接元素, 可能是絕對路徑的鏈接, 也可能是相對路徑的鏈接.

相對路徑的鏈接, 是需要轉化為絕對路徑, 才有它的意義存在, jsoup可以快速幫助我們事先這個目標, 而免去了我們的自己拼裝過程.

String url=".....";
String html=".....";
Document doc=Jsoup.parse(html, url);
Elements as=doc.select("a[href]");
for ( Element a : as ) {
a.attr("href", a.attr("abs:href"));
}

注: 函數attr("abs:href")用于獲取絕對url路徑, 這幾行代碼, 把相對路徑, 全都轉換為絕對路徑的鏈接了.

后記:

其實jsoup非常的強大, 一方面在于它的簡潔性, 另一方面還是它強大的容錯能力, 對于互聯網而言, 不健全的網頁是在太多了, 因此能夠兼容各種網頁格式, 并從中獲取到有效的信息, 實在是難能可貴, 就憑這一點, 真心給jsoup點個贊, 哈哈.

ndroid高階開發專欄

Java高級開發進階專欄

TCP連接的三次握手和四次揮手

一文搞懂DNS域名解析的詳細流程

高并發與負載均衡：Nginx的反向代理和負載均衡

一文搞懂TCP/IP協議及Web基礎知識

一文搞懂HTTP協議的核心知識點

一文掌握 HTTP協議報文包含的信息類型

一文搞懂HTTP協議返回結果的HTTP狀態碼

一文搞懂 HTTP協議的報文首部

作為網絡專欄的開篇導文，本文概況介紹下經典案例：從輸入一個網址到瀏覽器顯示頁面的全過程。

步驟概要介紹如下：

1、輸入網址
2、DNS解析獲取域名對應的IP地址
3、建立TCP連接
4、web瀏覽器向web服務器發送HTTP請求
5、服務器的永久重定向響應
6、瀏覽器跟蹤重定向地址
7、web服務器做出應答
8、瀏覽器顯示 HTML
9、瀏覽器發送請求獲取其他嵌入在 HTML 中的資源
10、web服務器關閉TCP連接

1、輸入網址

當在瀏覽器中輸入網址時，瀏覽器其實就已在智能匹配 url 了，他會從歷史記錄，書簽等地方，找到已經輸入的字符串可能對應的 url，然后給出智能提示，讓你可以補全url地址。

對于 google的chrome 的瀏覽器，他甚至會直接從緩存中把網頁展示出來，就是說，你還沒有按下 enter，頁面就出來了。

2、DNS解析獲取域名對應的IP地址

請求一旦發起，瀏覽器首先要做的事情就是解析這個域名。

1、一般來說，瀏覽器會首先查看本地硬盤的 hosts 文件，看看其中有沒有和這個域名對應的規則，如果有的話就直接使用 hosts 文件里面的 ip 地址。
2、如果在本地的 hosts 文件沒有能夠找到對應的 ip 地址，瀏覽器會發出一個 DNS請求到本地DNS服務器。本地DNS服務器一般都是你的網絡接入服務器商提供，比如中國電信，中國移動。
3、查詢你輸入的網址的DNS請求到達本地DNS服務器之后，本地DNS服務器會首先查詢它的緩存記錄，如果緩存中有此條記錄，就可以直接返回結果，此過程是遞歸的方式進行查詢。如果沒有，本地DNS服務器還要向DNS根服務器進行查詢。
4、根DNS服務器沒有記錄具體的域名和IP地址的對應關系，而是告訴本地DNS服務器，你可以到域服務器上去繼續查詢，并給出域服務器的地址。這種過程是迭代的過程。
5、本地DNS服務器繼續向域服務器發出請求，在這個例子中，請求的對象是.com域服務器。.com域服務器收到請求之后，也不會直接返回域名和IP地址的對應關系，而是告訴本地DNS服務器，你的域名的解析服務器的地址。
6、最后，本地DNS服務器向域名的解析服務器發出請求，這時就能收到一個域名和IP地址對應關系，本地DNS服務器不僅要把IP地址返回給用戶電腦，還要把這個對應關系保存在緩存中，以備下次別的用戶查詢時，可以直接返回結果，加快網絡訪問。

3、建立TCP連接

在HTTP工作開始之前，web瀏覽器首先要通過網絡與web服務器建立連接，該連接是通過TCP來完成的。

PS1：為什么要先建立TCP呢？

因為HTTP是比TCP更高層次的應用層協議，根據規則，只有低層協議建立之后才能進行更高層次協議的連接，因此要先建立TCP連接，一般TCP連接的端口號是80

PS2：擴展知識點：

TCP連接的三次握手和斷開的四次揮手參照站內文章：TCP 三次握手和四次揮手

4、web瀏覽器向web服務器發送HTTP請求

建立了TCP連接之后，web瀏覽器就會向web服務器發起一個http請求。

一個典型的 http request header 一般需要包括請求的方法，例如 GET 或者 POST 等，不常用的還有 PUT 和 DELETE 、HEAD、OPTION以及 TRACE 方法，一般的瀏覽器只能發起 GET 或者 POST 請求。

客戶端向服務器發起http請求的時候，會有一些請求信息，請求信息包含三個部分：

請求方法URI協議/版本
請求頭(Request Header)
請求正文：

下面是一個完整的HTTP請求例子：

GET/sample.jspHTTP/1.1
Accept:image/gif.image/jpeg,*/*
Accept-Language:zh-cn
Connection:Keep-Alive
Host:localhost
User-Agent:Mozila/4.0(compatible;MSIE5.01;Window NT5.0)
Accept-Encoding:gzip,deflate

username=jinqiao&password=1234

4.1、請求行

請求的第一行是“方法URL議/版本”：GET/sample.jsp HTTP/1.1

4.2、請求頭(Request Header)

請求頭包含許多有關的客戶端環境和請求正文的有用信息。例如，請求頭可以聲明瀏覽器所用的語言，請求正文的長度等。

Accept:image/gif.image/jpeg.*/*
Accept-Language:zh-cn
Connection:Keep-Alive
Host:localhost
User-Agent:Mozila/4.0(compatible:MSIE5.01:Windows NT5.0)
Accept-Encoding:gzip,deflate.

4.3、請求正文

請求頭和請求正文之間是一個空行，這個行非常重要，它表示請求頭已經結束，接下來的是請求正文。請求正文中可以包含客戶提交的查詢字符串信息：

username=jinqiao&password=1234

5、服務器的永久重定向響應

服務器給瀏覽器響應一個301永久重定向響應，這樣瀏覽器就會訪問“http://www.google.com/” 而非“http://google.com/”。

為什么服務器一定要重定向而不是直接發送用戶想看的網頁內容呢？其中一個原因跟搜索引擎排名有關。如果一個頁面有兩個地址，就像http://www.yy.com/和http://yy.com/，搜索引擎會認為它們是兩個網站，結果造成每個搜索鏈接都減少從而降低排名。而搜索引擎知道301永久重定向是什么意思，這樣就會把訪問帶www的和不帶www的地址歸到同一個網站排名下。還有就是用不同的地址會造成緩存友好性變差，當一個頁面有好幾個名字時，它可能會在緩存里出現好幾次。

重定向原因：

1、網站調整（如改變網頁目錄結構）；
2、網頁被移到一個新地址；
3、網頁擴展名改變(如應用需要把.php改成.Html或.shtml)。

這種情況下，如果不做重定向，則用戶收藏夾或搜索引擎數據庫中舊地址只能讓訪問客戶得到一個404頁面錯誤信息，訪問流量白白喪失；再者某些注冊了多個域名的網站，也需要通過重定向讓訪問這些域名的用戶自動跳轉到主站點等。

6、瀏覽器跟蹤重定向地址

現在瀏覽器知道了 "http://www.google.com/"才是要訪問的正確地址，所以它會發送另一個http請求。這里沒有啥好說的

7、web服務器做出應答

經過前面的步驟，服務器收到了我們的請求，也處理我們的請求，到這一步，它會把它的處理結果返回，也就是返回一個HTPP響應。

HTTP響應與HTTP請求相似，HTTP響應也由3個部分構成，分別是：

狀態行
響應頭(Response Header)
響應正文

HTTP/1.1 200 OK
Date: Sat, 31 Dec 2005 23:59:59 GMT
Content-Type: text/html;charset=ISO-8859-1
Content-Length: 122

＜html＞
＜head＞
＜title＞http＜/title＞
＜/head＞
＜body＞
＜!-- body goes here --＞
＜/body＞
＜/html＞

7.1、狀態行：

狀態行由協議版本、數字形式的狀態代碼、及相應的狀態描述，各元素之間以空格分隔。

格式: HTTP-Version Status-Code Reason-Phrase CRLF

例如: HTTP/1.1 200 OK \r\n

-- 協議版本：是用http1.0還是其他版本

-- 狀態描述：狀態描述給出了關于狀態代碼的簡短的文字描述。比如狀態代碼為200時的描述為 ok

-- 狀態代碼：狀態代碼由三位數字組成，第一個數字定義了響應的類別，且有五種可能取值。

狀態代碼具體協議定義如下：

1xx：信息性狀態碼，表示服務器已接收了客戶端請求，客戶端可繼續發送請求。
100 Continue
101 Switching Protocols

2xx：成功狀態碼，表示服務器已成功接收到請求并進行處理。
200 OK 表示客戶端請求成功
204 No Content 成功，但不返回任何實體的主體部分
206 Partial Content 成功執行了一個范圍（Range）請求

3xx：重定向狀態碼，表示服務器要求客戶端重定向。
301 Moved Permanently 永久性重定向，響應報文的Location首部應該有該資源的新URL
302 Found 臨時性重定向，響應報文的Location首部給出的URL用來臨時定位資源
303 See Other 請求的資源存在著另一個URI，客戶端應使用GET方法定向獲取請求的資源
304 Not Modified 服務器內容沒有更新，可以直接讀取瀏覽器緩存
307 Temporary Redirect 臨時重定向。與302 Found含義一樣。302禁止POST變換為GET，但實際使用時并不一定，307則更多瀏覽器可能會遵循這一標準，但也依賴于瀏覽器具體實現

4xx：客戶端錯誤狀態碼，表示客戶端的請求有非法內容。
400 Bad Request 表示客戶端請求有語法錯誤，不能被服務器所理解
401 Unauthonzed 表示請求未經授權，該狀態代碼必須與 WWW-Authenticate 報頭域一起使用
403 Forbidden 表示服務器收到請求，但是拒絕提供服務，通常會在響應正文中給出不提供服務的原因
404 Not Found 請求的資源不存在，例如，輸入了錯誤的URL

5xx：服務器錯誤狀態碼，表示服務器未能正常處理客戶端的請求而出現意外錯誤。
500 Internel Server Error 表示服務器發生不可預期的錯誤，導致無法完成客戶端的請求
503 Service Unavailable 表示服務器當前不能夠處理客戶端的請求，在一段時間之后，服務器可能會恢復正常

7.2、響應頭：

響應頭部：由關鍵字/值對組成，每行一對，關鍵字和值用英文冒號":"分隔。

Date: Sat, 31 Dec 2005 23:59:59 GMT
Content-Type: text/html;charset=ISO-8859-1
Content-Length: 122

典型的響應頭字段：

7.3、響應正文

包含著我們需要的一些具體信息，比如cookie，html,image，后端返回的請求數據等等。這里需要注意，響應正文和響應頭之間有一行空格，表示響應頭的信息到空格為止。

8、瀏覽器顯示 HTML

在瀏覽器沒有完整接受全部HTML文檔時，它就已經開始顯示這個頁面了，瀏覽器是如何把頁面呈現在屏幕上的呢？

不同瀏覽器可能解析的過程不太一樣，這里我們只介紹webkit的渲染過程。下圖對應的就是WebKit渲染的過程，這個過程包括：

解析html以構建dom樹 -> 構建render樹 -> 布局render樹 -> 繪制render樹：

9、瀏覽器發送請求獲取嵌入在 HTML 中的資源（如圖片、音頻、視頻、CSS、JS等等）

其實這個步驟可以并列在步驟8中，在瀏覽器顯示HTML時，它會注意到需要獲取其他地址內容的標簽。這時，瀏覽器會發送一個獲取請求來重新獲得這些文件。比如我要獲取外圖片，CSS，JS文件等，類似于下面的鏈接：

圖片：http://static.ak.fbcdn.net/rsrc.php/z12E0/hash/8q2anwu7.gif

CSS式樣表：http://static.ak.fbcdn.net/rsrc.php/z448Z/hash/2plh8s4n.css

JavaScript 文件：http://static.ak.fbcdn.net/rsrc.php/zEMOA/hash/c8yzb6ub.js

這些地址都要經歷一個和HTML讀取類似的過程。所以瀏覽器會在DNS中查找這些域名，發送請求，重定向等等...

不像動態頁面，靜態文件會允許瀏覽器對其進行緩存。有的文件可能會不需要與服務器通訊，而從緩存中直接讀取，或者可以放到CDN中

10、web服務器關閉TCP連接

一般情況下，一旦web服務器向瀏覽器發送了請求數據后，它就要關閉TCP連接，然后如果瀏覽器或者服務器在其頭信息加入這行代碼：

connection:keep-alive

這樣TCP連接將依然保持打開狀態，瀏覽器可以繼續通過相同的連接發送請求，保持連接，節省了為每個請求建立新連接所需要的的事件，同時節省了寬帶

實際上，在HTTP 1.1 版本的新特性中有一點是：默認持久連接節省通信量，只要客戶端、服務端任意一端沒有明確斷開TCP連接，可以發送多次HTTP請求。

版權說明：摘錄到部分網絡資源，如存在版權問題，請私信聯系處理，謝謝！

關注頭條號“編程家園”，后續陸續會有更多技術領域（包括并不限于Android進階、Java進階、Kotlin、網絡、Flutter、Python等），以及架構、職業規劃、職業思考等方面資料的免費分享，期待您的關注！

天辦公用戶都會通過網頁獲取不少信息，但是長時間面對電腦屏幕也會造成視覺上的疲勞感。因此不少用戶改用收聽的方式來獲取信息，但并不是所有的信息都可以通過這種方式進行獲取，比如網頁中的內容就是如此。其實我們可以想方法將網頁中的內容閱讀出來，這樣用戶通過耳朵就可以獲取需要的信息內容。

在閱讀模式中聆聽內容

當然通過網頁瀏覽器自身的功能是無法完成這樣的操作的，不過通過安裝一個網頁瀏覽器的功能擴展插件就可以很方便地解決了。如果用戶使用的是谷歌瀏覽器，或者是在其基礎上開發的360極速瀏覽器、百度瀏覽器、QQ瀏覽器等，可以分別通過它們的應用商店安裝一款名為 Clearly的功能擴展插件。安裝完成以后就可以在工具欄中看到該擴展插件的圖標。

以后用戶要想對網頁中的內容進行閱讀操作時，首先點擊工具欄中的擴展圖標“Active Clearly”，或者在網頁正文上點擊鼠標右鍵，選擇菜單中的“Toggle Clearly”命令，這樣就會將當前的頁面切換到閱讀模式的狀態。這時在網頁的右側可以看到一排工具欄，點擊工具欄中的小喇叭按鈕，就可以對當前頁面的整個內容進行閱讀操作，這樣用戶就能快速有效地獲取網頁中的信息內容。如果用戶想讓功能擴展插件停止閱讀網頁內容，只需要點擊工具欄中的關閉按鈕退出閱讀模式即可。

小提示：該功能擴展插件會將網頁在閱讀模式下分為三個部分，通過網頁左側的導航欄可以快速跳轉到網頁的某一個部分。而通過右側的工具欄可以對網頁中的文字大小、顏色、字體、背景等信息進行設置。

根據需要調整參數信息

雖然 Clearly這一功能擴展插件使用起來非常簡單，但是它也有不足之處。首先它不支持火狐瀏覽器，另外使用它只能對整個頁面的內容進行閱讀，而不能對用戶選取的部分內容進行閱讀。如果用戶的要求比較高的話，那么還可以考慮安裝另外一款名為Read Aloud的功能擴展插件。

以后當用戶想要對網頁中的內容進行閱讀時，直接點擊工具欄中的擴展圖標。這時會彈出一個對話框窗口，在其中會看到提取出的網頁文字信息。點擊對話框窗口中的播放按鈕，就能對其中的文字信息進行閱讀（圖1）。用戶也可以通過鼠標選中要進行閱讀的部分文字，然后再點擊該功能擴展圖標進行操作即可。此外，在對話框窗口中用戶還可以對字體的大小進行調整，以及對窗口的大小進行調整等操作。

如果用戶對Read Aloud的朗讀速度等參數不滿意的話，還可以在擴展圖標上點擊鼠標右鍵，選擇“選項”命令后，在彈出的對話框中就可以進行相關的設置。比如用戶在“朗讀語音”列表中可以選擇不同的朗讀任務，從而更好地滿足不同用戶的聆聽要求。但是需要提醒大家的是，在這個列表中包括了多種不同語言的朗讀設置，用戶一定要選擇帶有“Chinese”信息的才能朗讀中文（圖2）。設置完成以后可以點擊“去測試”按鈕，這樣就可以對剛才的設置進行感受，查看是否能滿足自己最終的需要。

（CP）

在線咨詢

上一篇：云南省紀委監委網站改版上線
下一篇：C# 中的 get 和 set 訪問器：深入解析屬性

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商