爬蟲學習路線大綱

天分享下基礎爬蟲或者小規模爬蟲，應該掌握哪些技能、需要如何學起！

【文末有獲取方式】

Python 基礎

環境搭建

Python安裝
開發工具 - PyCharm，VS Code

變量

定義變量
命名規則
基本數據類型

基本數據結構

字符串
列表
字典
集合
元組

流程控制

條件
循環

函數

調用函數
定義函數
函數參數
lambda 函數

面向對象編程

類和對象
訪問限制
裝飾器

數據采集與解析

HTTP 基本原理

URI 和 URL 統一資源定位符
HTTP&HTTPS 請求與響應
HTML 組成原理

WEB 基本原理

JavaScript&HTML&CSS
節點樹與節點
Web 加載原理
靜動態 Web 頁面

Socket 庫

基于 socket 協議的爬蟲

Requests 庫

requests 庫的使用
cookie 與 session
模擬登錄
請求頭模擬
IP 代理

正則表達式

re 模塊的使用
基本字符串、數字等匹配規則
貪婪與非貪婪匹配

Xpath

執行原理
節點操作
元素操作

、前言

jsoup 是一款Java 的HTML解析器，我們使用它可直接解析URL地址、HTML文本內容。除此之外，它提供了一套非常友好的API，使得我們可以比較便利的通過DOM，CSS等操作類型，獲取對應網頁元素屬性及數據操作。

jsoup官網：https://jsoup.org/

二、核心功能

2.1、功能描述

① 從一個URL，文件或字符串中解析HTML

② 使用DOM或CSS選擇器來查找、取出數據使用DOM或CSS選擇器來查找、取出數據

③ 可操作HTML元素、屬性、文本可操作HTML元素、屬性、文本

Tips：jsoup是基于MIT協議發布的，可放心使用于商業項目

2.2、Maven地址

        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>

三、核心API

6個包提供用于開發jsoup應用程序的類和接口。

org.jsoup

org.jsoup.examples

org.jsoup.helper

org.jsoup.nodes

org.jsoup.parser
org.jsoup.safety

org.jsoup.salect

主要類：

Jsoup 類提供了連接，清理和解析HTML文檔的方法

Document 獲取HTML文檔

Element 獲取、操作HTML節點

四、實例代碼

4.1、三種加載HTML的方法


    public static void main(String[] args) {
        /* 從URL加載HTML */
        Document document = Jsoup.connect("http://www.baidu.com").get();
        String title = document.title();
        /* 獲取html中的標題 */
        System.out.println("title :"+title);

        /* 從字符串加載HTML */
        String html = "<html><head><title>First parse</title></head>"
                + "<body><p>Parsed HTML into a doc.</p></body></html>";
        Document doc = Jsoup.parse(html);
        title = doc.title();
        System.out.println("title :"+title);

        /* 從文件加載HTML */
        doc = Jsoup.parse(new File("F:\\jsoup\\html\\index.html"),"utf-8");
        title = doc.title();
        System.out.println("title :"+title);
    }

4.2、獲取html中的head、body、url等信息


    public static void main(String[] args) {
        Document document = Jsoup.connect("http://www.baidu.com").get();
        String title = document.title();

        System.out.println("title :"+title);
        /* 獲取html中的head */
        System.out.println(document.head());
        /* 獲取html中的body */

        /* 獲取HTML頁面中的所有鏈接 */
        Elements links = document.select("a[href]");
        for (Element link : links){
            System.out.println("link : "+ link.attr("href"));
            System.out.println("text :"+ link.text());
        }
    }

4.3、獲取URL的元信息


    public static void main(String[] args) {
        Document document = Jsoup.connect("https://passport.lagou.com").get();

        System.out.println(document.head());
        /* 獲取URL的元信息 */
        String description = document.select("meta[name=description]").get(0).attr("content");
        System.out.println("Meta description : " + description);

        String keywords = document.select("meta[name=keywords]").first().attr("content");
        System.out.println("Meta keyword : " + keywords);
    }

4.4、根據class名稱獲取表單


    public static void main(String[] args) {
        Document document = Jsoup.connect("https://baidu.com").get();
        /* 獲取拉勾網登入頁面的body */
        /* System.out.println(document.body()); */
        /* 根據class名稱獲取表單 */
        Elements formElement = document.getElementsByClass("form_body");
        System.out.println(formElement.html());
        /* 獲取URL的元信息 */
        for (Element inputElement : formElement) {
            String placeholder = inputElement.getElementsByTag("input").attr("placeholder");
            System.out.println(placeholder);
        }
    }

4.5、提取并打印表單參數


    public static void main(String[] args) {
        Document document = Jsoup.parse(new File("F:\\jsoup\\html\\login.html"),"utf-8");
        Element loginform = document.getElementById("registerform");

        Elements inputElements = loginform.getElementsByTag("input");
        for (Element inputElement : inputElements) {
            String key = inputElement.attr("name");
            String value = inputElement.attr("value");
            System.out.println("Param name: "+key+" -- Param value: "+value);
        }
    }

4.6、設置元素的html內容


    public static void main(String[] args) {
        Document document = Jsoup.parse(new File("F:\\jsoup\\html\\index.html"),"utf-8");
        System.out.println(document.body());
        System.out.println("*************");
        Element div = document.select("div").first();
        div.html("<p>Hello</p>");
        div.prepend("<p>Fiest</p>");
        div.append("<p>Last</p>");
        System.out.println(document.body());
        System.out.println(div.text());

        /* 對元素包裹一個外部HTML內容 */
        div.wrap("<div id=\"div2\"></div>");
        System.out.println(document.body());
    }

4.7、設置元素的文本內容

言

javascript 是一門單線程的語言，在同一個時間只能做完成一件任務，如果有多個任務，就必須排隊，前面一個任務完成，再去執行后面的任務。作為瀏覽器端的腳本語言，javascript 的主要功能是用來和用戶交互以及操作 dom。假設 javascript 不是單線程語言，在一個線程里我們給某個 dom 節點增加內容的時候，另一個線程同時正在刪除這個 dom 節點的內容，則會造成混亂。

由于 js 單線程的設計，假設 js 程序的執行都是同步。如果執行一些耗時較長的程序，例如 ajax 請求，在請求開始至請求響應的這段時間內，當前的工作線程一直是空閑狀態， ajax 請求后面的 js 代碼只能等待請求結束后執行，因此會導致 js 阻塞的問題。

javascript 單線程指的是瀏覽器中負責解釋和執行 javascript 代碼的只有一個線程，即為 js 引擎線程，但是瀏覽器的渲染進程是提供多個線程的，如下：

js 引擎線程
事件觸發線程
定時器觸發線程
異步 http 請求線程
GUI 渲染線程

一、異步 & 同步

為解決上述類似上述 js 阻塞的問題，js 引入了同步和異步的概念。

1、什么是同步？

“同步”就是后一個任務等待前一個任務結束后再去執行。

2、什么是異步？

“異步”與同步不同，每一個異步任務都有一個或多個回調函數。webapi 會在其相應的時機里將回調函數添加進入消息隊列中，不直接執行，然后再去執行后面的任務。直至當前同步任務執行完畢后，再把消息隊列中的消息添加進入執行棧進行執行。

異步任務在瀏覽器中一般是以下：

網絡請求
計時器
DOM 監聽事件
...

二、什么是執行棧(stack)、堆(heap)、事件隊列(task queue)？

1、執行棧

“棧”是一種數據結構，是一種線性表。特點為 LIFO，即先進后出（last in, first out）。

利用數組的 push 和 shift 可以實現壓棧和出棧的操作。

在代碼運行的過程中，函數的調用會形成一個由若干幀組成的棧。

function foo(b) {
  let a = 10;
  return a + b + 11;
}

function bar(x) {
  let y = 3;
  return foo(x * y);
}

console.log(bar(7))

上面代碼最終會在控制臺打印42,下面梳理一下它的執行順序。

console.log 函數作為第一幀壓入棧中。
調用 bar，第二幀被壓入棧中。幀中包含著 bar 的變量對象。
bar 調用 foo，foo 做一位第三幀被壓入棧中，幀中包含著 foo 的變量對象。
foo 執行完畢然后返回。被彈出棧。
bar 執行完畢然后返回，被彈出棧。
log 函數接收到 bar 的返回值。執行完畢后，出棧。此時棧已空。

2、堆

對象被分配在堆中，堆是一個用來表示一大塊（通常是非結構化的）內存區域的計算機術語。

堆和棧的區別

首先，stack 是有結構的，每個區塊按照一定次序存放，可以明確知道每個區塊的大小；heap 是沒有結構的，數據可以任意存放。因此，

stack 的尋址速度要快于 heap。

其次，每個線程分配一個 stack，每個進程分配一個 heap，也就是說，stack 是線程獨占的，heap 是線程共用的。

此外，stack 創建的時候，大小是確定的，數據從超過這個大小，就發生 stack overflow 錯誤，而 heap 的大小是不確定的，

需要的話可以不斷增加。

public void Method1()
{
    int i=4;

    int y=2;

    class1 cls1 = new class1();
}

上面代碼這三個變量和一個對象實例在內存中的存放方式如下。

從上圖可以看到，i、y和cls1都存放在stack，因為它們占用內存空間都是確定的，而且本身也屬于局部變量。但是，cls1指向的對象實例存放在heap，因為它的大小不確定。作為一條規則可以記住，所有的對象都存放在heap。

接下來的問題是，當Method1方法運行結束，會發生什么事？

回答是整個stack被清空，i、y和cls1這三個變量消失，因為它們是局部變量，區塊一旦運行結束，就沒必要再存在了。而heap之中的那個對象實例繼續存在，直到系統的垃圾清理機制（garbage collector）將這塊內存回收。因此，一般來說，內存泄漏都發生在heap，即某些內存空間不再被使用了，卻因為種種原因，沒有被系統回收。

3、事件隊列和事件循環

隊列是一種數據結構，也是一種特殊的線性表。特點為 FIFO，即先進先出（first in, first out）

利用數組的 push 和 pop 可實現入隊和出隊的操作。

事件循環和事件隊列的維護是由事件觸發線程控制的。

事件觸發線程線程同樣是由瀏覽器渲染引擎提供的，它會維護一個事件隊列。

js 引擎遇到上文所列的異步任務后，會交個相應的線程去維護異步任務，等待某個時機，然后由事件觸發線程將異步任務對應的回調函數加入到事件隊列中，事件隊列中的函數等待被執行。

js 引擎在執行過程中，遇到同步任務，會將任務直接壓入執行棧中執行，當執行棧為空（即 js 引擎線程空閑）， 事件觸發線程 會從事件隊列中取出一個任務（即異步任務的回調函數）放入執行在棧中執行。

執行完了之后，執行棧再次為空，事件觸發線程會重復上一步的操作，再從事件隊列中取出一個消息，這種機制就被稱為 事件循環 （Event Loop）機制。

為了更好地理解Event Loop，請看下圖（轉引自Philip Roberts的演講《Help, I'm stuck in an event-loop》）。

例子代碼：

console.log('script start')

setTimeout(() => {
  console.log('timer 1 over')
}, 1000)

setTimeout(() => {
  console.log('timer 2 over')
}, 0)

console.log('script end')

// script start
// script end
// timer 2 over
// timer 1 over

模擬 js 引擎對其執行過程：

第一輪事件循環：

console.log 為同步任務，入棧，打印“script start”。出棧。
setTimeout 為異步任務，入棧，交給定時器觸發線程處理（在1秒后加入將回調加入事件隊列）。出棧。
setTimeout 為異步任務，入棧，交給定時器觸發線程處理（在4ms之內將回調加入事件隊列）。出棧。
console.log 為同步任務，入棧，打印"script end"。出棧。

此時，執行棧為空，js 引擎線程空閑。便從事件隊列中讀取任務，此時隊列如下：

第二輪事件循環

js 引擎線程從事件隊列中讀取 cb2 加入執行棧并執行，打印”time 2 over“。出棧。

第三輪事件循環

js 引擎從事件隊列中讀取 cb1 加入執行棧中并執行，打印”time 1 over“ 。出棧。

注意點：

上面，timer 2 的延時為 0ms，HTML5標準規定 setTimeout 第二個參數不得小于4（不同瀏覽器最小值會不一樣），不足會自動增加，所以 "timer 2 over" 還是會在 "script end" 之后。

就算延時為0ms,只是 time 2 的回調函數會立即加入事件隊列而已，回調的執行還是得等到執行棧為空時執行。

四、宏任務 & 微任務

在 ES6 新增 Promise 處理異步后，js 執行引擎的處理過程又發生了新的變化。

看代碼：

console.log('script start')

setTimeout(function() {
    console.log('timer over')
}, 0)

Promise.resolve().then(function() {
    console.log('promise1')
}).then(function() {
    console.log('promise2')
})

console.log('script end')

// script start
// script end
// promise1
// promise2
// timer over

這里又新增了兩個新的概念， macrotask （宏任務）和 microtask （微任務）。

所有的任務都劃分到宏任務和微任務下：

macrotask : script 主代碼塊、setTimeout、setInterval、requestAnimationFrame、node 中的setimmediate 等。
microtask : Promise.then catch finally、MutationObserver、node 中的process.nextTick 等。

js 引擎首先執行主代碼塊。

執行棧每次執行的代碼就是一個宏任務，包括任務隊列（宏任務隊列）中的。執行棧中的任務執行完畢后，js 引擎會從宏任務隊列中去添加任務到執行棧中，即同樣是事件循環的機制。

當在執行宏任務遇到微任務 Promise.then 時，會創建一個微任務，并加入到微任務隊列中的隊尾。

微任務是在宏任務執行的時候創建的，而在下一個宏任務執行之前，瀏覽器會對頁面重新渲染（task >> render >> task（任務隊列中讀取））。同時，在上一個宏任務執行完成后，頁面渲染之前，會執行當前微任務隊列中的所有微任務。

所以上述代碼的執行過程就可以解釋了。

js 引擎執行 promise.then 時，promise1、promise2 被認為是兩個微任務按照代碼的先后順序被加入到微任務隊列中，script end執行后，棧空。

此時當前宏任務（script 主代碼塊）執行完畢，并不從當前宏任務隊列中讀取任務。而是立馬清空當前宏任務所產生的微任務隊列。將兩個微任務依次放入執行棧中執行。執行完畢，打印 promise1、promise2。棧空。 此時，第一輪事件循環結束。

緊接著，再去讀取宏任務隊列中的任務，time over 被打印。棧空。

因此，宏任務和微任務的執行機制如下：

執行一個宏任務（棧中沒有就從宏任務隊列中獲取）
執行過程中遇到微任務，就將它添加到微任務的任務隊列中
宏任務執行完畢，立即執行當前微任務隊列中的所有微任務（依次執行）
當前所有微任務執行完畢后，開始檢查渲染，GUI 線程接管渲染
渲染完畢后，JS 引擎繼續開始下一個宏任務，從宏任務隊列中獲取

async & await

因為,async 和 await 本質上還是基于 Promise 的封裝，而 Promise 是屬于微任務的一種。所以使用 await 關鍵字與 Promise.then 效果類似：

setTimeout(_ => console.log(4))

async function main() {
  console.log(1)
  await Promise.resolve()
  console.log(3)
}

main()

console.log(2)
// 1
// 2
// 3
// 4

async 函數在 await 之前的代碼都是同步執行的，可以理解為 await 之前的代碼都屬于 new Promise 時傳入的代碼，await 之后的所有代碼都是 Promise.then 中的回調，即在微任務隊列中。

五、總結

js 單線程實際上時解釋執行 js 代碼的只有一個線程，但是瀏覽器的渲染是多線程的。
異步和同步的概念與區別，異步任務有哪些。
棧、堆、隊列的特點和使用場景。
事件隊列以及事件循環機制。
es6 下，宏任務與微任務的執行過程。

參考：

JavaScript 異步與事件循環
并發模型與事件循環
微任務、宏任務與Event-Loop
JavaScript 運行機制詳解：再談Event Loop
JS事件循環
[譯] 深入理解 JavaScript 事件循環（二）— task and microtask
Help, I'm stuck in an event-loop

原文作者:大芒果哇

原文地址:https://www.cnblogs.com/shenggao/p/13799566.html

在線咨詢

上一篇：關于啟用“魯J***J*、魯J***K*”號段的公告
下一篇：全高清都不夠用？是時候趁著雙11上飛利浦的高分屏了

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商