Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537
天分享下基礎爬蟲或者小規模爬蟲,應該掌握哪些技能、需要如何學起!
【文末有獲取方式】
【文末有獲取方式】
jsoup 是一款Java 的HTML解析器,我們使用它可直接解析URL地址、HTML文本內容。除此之外,它提供了一套非常友好的API,使得我們可以比較便利的通過DOM,CSS等操作類型,獲取對應網頁元素屬性及數據操作。
jsoup官網:https://jsoup.org/
① 從一個URL,文件或字符串中解析HTML
② 使用DOM或CSS選擇器來查找、取出數據使用DOM或CSS選擇器來查找、取出數據
③ 可操作HTML元素、屬性、文本可操作HTML元素、屬性、文本
Tips:jsoup是基于MIT協議發布的,可放心使用于商業項目
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>
6個包提供用于開發jsoup應用程序的類和接口。
org.jsoup
org.jsoup.examples
org.jsoup.helper
org.jsoup.nodes
org.jsoup.parser
org.jsoup.safety
org.jsoup.salect
主要類:
Jsoup 類提供了連接,清理和解析HTML文檔的方法
Document 獲取HTML文檔
Element 獲取、操作HTML節點
public static void main(String[] args) {
/* 從URL加載HTML */
Document document = Jsoup.connect("http://www.baidu.com").get();
String title = document.title();
/* 獲取html中的標題 */
System.out.println("title :"+title);
/* 從字符串加載HTML */
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
title = doc.title();
System.out.println("title :"+title);
/* 從文件加載HTML */
doc = Jsoup.parse(new File("F:\\jsoup\\html\\index.html"),"utf-8");
title = doc.title();
System.out.println("title :"+title);
}
public static void main(String[] args) {
Document document = Jsoup.connect("http://www.baidu.com").get();
String title = document.title();
System.out.println("title :"+title);
/* 獲取html中的head */
System.out.println(document.head());
/* 獲取html中的body */
/* 獲取HTML頁面中的所有鏈接 */
Elements links = document.select("a[href]");
for (Element link : links){
System.out.println("link : "+ link.attr("href"));
System.out.println("text :"+ link.text());
}
}
public static void main(String[] args) {
Document document = Jsoup.connect("https://passport.lagou.com").get();
System.out.println(document.head());
/* 獲取URL的元信息 */
String description = document.select("meta[name=description]").get(0).attr("content");
System.out.println("Meta description : " + description);
String keywords = document.select("meta[name=keywords]").first().attr("content");
System.out.println("Meta keyword : " + keywords);
}
public static void main(String[] args) {
Document document = Jsoup.connect("https://baidu.com").get();
/* 獲取拉勾網登入頁面的body */
/* System.out.println(document.body()); */
/* 根據class名稱獲取表單 */
Elements formElement = document.getElementsByClass("form_body");
System.out.println(formElement.html());
/* 獲取URL的元信息 */
for (Element inputElement : formElement) {
String placeholder = inputElement.getElementsByTag("input").attr("placeholder");
System.out.println(placeholder);
}
}
public static void main(String[] args) {
Document document = Jsoup.parse(new File("F:\\jsoup\\html\\login.html"),"utf-8");
Element loginform = document.getElementById("registerform");
Elements inputElements = loginform.getElementsByTag("input");
for (Element inputElement : inputElements) {
String key = inputElement.attr("name");
String value = inputElement.attr("value");
System.out.println("Param name: "+key+" -- Param value: "+value);
}
}
public static void main(String[] args) {
Document document = Jsoup.parse(new File("F:\\jsoup\\html\\index.html"),"utf-8");
System.out.println(document.body());
System.out.println("*************");
Element div = document.select("div").first();
div.html("<p>Hello</p>");
div.prepend("<p>Fiest</p>");
div.append("<p>Last</p>");
System.out.println(document.body());
System.out.println(div.text());
/* 對元素包裹一個外部HTML內容 */
div.wrap("<div id=\"div2\"></div>");
System.out.println(document.body());
}
javascript 是一門單線程的語言,在同一個時間只能做完成一件任務,如果有多個任務,就必須排隊,前面一個任務完成,再去執行后面的任務。作為瀏覽器端的腳本語言,javascript 的主要功能是用來和用戶交互以及操作 dom。假設 javascript 不是單線程語言,在一個線程里我們給某個 dom 節點增加內容的時候,另一個線程同時正在刪除這個 dom 節點的內容,則會造成混亂。
由于 js 單線程的設計,假設 js 程序的執行都是同步。如果執行一些耗時較長的程序,例如 ajax 請求,在請求開始至請求響應的這段時間內,當前的工作線程一直是空閑狀態, ajax 請求后面的 js 代碼只能等待請求結束后執行,因此會導致 js 阻塞的問題。
javascript 單線程指的是瀏覽器中負責解釋和執行 javascript 代碼的只有一個線程,即為 js 引擎線程,但是瀏覽器的渲染進程是提供多個線程的,如下:
為解決上述類似上述 js 阻塞的問題,js 引入了同步和異步的概念。
“同步”就是后一個任務等待前一個任務結束后再去執行。
“異步”與同步不同,每一個異步任務都有一個或多個回調函數。webapi 會在其相應的時機里將回調函數添加進入消息隊列中,不直接執行,然后再去執行后面的任務。直至當前同步任務執行完畢后,再把消息隊列中的消息添加進入執行棧進行執行。
異步任務在瀏覽器中一般是以下:
“棧”是一種數據結構,是一種線性表。特點為 LIFO,即先進后出 (last in, first out)。
利用數組的 push 和 shift 可以實現壓棧和出棧的操作。
在代碼運行的過程中,函數的調用會形成一個由若干幀組成的棧。
function foo(b) {
let a = 10;
return a + b + 11;
}
function bar(x) {
let y = 3;
return foo(x * y);
}
console.log(bar(7))
上面代碼最終會在控制臺打印42,下面梳理一下它的執行順序。
對象被分配在堆中,堆是一個用來表示一大塊(通常是非結構化的)內存區域的計算機術語。
首先,stack 是有結構的,每個區塊按照一定次序存放,可以明確知道每個區塊的大小;heap 是沒有結構的,數據可以任意存放。因此,
stack 的尋址速度要快于 heap。
其次,每個線程分配一個 stack,每個進程分配一個 heap,也就是說,stack 是線程獨占的,heap 是線程共用的。
此外,stack 創建的時候,大小是確定的,數據從超過這個大小,就發生 stack overflow 錯誤,而 heap 的大小是不確定的,
需要的話可以不斷增加。
public void Method1()
{
int i=4;
int y=2;
class1 cls1 = new class1();
}
上面代碼這三個變量和一個對象實例在內存中的存放方式如下。
從上圖可以看到,i、y和cls1都存放在stack,因為它們占用內存空間都是確定的,而且本身也屬于局部變量。但是,cls1指向的對象實例存放在heap,因為它的大小不確定。作為一條規則可以記住,所有的對象都存放在heap。
接下來的問題是,當Method1方法運行結束,會發生什么事?
回答是整個stack被清空,i、y和cls1這三個變量消失,因為它們是局部變量,區塊一旦運行結束,就沒必要再存在了。而heap之中的那個對象實例繼續存在,直到系統的垃圾清理機制(garbage collector)將這塊內存回收。因此,一般來說,內存泄漏都發生在heap,即某些內存空間不再被使用了,卻因為種種原因,沒有被系統回收。
隊列是一種數據結構,也是一種特殊的線性表。特點為 FIFO,即先進先出(first in, first out)
利用數組的 push 和 pop 可實現入隊和出隊的操作。
事件循環和事件隊列的維護是由事件觸發線程控制的。
事件觸發線程線程同樣是由瀏覽器渲染引擎提供的,它會維護一個事件隊列。
js 引擎遇到上文所列的異步任務后,會交個相應的線程去維護異步任務,等待某個時機,然后由事件觸發線程將異步任務對應的回調函數加入到事件隊列中,事件隊列中的函數等待被執行。
js 引擎在執行過程中,遇到同步任務,會將任務直接壓入執行棧中執行,當執行棧為空(即 js 引擎線程空閑), 事件觸發線程 會從事件隊列中取出一個任務(即異步任務的回調函數)放入執行在棧中執行。
執行完了之后,執行棧再次為空,事件觸發線程會重復上一步的操作,再從事件隊列中取出一個消息,這種機制就被稱為 事件循環 (Event Loop)機制。
為了更好地理解Event Loop,請看下圖(轉引自Philip Roberts的演講《Help, I'm stuck in an event-loop》)。
例子代碼:
console.log('script start')
setTimeout(() => {
console.log('timer 1 over')
}, 1000)
setTimeout(() => {
console.log('timer 2 over')
}, 0)
console.log('script end')
// script start
// script end
// timer 2 over
// timer 1 over
模擬 js 引擎對其執行過程:
此時,執行棧為空,js 引擎線程空閑。便從事件隊列中讀取任務,此時隊列如下:
注意點:
上面,timer 2 的延時為 0ms,HTML5標準規定 setTimeout 第二個參數不得小于4(不同瀏覽器最小值會不一樣),不足會自動增加,所以 "timer 2 over" 還是會在 "script end" 之后。
就算延時為0ms,只是 time 2 的回調函數會立即加入事件隊列而已,回調的執行還是得等到執行棧為空時執行。
在 ES6 新增 Promise 處理異步后,js 執行引擎的處理過程又發生了新的變化。
看代碼:
console.log('script start')
setTimeout(function() {
console.log('timer over')
}, 0)
Promise.resolve().then(function() {
console.log('promise1')
}).then(function() {
console.log('promise2')
})
console.log('script end')
// script start
// script end
// promise1
// promise2
// timer over
這里又新增了兩個新的概念, macrotask (宏任務)和 microtask (微任務)。
所有的任務都劃分到宏任務和微任務下:
js 引擎首先執行主代碼塊。
執行棧每次執行的代碼就是一個宏任務,包括任務隊列(宏任務隊列)中的。執行棧中的任務執行完畢后,js 引擎會從宏任務隊列中去添加任務到執行棧中,即同樣是事件循環的機制。
當在執行宏任務遇到微任務 Promise.then 時,會創建一個微任務,并加入到微任務隊列中的隊尾。
微任務是在宏任務執行的時候創建的,而在下一個宏任務執行之前,瀏覽器會對頁面重新渲染(task >> render >> task(任務隊列中讀取))。 同時,在上一個宏任務執行完成后,頁面渲染之前,會執行當前微任務隊列中的所有微任務。
所以上述代碼的執行過程就可以解釋了。
js 引擎執行 promise.then 時,promise1、promise2 被認為是兩個微任務按照代碼的先后順序被加入到微任務隊列中,script end執行后,棧空。
此時當前宏任務(script 主代碼塊)執行完畢,并不從當前宏任務隊列中讀取任務。而是立馬清空當前宏任務所產生的微任務隊列。將兩個微任務依次放入執行棧中執行。執行完畢,打印 promise1、promise2。棧空。 此時,第一輪事件循環結束。
緊接著,再去讀取宏任務隊列中的任務,time over 被打印。棧空。
因此,宏任務和微任務的執行機制如下:
因為,async 和 await 本質上還是基于 Promise 的封裝,而 Promise 是屬于微任務的一種。所以使用 await 關鍵字與 Promise.then 效果類似:
setTimeout(_ => console.log(4))
async function main() {
console.log(1)
await Promise.resolve()
console.log(3)
}
main()
console.log(2)
// 1
// 2
// 3
// 4
async 函數在 await 之前的代碼都是同步執行的, 可以理解為 await 之前的代碼都屬于 new Promise 時傳入的代碼,await 之后的所有代碼都是 Promise.then 中的回調,即在微任務隊列中。
參考:
原文作者:大芒果哇
原文地址:https://www.cnblogs.com/shenggao/p/13799566.html
*請認真填寫需求信息,我們會在24小時內與您取得聯系。