Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537
學習爬蟲前,我們需要先掌握網站類型,才能根據網站類型,使用適用的方法來編寫爬蟲獲取數據。
今天小編就以國內知名的ForeSpider爬蟲軟件能夠采集的網站類型為例,來為大家盤點一下數據采集常見的幾種網站類型。
l常見網站類型
1.js頁面
JavaScript是一種屬于網絡的腳本語言,被廣泛用于Web應用開發,常用來為網頁添加各式各樣的動態功能,為用戶提供更流暢美觀的瀏覽效果。通常JavaScript腳本是通過嵌入在HTML中來實現自身的功能的。
ForeSpider數據抓取工具可自動解析JS,采集基于js頁面中的數據,即可采集頁面中包含JS的數據。
Ajax即異步的JavaScript和XML,它不是一門編程語言,而是利用JavaScript在保證頁面不被刷新、頁面鏈接不改變的情況下與服務器交換數據并更新部分網頁的技術。
我們瀏覽網頁的時候,經常會遇到這樣的情況,瀏覽某頁面時,往后拉頁面,頁面鏈接并沒有變化,但是網頁中卻多了新內容,這就是通過Ajax獲取新數據并呈現出來的過程。
ForeSpider數據采集系統支持Ajax技術,可采集Ajax網頁中的內容。
2.post/get請求
在html語言中,有兩種方式給服務器發送表單(你在網頁中填寫的一些數據)。一種是POST一種是GET。POST把表單打包后隱藏在后臺發送給服務器;GET把表單打包發送前,附加到URL(網址)的后面。
ForeSpider采集器可采集數據在post/get請求中的網頁內容,即采集post/get請求中的數據。
3.需要Cookie的網站
Cookie指某些網站為了辨別用戶身份、進行session跟蹤而儲存在用戶本地終端上的數據。Cookie基于 Internet的各種服務系統應運而生,是由 Web 服務器保存在用戶瀏覽器上的小文本文件,它可以包含有關用戶的信息,是用戶獲取、交流、傳遞信息的主要場所之一,無論何時用戶鏈接到服務器,Web 站點都可以訪問 Cookie 信息。
一般用戶的賬號信息記錄在cookie中,爬蟲爬取數據的時候,可以使用cookie模擬登錄狀態,從而獲取到數據。
ForeSpider數據采集分析引擎可設置cookie來模擬登陸,從而采集需要用到cookie的網站內容。
4. 采集需要OAuth認證的網頁數據
OAUTH協議為用戶資源的授權提供了一個安全的、開放而又簡易的標準。同時,任何第三方都可以使用OAUTH認證服務,任何服務提供商都可以實現自身的OAUTH認證服務,因而OAUTH是開放的。
業界提供了OAUTH的多種實現如PHP、Java Script,Java,Ruby等各種語言開發包,大大節約了程序員的時間,因而OAUTH是簡易的。互聯網很多服務如Open API,很多大公司如Google,Yahoo,Microsoft等都提供了OAUTH認證服務,這些都足以說明OAUTH標準逐漸成為開放資源授權的標準。
ForeSpider爬蟲軟件支持OAuth認證,可以采集需要OAuth認證的頁面中的數據。
l 前嗅簡介
前嗅大數據,國內領先的研發型大數據專家,多年來致力于為大數據技術的研究與開發,自主研發了一整套從數據采集、分析、處理、管理到應用、營銷的大數據產品。前嗅致力于打造國內第一家深度大數據平臺!
生 CSS 嵌套(Native CSS nesting)已經被所有現代桌面瀏覽器所支持!,但是請注意,移動端瀏覽器支持的還很有限。
原生 CSS 嵌套可以像 SASS、LESS 預處理器一樣,將相關的選擇器組合在一起,從而減少需要編寫的規則數量,它可以節省打字時間,并使語法更易于閱讀和維護。您可以將選擇器嵌套到任意深度,但要小心不要超過兩層或三層。嵌套深度沒有技術限制,但它會使代碼更難以閱讀,并且生成的 CSS 可能會變得不必要的冗長。
.button {
background-color: red;
&.warning {
background-color: blue;
}
& .icon {
width: 1rem;
height: 1rem;
}
}
雖然原生 CSS 嵌套語法在過去幾年中不斷發展,使大多數 Web 開發人員感到滿意,但不要指望所有 SCSS 代碼都能像您期望的那樣直接工作。
您可以將任何選擇器嵌套在另一個選擇器中,但它必須以符號開頭,例如 &, .(類選擇器)、#(ID選擇器)、@(對于媒體查詢)、:、::、+、 ~、 > 或 [。換句話說,它不能是對 HTML 元素的直接引用。下面的代碼是無效的,不會對 input 元素選擇器進行解析:
.parent {
color: red;
input {
margin: 1em;
}
}
/* Invalid, because "input" is an identifier. */
解決此問題的最簡單方法是使用與號 ( &),它以與 Sass 相同的方式引用當前選擇器。
.parent {
color: red;
& input {
margin: 1em;
}
/* use pseudo-elements and pseudo-classes */
&::after {}
&:hover {}
&:target {}
}
/* valid, no longer starts with an identifier */
或者,您可以使用其中之一:
它們都可以在這個簡單的示例中工作,但是稍后您可能會遇到更復雜的樣式表的特異性問題。
它還&允許您在父選擇器上定位偽元素和偽類。例如:
p.my-element {
&::after {}
&:hover {}
&:target {}
}
請注意,& 可以在選擇器中的任何位置使用。例如:
.child1 {
.parent3 & {
color: red;
}
}
這將轉換為以下非嵌套語法:
.parent3 .child1 { color: red; }
您甚至可以在選擇器中使用多個 & 符號:
ul {
& li & {
color: blue;
}
}
這將以嵌套 <ul> 元素 ( ul li ul) 為目標,但如果您想保持理智,我建議不要使用它!
嵌套媒體查詢示例:
p {
color: cyan;
@media (min-width: 800px) {
color: purple;
}
}
原生 CSS 嵌套將父選擇器包裝在 :is() 中,這可能會導致與 Sass 輸出的差異,比如以下嵌套代碼:
.parent1, #parent2 {
.child1 {
}
}
當它在瀏覽器中解析時,它實際上變成以下內容:
:is(.parent1, #parent2) .child1 {
}
Sass 將相同的代碼編譯為:
.parent1 .child1,
#parent2 .child1 {
}
您可能還會遇到一個更微妙的問題。考慮一下:
.parent .child {
.grandparent & {}
}
原生 CSS 等效項是:
.grandparent :is(.parent .child) {}
這與以下錯誤排序的 HTML 元素匹配:
<div class="parent">
<div class="grandparent">
<div class="child">MATCH</div>
</div>
</div>
MATCH變得有樣式是因為 CSS 解析器執行以下操作:
它會查找所有元素,其所屬類的child祖先也parent為DOM 層次結構中的任何點。
找到包含MATCH的元素后,解析器會grandparent在 DOM 層次結構中的任何位置再次檢查它是否具有 — 的祖先。它找到一個并相應地設置該元素的樣式。
Sass 中的情況并非如此,它編譯為:
.grandparent .parent .child {} 上面的 HTML 沒有樣式化,因為元素類不遵循嚴格的grandparent、parent、 和child順序。
Sass 使用字符串替換,因此如下所示的聲明是有效的,并且與類的任何元素相匹配 .btn-primary:
.btn {
&-primary {
color: blue;
}
}
但是原生 CSS 嵌套會忽略&-space選擇器。
從短期來看,現有的 CSS 預處理器仍然至關重要。Sass 開發團隊宣布,他們將支持 .css 文件中的原生 CSS 嵌套,并按原樣輸出代碼。他們將一如既往地編譯嵌套 SCSS 代碼,以避免破壞現有代碼庫,但當全球瀏覽器支持率達到 98% 時,他們將開始輸出 :is() 選擇器。
我猜想,PostCSS 插件等預處理器目前會擴展嵌套代碼,但隨著瀏覽器支持的普及,就會取消這一功能。當然,使用預處理器還有其他很好的理由,比如將部分代碼捆綁到一個文件中,以及對代碼進行精簡。但如果嵌套是你唯一需要的功能,你當然可以考慮在較小的項目中使用原生 CSS。
CSS 嵌套是最有用、最實用的預處理器功能之一。瀏覽器供應商努力創造了一個與 CSS 非常相似的原生 CSS 版本,以滿足網絡開發人員的需求。雖然兩者之間存在細微差別,而且在使用(過于)復雜的選擇器時可能會遇到不尋常的特殊性問題,但很少有代碼庫需要進行徹底修改。
原生嵌套可能會讓你重新考慮是否需要 CSS 預處理器,但它們仍能提供其他好處。Sass 和類似工具仍然是大多數開發者工具包的重要組成部分。
業級信息化系統絕大部分采用BS架構實現,如門戶網站、OA系統、電商網站等,通過瀏覽器輸入Web網址即可訪問,對于使用者來說非常便捷,對于開發維護者來說也非常方便,程序維護只需更新服務器即可,使用者無感知。但是CS架構的WinForm客戶端程序仍然具有很實用的價值,如WPS、IT類的集成開發環境(數據庫、圖形處理軟件)、PC端的小工具。本地程序處理性能更優秀,但是頻繁更新帶來不友好的客戶端體驗。還有一種非常常見且實用的業務場景, Web網頁與WinForm程序互相集成應用。
在百度網盤的網頁中,點擊【下載】按鈕,首先會檢查本地是否已經啟動客戶端網盤。如果未啟動,則彈出提示信息告知用戶需要打開客戶端程序進行下載。這就是一個典型的Web網頁中啟動客戶端程序的場景。更形象的應用場景是,WinForn/WPF客戶端程序嵌入Web程序,Web程序的網頁中js調用WinForm/WPF窗體以及業務方法。后面會詳細的介紹。
WinForm程序中集成網頁的基本原理就是通過一個包含類似瀏覽器功能的控件,將Web網頁載入并解析渲染出來。下面主要介紹 WinForm 集成 Web 網頁的幾種實現方式。
談論集成的問題之前,先了解一下瀏覽器的內核。
瀏覽器最重要或者說核心的部分是“Rendering Engine”,可大概譯為“渲染引擎”,不過我們一般習慣將之稱為“瀏覽器內核”。負責對網頁語法的解釋(如標準通用標記語言下的一個應用HTML、JavaScript)并渲染(顯示)網頁。 所以,通常所謂的瀏覽器內核也就是瀏覽器所采用的渲染引擎,渲染引擎決定了瀏覽器如何顯示網頁的內容以及頁面的格式信息。不同的瀏覽器內核對網頁編寫語法的解釋也有不同,因此同一網頁在不同的內核的瀏覽器里的渲染(顯示)效果也可能不同,這也是網頁編寫者需要在不同內核的瀏覽器中測試網頁顯示效果的原因。
內核分類
內核被包含在全世界最高的使用率的操作系統中,即為Windows操作系統,所以我們又經常把它稱之為IE內核。
Trident內核的常見瀏覽器有:
其中部分瀏覽器的新版本是“雙核”甚至是“多核”,其中一個內核是Trident,然后再增加一個其他內核。國內的廠商一般把其他內核叫做“高速瀏覽模式”,而Trident則是“兼容瀏覽模式”,用戶可以來回切換。
Gecko內核常見的瀏覽器:Mozilla Firefox、Mozilla SeaMonkey、waterfox(Firefox的64位開源版)、Iceweasel、Epiphany(早期版本)、Flock(早期版本)、K-Meleon。
WebKit內核常見的瀏覽器:Chrome、傲游瀏覽器3、Apple Safari (Win/Mac/iPhone/iPad)、Symbian手機瀏覽器、Android 默認瀏覽器。
參考網站:https://liulanmi.com/labs/core.html
Blink是一個由Google和Opera Software開發的瀏覽器排版引擎,Google計劃將這個渲染引擎作為Chromium計劃的一部分,并且在2013年4月的時候公布了這一消息。這一渲染引擎是開源引擎WebKit中WebCore組件的一個分支,并且在Chrome(28及往后版本)、Opera(15及往后版本)和Yandex瀏覽器中使用。
瀏覽器內核檢測
https://ie.icoa.cn 可檢測 PC 或手機瀏覽器內核和操作系統類型,包括Google Chrome的WebKit、IE的Trident、ME的Edge、Firefox的Gecko/Servo,以及Windows/MacOS/Linux/iOS/Android等的判斷。
WinForm Browser 控件
微軟WinForm開發框架中老牌控件。
CefSharp是一種將功能齊全的符合標準的web瀏覽器嵌入C#或VB.NET應用程序的簡單方法。CefSharp擁有WinForms和WPF應用程序的瀏覽器控件,以及自動化項目的OffScreen版本。CefSharp基于Chromium Embedded Framework,這是Google Chrome的開源版本。
實際項目應用效果如下:
Miniblink是一個追求極致小巧的瀏覽器內核項目,全世界第三大流行的瀏覽器內核控件。其基于chromium最新版內核,去除了chromium所有多余的部件,只保留最基本的排版引擎blink。Miniblink保持了10M左右的極簡大小,是所有同類產品最小的體積,同時支持windows xp、npapi。
GeckoFX是skybound工作室開發的一個開源的用于方便將gecko引擎(最主要的瀏覽器是firefox)鏈接到.net 窗體應用的一個組件。它是用C#寫成的,里面有大量的C#的注釋,geckofx是最完美的默認的iE核心webbrowse控件的替代控件。
DotNetBrowser能嵌入一個基于Chromium的WPF或WinForms組件到你的.NET應用中,用來顯示使用HTML5、CSS3、JavaScript、Silverlight等技術構建的現代網頁。
Microsoft Edge WebView2 控件允許在本機應用中嵌入 web 技術(HTML、CSS 以及 JavaScript)。 WebView2 控件使用 Microsoft Edge(Chromium) 作為繪制引擎,以在本機應用中顯示 web 內容。 使用 WebView2,可以在本機應用的不同部分嵌入 Web 代碼,或在單個 WebView 實例中生成所有本機應用。
所以在客戶端程序中嵌入網頁程序,首選CefSharp。
歡迎關注、點贊、評論、轉發,每天都能獲取IT優質內容。
#人民網評錢楓被指性侵#
*請認真填寫需求信息,我們會在24小時內與您取得聯系。