Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537
T之家 12 月 19 日消息,微軟剛剛在 Bing 搜索引擎中上線了一個基于 Speedtest.net 服務的測速小部件,只需搜索 Speedtest 即可。
實際上,微軟早在 2016 年就在 Bing 搜索中悄悄添加了一項網絡測速功能,現在只是用 Ookla 的 Speedtest.net 取代了自家測速服務。
如果各位IT之家小伙伴想要體驗這一功能也很簡單,只需打開 Bing.com 并輸入“speedtest”或“speed test”,頁面上就會出一款 Speedtest 小部件,然后你只需點擊“啟動”按鈕即可開始測速,測試完不滿意也點擊“重新運行”來多次測速。
與微軟之前提供的測速小部件類似,這款由 Ookla 提供支持的 Speedtest.net 小部件僅支持測試網絡延遲、下載速度及上傳速度三項參數。
個主要的互聯網瀏覽器都允許用戶查看任何網頁的HTML(超文本標記語言)源代碼。以下部分包含有關在每個主要瀏覽器中查看源代碼的多種方法的信息。
查看網頁的源代碼時,服務器處理的信息和代碼不會出現。例如,搜索引擎處理服務器上的信息,然后在網頁上顯示結果。換句話說,你可以查看組成結果頁面的代碼,但不能查看搜索引擎的源代碼。
此規則適用于所有服務器端腳本、SSI(服務器端包含)和編程代碼。因此,你無法查看搜索引擎、論壇、投票、聊天等中使用的腳本源代碼。此外,從源代碼復制信息可能會導致錯誤,或將你引導回從中復制信息的頁面。
要在Google Chrome中查看網頁的源代碼,請使用以下任一方法。
僅查看源代碼
方法一
要僅查看源代碼,請按計算機鍵盤上的鍵盤快捷鍵Ctrl+U。
方法二
右鍵單擊網頁的空白部分,然后從彈出菜單中選擇“查看網頁源代碼”。
查看包含元素的源代碼
1、打開Chrome并導航要查看其源代碼的網頁。
2、單擊瀏覽器窗口右上角的設置圖標。
3、從下拉菜單中,選擇更多工具,然后選擇開發者工具。
4、單擊屏幕底部左上角的“元素”選項卡。
提示:在Chrome中,按F12或Ctrl+Shift+I也會打開交互式開發者工具。該工具提供了與源代碼和CSS設置的更多交互,允許用戶查看代碼中的更改如何立即影響網頁。
要在Mozilla Firefox中查看網頁的源代碼,請使用以下任一方法。
僅查看源代碼
方法一
要僅查看源代碼,請按計算機鍵盤上的Ctrl+U。
方法二
右鍵單擊網頁的空白部分,然后從彈出菜單中選擇“查看網頁源代碼”。
查看包含元素的源代碼
1、打開Firefox并導航到要查看其源代碼的網頁。
2、單擊屏幕右上角的菜單Firefox菜單圖標。
3、在下拉菜單中選擇“更多工具”,然后從展開的菜單中選擇“Web開發者工具”。
4、單擊屏幕底部部分左上角的“查看器”選項卡。
提示:在Firefox中,按F12或Ctrl+Shift+I也會打開交互式開發者工具。該工具提供與源代碼和CSS設置的交互,允許用戶實時查看代碼中的更改如何影響網頁。
查看網頁源代碼的一部分
1、突出顯示網頁中要查看源代碼的部分。
2、在高亮顯示的部分上單擊鼠標右鍵,然后選擇“查看選中部分源代碼”。
提示:你可以使用Firebug插件查看和編輯頁面的源代碼,并通過瀏覽器實時查看更改。
要在Microsoft Edge中查看網頁的源代碼,請使用以下任一方法。
僅查看源代碼
方法一
要僅查看源代碼,請按計算機鍵盤上的Ctrl+U。
方法二
右鍵單擊網頁的空白部分,然后從彈出菜單中選擇“查看網頁源代碼”。
查看包含元素的源代碼
1、打開Microsoft Edge并導航到要查看其源代碼的網頁。
2、單擊屏幕右上角的設置圖標。
3、將鼠標移到下拉菜單中的“更多工具”上,然后從展開的菜單中選擇“開發人員工具”。
4、單擊屏幕右側窗口頂部的“元素”選項卡。
提示:在Microsoft Edge中,按F12或Ctrl+Shift+I也會顯示交互式開發人員工具。該工具提供與源代碼和CSS設置的交互,允許用戶實時查看代碼中的更改如何影響網頁。
要在Microsoft Internet Explorer中查看網頁的源代碼,請使用以下任一方法。
僅查看源代碼
方法一
要僅查看源代碼,請按計算機鍵盤上的Ctrl+U。
方法二
右鍵單擊網頁的空白部分,然后從彈出菜單中選擇“查看源”。
查看包含元素的源代碼
1、打開Internet Explorer并導航到要查看其源代碼的網頁。
2、單擊右上角的工具Internet explorer工具圖標
。
3、從下拉菜單中選擇“F12開發人員工具”。
4、單擊開發人員工具菜單左上角的“DOM資源管理器”選項卡。
提示:在Internet Explorer中,按F12鍵將顯示DOM工具。該工具提供與源代碼和CSS設置的交互,允許用戶查看代碼中的更改如何立即影響網頁。
要在搜索引擎中有好的排名表現,網站的收入是基礎。另一方面,收錄的頁面數量也代表了網站的整體質量。我覺得想要百度網站被收錄,首先要了解搜索引擎的工作原理,這樣才能有針對性的迎合搜索規律,讓網站被收錄處于理想狀態。搜索引擎的工作原理非常復雜。接下來簡單說一下搜索引擎是如何收錄和實現網頁排名的。
seo
1、爬行和抓?。?/strong>搜索引擎蜘蛛通過跟蹤鏈接訪問網頁,獲得頁面HTML代碼存入數據庫。
2、預處理:索引程序對抓取來的頁面數據進行文字提取、中文分詞、索引等處理,以備排名程序調用。
3、排名:用戶輸入查詢詞(關鍵詞)后,排名程序調用索引數據,計算相關性,然后按一定格式生成搜索結果頁面。
seo
1) 蜘蛛訪問:相信大家都知道它了,蜘蛛訪問任何一個網站時,都會先訪問網站根目錄下的robots.txt文件,如果robots.如果robots文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協議,不抓取被禁止的網址。
2)跟隨鏈接:了在互聯網上抓取盡可能多的頁面,搜索引擎蜘蛛會沿著頁面上的鏈接,從一個頁面爬到下一個頁面。最簡單的抓取策略分為兩種:一種是深度優先,一種是廣度優先。
深度優先是指蜘蛛沿著發現的網絡營銷鏈接一直向前爬行,直到前面再也沒有其他鏈接,然后返回到第一個頁面,沿著另一個鏈接再一直往前爬行。
廣度優先是指蜘蛛在一個頁面發現多個鏈接時,不是順著一個鏈接一直向前,而是把頁面上所有鏈接都爬一遍,然后再進入第二層頁面沿著第二層上發現的鏈接爬向第三層頁面。
3) 吸引蜘蛛:SEO人員想要百度網站收錄,就要想辦法吸引蜘蛛來抓取,蜘蛛只會抓取有價值的頁面,以下是五個影響因素:網站和頁面權重、頁面更新度、導入鏈接、與首頁的距離、URL結構。
4.地址庫:調度系統為了避免重復爬行和抓取網址,搜索引擎會建立地址庫,記錄已經被發現但還有沒有抓取的頁面,以及已經被抓取的頁面。蜘蛛在頁面上找到鏈接后并不立即訪問,而是將網址存儲在地址庫中,然后統一安排抓取。
1.人工錄入的種子網站;
2. 蜘蛛抓取頁面后,從 HTML 中解析出新的鏈接 URL 與地址庫中的數據進行對比,如果是地址庫中沒有的網址,就存入待訪問地址庫。
3.站長通過接口提交進來的網址;
4.站長通過XML網站地圖、站長平臺提交的網址。
5.文件儲存,搜索引擎蜘蛛抓取的數據存入原始頁面數據庫。
6.爬行時進行復制內容檢測。
seo
在一些SEO材料中,“預處理”也被簡稱為“索引”,因為索引是預處理最主要的步驟。
1、提取文字
我們存入原始頁面數據庫中的是HTML代碼,而HTML代碼中,不僅有用戶在頁面上直接可以看到的文字內容,還有其他例如JS,AJAX等這類搜索引擎無法用于排名的內容。首先要做的是從HTML文件中移除這些無法解決的內容提取出可以排序的文本內容。
2、中文分詞
分詞是中文信息搜索引擎公司特有的步驟,搜索引擎進行存儲/處理系統頁面/用戶可以搜索時都是以詞為基礎的。中文分詞方法基本上有兩種,一種是基于詞典匹配,另一種是基于統計。
3、去停止詞
無論是英文還是中文,頁面都會有一些很高的頻率,內容對詞語沒有影響,比如: 的,啊哈,這些詞語叫做停止詞。搜索引擎在索引頁面之前會去掉這些停止詞,使索引數據主題更為突出,減少無謂的計算量。
4、去噪聲詞
大部分學生頁面里有這么一部分研究內容對頁面設計主題沒什么發展貢獻,比如A頁面的內容是一篇關于百度公司網站收錄的文章,關鍵詞是百度網站收錄,但是我們除了教師講解網站收錄這個工作內容的主體內容外,共同組成社會這個問題頁面的還有一些例如頁眉,頁腳,廣告等區域。
這些部分出現的詞可能與頁面內容本身的關鍵詞沒有關系。搜索引擎的排名程序在對數據進行排名時無法參考這些噪音內容,因此需要在預處理階段將這些噪音分離出來并消除。消除噪聲的方法是根據HTML的標簽對頁面進行分塊,如頁眉是header標簽,頁腳是footer標簽等等,去除掉這些區域后,剩下的才是頁面主體內容。
5、內容去重
也就是我們去掉重復的網頁,同一篇文章經常會出現重復在不同企業網站/同一個公司網站的不同網址上。對于用戶的體驗來說,去重復是必要的。搜索引擎識別并刪除頁面中的重復內容。這個過程被稱為去重復,是影響百度網站內容的關鍵因素之一。
6、正向索引
索引經過文字提取、分詞、消噪、去重后,搜索引擎得到的就是獨特的、能反映頁面主體內容的、以詞為單位的內容。
接下來搜索引擎索引程序就可以提取關鍵詞,按照分詞程序劃分好的詞,把頁面轉換為一個關鍵詞組成的集合,同時記錄每一個關鍵詞在頁面上的出現頻率、出現次數、格式(如出現在標題標簽、黑體、H標簽、錨文字等)、位置(如頁面第一段文字等)。搜索引擎索引程序將頁面及關鍵詞形成詞表結構存儲進索引庫。
7、倒排索引
假設用戶搜索關鍵詞2,如果只存在正向索引,排名程序需要掃描所有索引庫中的文件,找出包含關鍵詞2的文件,再進行相關性計算。
這樣的計算量無法滿足實時返回排名結果的要求,搜索引擎會提前對所有關鍵詞進行分類,將正向索引數據庫重新構造為倒排索引,把文件對應到關鍵詞的映射轉換為關鍵詞到文件的映射,在倒排索引中關鍵詞是主鍵,每個關鍵詞都對應著一系列文件,比如下圖第一排右側顯示出來的文件,都是包含了關鍵詞1的文件。這樣,當用戶搜索某個關鍵詞的時候,排名程序在倒排索引中定位這個關鍵詞,就可以馬上找到所有包含這個關鍵詞的頁面。
seo
經過搜索引擎蜘蛛抓取頁面,索引程序計算得到的倒排索引后,搜索引擎就準備好可以隨時處理用戶搜索了。用戶在搜索框中輸入想要查詢的內容后,排名程序調用索引庫中的數據,計算排名并在搜索結果頁面中顯示內容。
1、搜索詞處理
搜索引擎接收到用戶輸入的搜索詞后,需要對搜索詞做一些處理,才能進入排名過程。搜索詞處理過程包括:中文分詞、去停止詞、指令處理。
完成上述步驟后,搜索引擎處理其余內容的默認方法是使用關鍵字之間的和邏輯。
比如用戶在搜索框中輸入“減肥的方法”,經過分詞和去停止詞后,剩下的關鍵詞為“減肥”、“方法”,搜索引擎排序時默認認為,用戶想要查詢的內容既包含“減肥”,也包含“方法”。
2、文件匹配
搜索詞經過處理后,搜索引擎得到的是以詞為基礎的關鍵詞集合。進入的下一個發展階段:文件進行匹配不同階段,就是學生找出含有所有關鍵詞的文件。在索引部分提到的倒排索引使得文件匹配能夠快速完成,假設用戶搜索“關鍵詞1 關鍵詞2”,排名程序只要在倒排索引中找到“關鍵詞1”和“關鍵詞2”這兩個詞,就能找到分別含有這兩個詞的所有頁面文件。
3、初始子集的選擇
找到包含所有關鍵詞的匹配文件后,還不能進行相關性計算,因為找到的文件經常會有幾十萬幾百萬,甚至上千萬個。要對這么多文件實時進行相關性計算,需要的時間還是比較長的。百度搜索引擎,最多只會返回760條結果,所以只需要計算前760個結果的相關性,就能滿足要求。
由于所有匹配文件都已經具備了最基本的相關性(這些文件都包含所有查詢關鍵詞),搜索引擎會先篩選出1000個頁面權重較高的一個文件,通過對權重的篩選初始化一個子集,再對這個子集中的頁面進行相關性計算。
4、相關性計算
選出初始子集后,對子集中的頁面計算關鍵詞相關性。計算相關性是排名過程中最具有重要的一步,影響相關性的主要經濟因素分析包括如下幾個問題方面:
① 關鍵詞常用程度
分詞后,多個關鍵詞對整個搜索字符串的意義貢獻不同。越常用的詞對搜索詞的意義貢獻越小,越不常用的詞對意義貢獻越大。因此,搜索引擎不會對搜索詞串中的關鍵字一視同仁,而是根據權重的大小來進行處理。不常見詞的加權系數較高,不常見詞的加權系數較低,排序算法對不常見詞的關注度較高。
② 詞頻及密度
一般認為,在沒有關鍵詞積累的情況下,搜索詞在頁面中出現的頻率越高,密度越高,頁面與搜索詞的相關性越強。當然,這只是一般規律,實際情況未必如此,所以相關性計算還有其他因素。頻率和密度只是等式的一部分,它們變得越來越不重要。
③ 關鍵詞位置及形式
如索引部分所述,頁面關鍵字的格式和位置記錄在索引庫中。關鍵詞出現比較重要的位置,如標題標簽、黑體等,說明頁面與關鍵詞越相關,這一部分就是頁面SEO所要解決的。
④ 關鍵詞距離
分段后關鍵詞完全匹配的出現表明,它與搜索關鍵詞的相關性最強。例如,在搜索“減肥方法”時,頁面上出現的一整套“減肥方法”四個字是最相關的。如果“網站”和“建設”兩個詞沒有連續匹配出現,或者出現的距離近一些,也被搜索引擎認為有一定的相關性。
⑤ 鏈接分析及頁面權重
除了頁面本身之外,頁面之間的鏈接和權重的關系也會影響關鍵字的相關性,其中最重要的是錨文本。頁面上以搜索詞為錨文本的導入鏈接越多,頁面的相關性就越強。鏈接分析還包括了鏈接源頁面本身的主題和錨文字周邊的文字等。
總結: 本文解釋了搜索引擎是如何工作的。了解他們在百度是如何工作的很重要。例如,標題應該包括用戶可能搜索的詞,正確表示關鍵詞或文本中的分割詞有助于判斷內容和用戶的搜索詞之間的相關性。
作者:道一
來源:微信公眾號【燃燈SEO課堂】
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。