搜索引擎分類與工作原理

搜索引擎分類

搜索引擎按其工作方式主要可分為三種，分別是全文搜索引擎（Full Text Search Engine）、目錄索引類搜索引擎（Search Index/）和元搜索引擎（Meta Search Engine）。

■全文搜索引擎

全文搜索引擎是名副其實的搜索引擎，國外具代表性的有Google、Fast/、、Inktomi、Teoma、WiseNut等，國內著名的有百度（Baidu）。它們都是通過從互聯網上提取的各個網站的信息（以網頁文字為主）而建立的數據庫中，檢索與用戶查詢條件匹配的相關記錄，然后按一定的排列順序將結果返回給用戶，因此他們是真正的搜索引擎。

■目錄索引

目錄索引雖然有搜索功能，但在嚴格意義上算不上是真正的搜索引擎，僅僅是按目錄分類的網站鏈接列表而已。用戶完全可以不用進行關鍵詞（）查詢，僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎。其他著名的還有Open Project（DMOZ）、、About等。國內的搜狐、新浪、網易搜索也都屬于這一類。

■元搜索引擎 (META Search Engine)

元搜索引擎在接受用戶查詢請求時，同時在其他多個引擎上進行搜索，并將結果返回給用戶。著名的元搜索引擎有、Dogpile、等（元搜索引擎列表），中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面，有的直接按來源引擎排列搜索結果，如Dogpile，有的則按自定的規則將結果重新排列組合，如

什么是搜索引擎?有哪些分類?_搜索引擎分幾類_搜索引擎分類包括

除上述三大類引擎外，還有以下幾種非主流形式：

1、集合式搜索引擎：如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎，但區別在于不是同時調用多個引擎進行搜索，而是由用戶從提供的4個引擎當中選擇，因此叫它“集合式”搜索引擎更確切些。

2、門戶搜索引擎：如AOL Search、MSN Search等雖然提供搜索服務，但自身即沒有分類目錄也沒有網頁數據庫，其搜索結果完全來自其他引擎。

3、免費鏈接列表（Free For All Links，簡稱FFA）：這類網站一般只簡單地滾動排列鏈接條目，少部分有簡單的分類目錄，不過規模比起Yahoo等目錄索引來要小得多。

由于上述網站都為用戶提供搜索查詢服務，為方便起見，我們通常將其統稱為搜索引擎。

搜索引擎是怎么工作的

搜索引擎并不真正搜索互聯網，它搜索的實際上是預先整理好的網頁索引數據庫。真正意義上的搜索引擎，通常指的是收集了因特網上幾千萬到幾十億個網頁并對網頁中的每一個詞（即關鍵詞）進行索引，建立索引數據庫的全文搜索引擎。當用戶查找某個關鍵詞的時候，所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的算法進行排序后，這些結果將按照與搜索關鍵詞的相關度高低，依次排列。

現在的搜索引擎已普遍使用超鏈分析技術，除了分析索引網頁本身的內容，還分析索引所有指向該網頁的鏈接的URL、、甚至鏈接周圍的文字。所以，有時候，即使某個網頁A中并沒有某個詞比如“惡魔撒旦”，但如果有別的網頁B用鏈接“惡魔撒旦”指向這個網頁A，那么用戶搜索“惡魔撒旦”時也能找到網頁A。而且，如果有越多網頁（C、D、E、F……）用名為“惡魔撒旦”的鏈接指向這個網頁A，或者給出這個鏈接的源網頁（B、C、D、E、F……）越優秀，那么網頁A在用戶搜索“惡魔撒旦”時也會被認為更相關，排序也會越靠前。

搜索引擎的原理，可以看做三步：從互聯網上抓取網頁→建立索引數據庫→在索引數據庫中搜索排序

從互聯網上抓取網頁

搜索引擎分幾類_什么是搜索引擎?有哪些分類?_搜索引擎分類包括

利用能夠從互聯網上自動收集網頁的Spider系統程序，自動訪問互聯網，并沿著任何網頁中的所有URL爬到其它網頁，重復這過程，并把爬過的所有網頁收集回來。

建立索引數據庫

由分析索引系統程序對收集回來的網頁進行分析，提取相關網頁信息（包括網頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大些與其它網頁的鏈接關系等），根據一定的相關度算法進行大量復雜計算，得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度（或重要性），然后用這些相關信息建立網頁索引數據庫。

在索引數據庫中搜索排序

當用戶輸入關鍵詞搜索后，由搜索系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對該關鍵詞的相關度早已算好，所以只需按照現成的相關度數值排序，相關度越高，排名越靠前。

最后，由頁面生成系統將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。

搜索引擎的Spider一般要定期重新訪問所有網頁（各搜索引擎的周期不同，可能是幾天、幾周或幾月，也可能對不同重要性的網頁有不同的更新頻率），更新網頁索引數據庫，以反映出網頁內容的更新情況，增加新的網頁信息，去除死鏈接，并根據網頁內容和鏈接關系的變化重新排序。這樣，網頁的具體內容和變化情況就會反映到用戶查詢的結果中。

互聯網雖然只有一個，但各搜索引擎的能力和偏好不同，所以抓取的網頁各不相同，排序算法也各不相同。大型搜索引擎的數據庫儲存了互聯網上幾億至幾十億的網頁索引，數據量達到幾千G甚至幾萬G。但即使最大的搜索引擎建立超過二十億網頁的索引數據庫，也只能占到互聯網上普通網頁的不到30%，不同搜索引擎之間的網頁數據重疊率一般在70%以下。我們使用不同搜索引擎的重要原因，就是因為它們能分別搜索到不同的內容。而互聯網上有更大量的內容，是搜索引擎無法抓取索引的，也是我們無法用搜索引擎搜索到的。

你心里應該有這個概念：搜索引擎只能搜到它網頁索引數據庫里儲存的內容。你也應該有這個概念：如果搜索引擎的網頁索引數據庫里應該有你而沒有搜出來，那是你的能力問題，學習搜索技巧可以大幅度提高你的搜索能力。

在線咨詢

上一篇：5G新運營商上線192開頭！官網被擠爆，網友群嘲：太貴，沒誠意
下一篇：大數據技術在電子政務領域的應用

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

搜索引擎分類與工作原理

您的項目需求