1全文搜索引擎
全文搜索引擎的代表是網絡爬蟲,網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從Internet網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為復雜,需要根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并放入等待抓取的URL隊列。然后,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁,并重復上述過程,直到達到系統的某一條件時停止。所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。
爬蟲設計是否合理將直接影響它訪問Web的效率,影響搜索數據庫的質量,另外在設計爬蟲時還必須考慮它對網絡和被訪問站點的影響,因為爬蟲一般都運行在速度快,帶寬高的主機上,如果它快速訪問一個速度較慢的目標站點,可能導致該站點出現阻塞。Robot應遵守一些協議,以便被訪問站點的管理員能夠確定訪問內容,Index是一個龐大的數據庫,爬蟲提取的網頁將被放入到Index中建立索引,不同的搜索引擎會采取不同方式來建立索引,有的對整個HTML文件的所有單詞都建立索引,有的只分析HTML文件的標題或前幾段內容,還有的能處理HTML文件中的META標記或特殊標記。
2目錄搜索引擎
目錄搜索引擎的數據庫是依靠專職人員建立的,這些人員在訪問了某個Web站點后撰寫一段對該站點的描述,并根據站點的內容和性質將其歸為一個預先分好的類別,把站點URL和描述放在這個類別中,當用戶查詢某個關鍵詞時,搜索軟件只在這些描述中進行搜索。很多目錄也接受用戶提交的網站和描述,當目錄的編輯人員認可該網站及描述后,就會將之添加到合適的類別中。
目錄的結構為樹形結構,首頁提供了基本的入口,用戶可以逐級地向下訪問,直至找到自己的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個關鍵詞。由于目錄式搜索引擎只在保存了對站點的描述中搜索,因此站點本身的變化不會反映到搜索結果中,這也是目錄式搜索引擎與基于Robot的搜索引擎之間的區別。分類目錄在網絡營銷中的應用主要有下列特點:
通常只能收錄網站首頁(或者若干頻道),而不能將大量網頁都提交給分類目錄;網站一旦被收錄將在一定時期內保持穩定;無法通過"搜索引擎優化"等手段提高網站在分類目錄中的排名;在高質量的分類目錄登錄,對于提高網站在搜索引擎檢索結果中的排名有一定價值;緊靠分類目錄通常與其他網站推廣手段共同使用。
3元搜索引擎
我們可將元搜索引擎看成具有雙層客戶機/服務器結構的系統。用戶向元搜索引擎發出檢索請求,元搜索引擎再根據該請求向多個搜索引擎發出實際檢索請求,搜索引擎執行元搜索引擎檢索請求后將檢索結果以應答形式傳送給元搜索引擎,元搜索引擎將從多個搜索引擎獲得的檢索結果經過整理再以應答形式傳送給實際用戶。當然,某些元搜索引擎具有略微不同的機制。元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,將結果進行相關處理,以整體統一的格式反饋給用戶。
它的特點是本身并沒有存放網頁信息的數據庫。多數元搜索引擎在處理其它的搜索引擎返回結果時,只提取出每個搜索引擎的結果中考前的條目,然后將這些條目合并在一起返回給用戶,元搜索引擎實現起比較簡單,但是它也有一定的局限性,例如多數元搜索引擎都只能訪問少數幾個搜索引擎,并且通常不支持這些搜索引擎的高級搜索功能,在處理邏輯查詢時也常常會出現錯誤。在這幾種檢索工具中,目錄式搜索引擎成本高,信息t少的缺點,但它的信息準確這一優點使其在一定的領域和時間內仍會被使用,機器人搜索引擎是當前各種搜索引擎的主流,但隨著網絡信息量的增加,單一搜索引擎已經難已滿足要求,結合目錄式搜索引擎,機器人搜索引擎的優勢,以元搜索引擎為核心的多層代理搜索引擎是搜索引擎的發展方向。
搜索引擎技術功能強大,提供的服務也全面,它們的目標不僅僅是提供單純的查詢功能,而是把自己發展成為用戶選擇的Internet入口站點。目前的搜索引擎主要有幾個特點:多樣化和個性化的服務。強大的查詢功能。目錄和基于Robot的搜索引擎相互結合。目前搜索引擎是網絡上被使用頻率高的服務項目之一,隨著Internet的發展,網上龐大的數字化信息和人們獲取所需信息能力之間的矛盾突出。搜索結果豐富的搜索引擎技術正在被信息更集中的局域網取代,因為搜索系統的表現與用戶的期望值相差太大,諸如數據量高速增長的視頻、音頻等多媒體信息的檢索,仍然無法實現。
搜索引擎越來越不能滿足用戶的各種信息需求,如收集的網頁數量和其數據庫的更新速度存在著不可調和的矛盾。用戶經常無法打開查詢的結果。網絡信息時刻變動,實時搜索幾乎不可能。網絡信息收集與整理是搜索引擎工作的重要部分。搜索引擎需要定期不斷地訪問網絡資源。目前網絡帶寬不足,網絡速度慢,遍歷如此龐雜的網絡時間花費非常龐大,這就是不能實時搜索的原因。