揭秘網(wǎng)站不能被充分收錄的真實(shí)原因
網(wǎng)站上線后首先要做的就是提交網(wǎng)址給搜索引擎,搜索引擎收到網(wǎng)址的請求后,并會安排蜘蛛對網(wǎng)站進(jìn)行抓取,但是不盡人意的是蜘蛛總是不能對網(wǎng)站進(jìn)行充分收錄,網(wǎng)站的實(shí)際收錄率非常低,到底是什么原因?qū)е戮W(wǎng)站不能被充分收錄,是網(wǎng)站結(jié)構(gòu)問題、是網(wǎng)站權(quán)重問題、還是網(wǎng)站優(yōu)化問題?廣州兼職吧給大家揭秘不能充分收錄的真實(shí)原因。
第一:被robots.txt文件屏蔽。在分析網(wǎng)站日志時發(fā)現(xiàn)蜘蛛每天都會在網(wǎng)站抓取,但是網(wǎng)站依然是收錄不充分,這時我們很有必要檢測網(wǎng)站的robots文件,站長們都知道蜘蛛來網(wǎng)站抓取時,首先會檢索網(wǎng)站是否存在robots文件,查看網(wǎng)站是否已經(jīng)存在不需要抓取的頁面,看文件中是否阻止了網(wǎng)站中某部分內(nèi)容,很多站長因?yàn)椴粫_的寫robots文件,導(dǎo)致網(wǎng)站不能被充分的收錄。對于很多新手站長不知道如何寫文件,可以利用百度站長工具robots文件功能,可以檢測你的文件寫法是否正確,或者可以直接幫你生成文件,需要你填寫屏蔽的文件路徑即可。如下面的例子:
User-agent: *
Disallow: /news / 不允許所有的搜索引擎抓取news路徑下的內(nèi)容
如果某網(wǎng)站上添加了上面的文件,蜘蛛并不會抓取網(wǎng)站上在news路徑下的內(nèi)容,網(wǎng)站在news目錄下更新的文章永遠(yuǎn)不會被收錄,網(wǎng)站更新再多的文章,訪問日志中蜘蛛每天都來抓取,但是對于這些內(nèi)容還是不會給予收錄。但是對于網(wǎng)站來說news下的內(nèi)容是很重要的,這樣錯誤的robots文件并是網(wǎng)站不能被充分收錄的幕后黑手。
第二: robots meta標(biāo)簽禁止,網(wǎng)站在診斷的過程中,發(fā)現(xiàn)網(wǎng)站的實(shí)際收錄率很低,網(wǎng)站有的欄目頁可以被收錄完整,但是有的欄目頁更新原創(chuàng)的文章,也不會被收錄,之后在檢查網(wǎng)站代碼時才發(fā)現(xiàn),頁面上使用了 noindex標(biāo)簽告訴蜘蛛不允許索引這個頁面,顯然保護(hù)這段代碼的欄目頁不會被收錄,更新的內(nèi)容即使質(zhì)量再高也不會被抓取。同時,nofollow標(biāo)簽告訴蜘蛛此頁面上的鏈接不傳遞權(quán)重,如果網(wǎng)站上的頁面鏈接都帶有nofollow,那這就是明顯的告訴搜索引擎此頁面沒有任何價值。如果你的站遇到不能被充分收錄,檢查下meta標(biāo)簽,是否存在錯誤的標(biāo)簽。
第三:頁面沒有被訪問過,特別對于一些大型的內(nèi)容型網(wǎng)站來說,網(wǎng)站上的內(nèi)容頁面特別多,網(wǎng)站之間如果不能很好的建立內(nèi)鏈,很多頁面可能就會面臨著被沉底不收錄的現(xiàn)象,這些頁面大多數(shù)離網(wǎng)站首頁深度比較深,蜘蛛無法對頁面進(jìn)行爬行,導(dǎo)致不能被蜘蛛收錄。或者是鏈接到此頁面的鏈接都是加了nofollow標(biāo)簽,不傳遞任何權(quán)重的鏈接。因?yàn)檫@種原因?qū)е戮W(wǎng)站不被充分收錄比較冤枉,對于網(wǎng)站的建設(shè)來說,好不要在網(wǎng)站上使用nofollow標(biāo)簽、JS代碼、或者蜘蛛不能識別的轉(zhuǎn)向等。對于網(wǎng)站頁面深度比較深的情況,站長們可以完善網(wǎng)站的內(nèi)鏈建設(shè),不要網(wǎng)站的頁面變成獨(dú)立的頁面,建立好導(dǎo)航和內(nèi)鏈,或者給想要收錄的頁面增加外鏈,提高頁面在搜索引擎中的權(quán)重值。
第四:被蜘蛛當(dāng)做是作弊的內(nèi)容,網(wǎng)站中大量的使用黑帽SEO,作弊的手法優(yōu)化頁面,這樣的頁面蜘蛛是不會給予收錄的。網(wǎng)站上長期使用隱藏文字在頁面上進(jìn)行關(guān)鍵詞堆積,網(wǎng)站上對蜘蛛檢索到存在隱藏文字和鏈接,這時你的網(wǎng)站很有可能會被蜘蛛從索引中刪除,不會再次出現(xiàn)在搜索頁面中。站長們可能會問什么是作弊的內(nèi)容,如初的作弊方法使用和背景顏色相同的文字,堆積大量的關(guān)鍵詞,這種作弊方法很容易被檢測出來;使用noscript標(biāo)簽,告訴瀏覽器當(dāng)頁面上有JS時,當(dāng)瀏覽器關(guān)閉時,頁面上該顯示什么內(nèi)容,事實(shí)上是在noscript標(biāo)簽中堆積很多關(guān)鍵詞,這種做法是相關(guān)有危險的,很容易就會導(dǎo)致內(nèi)容被刪除。
第五:低質(zhì)量內(nèi)容垃圾站點(diǎn),除去上面說到的4點(diǎn)優(yōu)化方法上的原因,還有個重要的不可忽視的就是頁面本身的問題,搜索引擎識別能力逐漸加強(qiáng),對于非高質(zhì)量非原創(chuàng)的內(nèi)容,蜘蛛有一定的識別能力,不管是本身網(wǎng)站的重復(fù)內(nèi)容,還是網(wǎng)站從外部獲得的重復(fù)內(nèi)容,蜘蛛都能一定程度的對其識別,對于重復(fù)的內(nèi)容頁面,蜘蛛不會繼續(xù)放入自己的數(shù)據(jù)庫,甚至?xí)σ恍┑蜋?quán)重的網(wǎng)站,進(jìn)行刪除索引的操作。在互聯(lián)網(wǎng)垃圾泡沫的時代,要想真正的做到收錄充分,網(wǎng)站權(quán)重高,還是要堅(jiān)持去做高質(zhì)量的內(nèi)容,這樣才能長久在業(yè)界生存。