◎歡迎參與討論,請?jiān)谶@里發(fā)表您的看法、交流您的觀點(diǎn)。
避免蜘蛛陷阱
有一些網(wǎng)站設(shè)計(jì)技術(shù)對搜索引擎來說很不友好,不利于蜘蛛爬行和抓取,這些技術(shù)被稱為蜘蛛陷阱。常見的應(yīng)該全力避免的蜘蛛陷阱包括如下這些。
1.Flash
在網(wǎng)頁的某一小部分使用 Flash增強(qiáng)視覺效果是很正常的,比如用Flash 做成的廣告、圖標(biāo)等。這種小Flash和圖片是一樣的,只是HTML代碼中的很小一部分,頁面上還有其他以文字為主的內(nèi)容,所以對搜索引擎抓取和收錄沒有影響。
但是有的網(wǎng)站整個(gè)首頁就是一個(gè)大的 Flash 文件,這就構(gòu)成了蜘蛛陷阱。搜索引擎抓取的HTML代碼只有一個(gè)連向Flash文件的鏈接,沒有其他文字內(nèi)容。讀者可以參考前面例子的源代碼。搜索引擎是無法讀取 Flash 文件中的文字內(nèi)容和鏈接的。這種網(wǎng)站整個(gè)就是一個(gè)Flash 的網(wǎng)站,可能視覺效果做得精彩異常,可惜搜索引擎看不到,不能索引出任何文字信息,也就無從判斷相關(guān)性。
有的網(wǎng)站喜歡在首頁放一個(gè)Flash 動(dòng)畫片頭(Flash Into),用戶訪問網(wǎng)站看完片頭后被轉(zhuǎn)向到真正的HTML 版本的文字網(wǎng)站首頁。搜索引擎不能讀取 Flash,一般也沒辦法從 Flash Intro 跟蹤到HTML 版本頁面。
近幾年搜索引擎不停嘗試讀取 Flash 文件,尤其是里面的文字內(nèi)容和鏈接,也取得了一定進(jìn)展。站長可以使用SWFObject和 sIFR 等技術(shù)使Flash 文件更易于被搜索引擎讀取。不過我的觀點(diǎn)是,與其費(fèi)勁去研究怎么讓搜索引擎讀取Flash 文件,不如做成普通的HTML版本的網(wǎng)站。如果你的網(wǎng)站除了 Flash 外不足以展現(xiàn)公司實(shí)力,那么你的公司應(yīng)該是世界 500 強(qiáng)級別的,SEO 就不重要了。
整個(gè)網(wǎng)站就是一個(gè)大 Flash文件,從 SEO 角度來說是萬萬不可的。如果Flash效果是必需的,至少也需要在首頁加上一個(gè)通往 HFTM版本的鏈接。這個(gè)鏈接應(yīng)該是在Flash 文件之外的 HTML 代碼中,搜索引擎跟蹤這個(gè)鏈接可以抓取后面的 HTML版本頁面。
2.Session ID
有些網(wǎng)站使用 Session ID(會(huì)話ID)跟蹤用戶訪問,每個(gè)用戶訪問網(wǎng)站時(shí)都會(huì)生成獨(dú)特唯一的 Session ID,加在 URL 中。搜索引擎蜘蛛的每一次訪問也會(huì)被當(dāng)成一個(gè)新的用戶,URL 中會(huì)加上一個(gè)不同的 Session ID,這樣搜索引擎蜘蛛每次來訪問時(shí)所得到的同一個(gè)頁面的 URL 將不一樣,后面帶著一個(gè)不一樣的 Session ID。這也是最常見的蜘蛛陷阱之一。
搜索引擎遇到這種長長的 Session ID,會(huì)嘗試判斷字符串是 Session ID還是正常參數(shù),成功判斷出 Session ID 就可以去掉 Session ID,收錄正常URL。但也經(jīng)常判斷不出來,要么不愿意收錄,要么收錄多個(gè)帶有不同 Session ID的URL,內(nèi)容卻完全一樣,形成大量復(fù)制內(nèi)容,這兩種情況對網(wǎng)站優(yōu)化都不利。
通常建議跟蹤用戶訪問應(yīng)該使用 cookies而不要生成 Session ID?;蛘叱绦蚺袛嘣L問者是搜索引擎蜘蛛還是普通用戶,如果是搜索引擎蜘蛛,則不生成 Session ID。跟蹤搜索引擎蜘蛛訪問是沒什么意義的,蜘蛛既不會(huì)填表,也不會(huì)把商品放入購物車。
3.各種跳轉(zhuǎn)
除了后面會(huì)介紹的301轉(zhuǎn)向以外,搜索引擎對其他形式的跳轉(zhuǎn)都比較敏感,如302跳轉(zhuǎn)、JavaSecript 跳轉(zhuǎn)、Flash 跳轉(zhuǎn)、Meta Refresh 跳轉(zhuǎn)。
有些網(wǎng)站用戶訪問首頁時(shí)會(huì)被自動(dòng)轉(zhuǎn)向到某個(gè)目錄下的頁面。如果是按用戶地理位置轉(zhuǎn)向至最適合的目錄,那倒情有可原。但大部分這種首頁轉(zhuǎn)向看不出任何理由和目的,這樣的轉(zhuǎn)向能避免則避免。
如果必須轉(zhuǎn)向,301 轉(zhuǎn)向是搜索引擎推薦的、用于網(wǎng)址更改的轉(zhuǎn)向,可以把頁面權(quán)重從舊網(wǎng)址轉(zhuǎn)移到新網(wǎng)址。其他轉(zhuǎn)向方式都對蜘蛛爬行不利,原因在于后面作弊一章所要介紹的,黑帽 SEO 經(jīng)常使用轉(zhuǎn)向欺騙搜索引擎和用戶。所以除非萬不得已,盡量不要使用 301轉(zhuǎn)向以外的跳轉(zhuǎn)。
4.框架結(jié)構(gòu)
如果作為站長的你不知道什么是框架結(jié)構(gòu)(Frame),那么恭喜你,你已經(jīng)避免了這個(gè)蜘蛛陷阱,根本沒必要知道什么是框架結(jié)構(gòu)。如果你在網(wǎng)站設(shè)計(jì)中還在使用框架結(jié)構(gòu),我的建議是立即取消。
使用框架結(jié)構(gòu)設(shè)計(jì)頁面,在網(wǎng)站誕生初期曾經(jīng)挺流行,因?yàn)閷W(wǎng)站的頁面更新維護(hù)有一定方便性。不過現(xiàn)在的網(wǎng)站已經(jīng)很少使用框架了,不利于搜索引擎抓取是框架越來越不流行的重要原因之一。對搜索引擎來說,訪問一個(gè)使用框架的網(wǎng)址所抓取的HTML 只包含調(diào)用其他HTML 文件的代碼,并不包含任何文字信息,搜索引擎根本無法判斷這個(gè)網(wǎng)址的內(nèi)容是什么。雖然蜘蛛可以跟蹤框架中所調(diào)用的其他HTML文件,但是這些文件經(jīng)常是不完整的頁面,比如沒有導(dǎo)航只是正文。搜索引擎也無法判斷框架中的頁面內(nèi)容應(yīng)該屬于主框架,還是屬于框架調(diào)用的文件。
總之,如果你的網(wǎng)站還在使用框架,或者你的老板要使用框架結(jié)構(gòu),唯一要記住的是,忘記使用框架這回事。和 Fash一樣,別浪費(fèi)時(shí)間研究怎么讓搜索引擎收錄框架結(jié)構(gòu)網(wǎng)站。
5.動(dòng)態(tài) URL
動(dòng)態(tài) URL 指的是數(shù)據(jù)庫驅(qū)動(dòng)的網(wǎng)站所生成的、帶有問號(hào)、等號(hào)及參數(shù)的網(wǎng)址。一般來說動(dòng)態(tài) URL 不利于搜索引擎蜘蛛爬行,應(yīng)該盡量避免。下面對動(dòng)態(tài) URL及其靜態(tài)化還有更詳細(xì)的討論。
6.JavaScript 鏈接
由于 JavaScript 可以創(chuàng)造出很多吸引人的視覺效果,有些網(wǎng)站喜歡使用 JavaScript腳本生成導(dǎo)航系統(tǒng)。這也是比較嚴(yán)重的蛛蛛陷阱之一。雖然搜索引擎都在嘗試解析 JS 腳本,不過我們不能寄希望于搜索引擎自己去克服困難,而要讓搜索引擎跟蹤爬行鏈接的工作盡量簡單容易。
據(jù)我觀察,雖然有的搜索引擎在技術(shù)上可以獲得 JavaScript 腳本中包含的鏈接,甚至可以執(zhí)行腳本并跟蹤鏈接,但對一些權(quán)重比較低的網(wǎng)站,搜索引擎覺得沒有必要,不會(huì)費(fèi)那個(gè)勁。所以網(wǎng)站上的鏈接必須使用最簡單標(biāo)準(zhǔn)的HTML鏈接,尤其是導(dǎo)航系統(tǒng)。用CSs做導(dǎo)航系統(tǒng)一樣可以實(shí)現(xiàn)很多視覺效果。
JavaScript 鏈接在 SEO 中也有特殊用途,那就是站長不希望被收錄的頁面(比如沒有排名意義的頁面,重復(fù)內(nèi)容頁面等),不希望傳遞權(quán)重的鏈接,可以使用Javascrip腳本阻擋搜索引擎爬行。 4.2.7 要求登錄
有些網(wǎng)站內(nèi)容放在需要用戶登錄之后才能看到的會(huì)員區(qū)域,這部分內(nèi)容搜索引擎無法看到。蜘蛛不能填寫用戶名、密碼,也不會(huì)注冊。
8.強(qiáng)制使用Cookies
有些網(wǎng)站為了實(shí)現(xiàn)某種功能,如記住用戶登錄信息、跟蹤用戶訪問路徑等,強(qiáng)制用戶
使用Cookies,用戶瀏覽器如果沒有啟用Cookies,頁面顯示不正常。搜索引擎蜘蛛就相當(dāng) 于一個(gè)禁用了 Cookies的瀏覽器,強(qiáng)制使用Cookies只能造成捜索引擎蜘蛛無法正常訪問
(黑帽seo技術(shù),網(wǎng)站快速排名,蜘蛛池加速收錄,目錄程序定制)
掃一下添加微信: