百度搜索引擎工作原理是學習SEO入門課,是新手必須要掌握的,網(wǎng)絡上、官方的原理都太過于復雜不便于理解,我挑重點為大家通俗易懂的總結了一下,更加方便新手的學習。百度搜索引擎原理主要分為四步:百度蜘蛛抓取頁面內容、儲存臨時庫進行垃圾內容過濾、資源分類并建立索引、輸出排序結果。
第一步:百度蜘蛛抓取內容
當我們建立好一個網(wǎng)站的時候,想在SEO中做排名,就一定要把網(wǎng)站地址提交到百度站長平臺,讓百度蜘蛛來進行抓取,百度蜘蛛抓取到內容后,如果判斷內容為高質量內容,就會收錄到百度資源庫中,提供給用戶進行搜索結果展現(xiàn)!反之就會過濾掉,不給予收錄,或者收錄了,但不給予搜索結果展現(xiàn)(就是不給排名的意思)。


1,百度通過哪些渠道可以抓取我們網(wǎng)站那?
一般而言新站,都是我們自己進行提交到百度站長平臺后,百度才會進行抓取,否則百度怎么知道你的網(wǎng)站存在那?還有一種方式就是,你把你站點鏈接發(fā)布到了其他網(wǎng)站上,比如:博客、論壇、貼吧這類的平臺,百度在抓取這些平臺的時候,跟著鏈接直接來抓取你的站點。另外現(xiàn)在百度搜索引擎給我們了一個福利,就是只要我們在我們的網(wǎng)站中添加一段代碼,百度自動就會來進行抓取了,大大提高了網(wǎng)站抓取率!
2,蜘蛛抓取狀態(tài)碼什么意思?
這個狀態(tài)碼主要在我們分析蜘蛛抓取日志的時候會用到,蜘蛛日志會記錄百度每天來抓取了多少次,都抓取了那些頁面和目錄,都是哪些IP段的蜘蛛,以及抓取是否成功,或者抓取失敗,抓取失敗就意味著頁面不會被收錄,也就不會參與排名,怎么判斷抓取失敗那,這個時候就需要用到蜘蛛狀態(tài)碼了!
200表示抓取成功,百度蜘蛛成功抓取了頁面,準備進行下一步處理!
403代表抓取失敗,網(wǎng)頁目前禁止訪問,一般為設置了某些權限所產生。
404代表抓取失敗,原網(wǎng)頁頁面已經(jīng)失效,代表抓取失敗
503代表抓取失敗,網(wǎng)頁臨時不可訪問,通常網(wǎng)站臨時關閉,帶寬超額不可訪問等情況。
3,抓取異常是由什么原因造成的?
一般而言,如果百度蜘蛛抓取失敗,證明用戶也是不可訪問的,常見的原因有服務器連接異常,就是網(wǎng)站打不開,或者抓取頁面已經(jīng)被刪除掉、失效成為了死鏈接。這里大家要注意,如果在蜘蛛中發(fā)現(xiàn)了抓取失敗的頁面,一定要及時處理,以免大量的失效頁面被百度搜索引擎所懲罰!
第二步、臨時庫垃圾內容過濾
百度蜘蛛抓取到成功的頁面,會下載儲存到一個臨時庫中去,然后百度會通過各類算法進行頁面分析,刪除重復的頁面、低質量的頁面、違法信息頁面、等等,百度的算法高達200多種,最后過濾出高質量頁面,進行下一步的處理!
什么樣的頁面稱之為高質量頁面?
1、有時效性且有價值的頁面
在這里,時效性和價值是并列關系,缺一不可。有些站點為了產生時效性內容頁面做了大量采集工作,產生了一堆無價值面頁,也是百度不愿看到的.
2、內容優(yōu)質的專題頁面
專題頁面的內容不一定完全是原創(chuàng)的,即可以很好地把各方內容整合在一起,或者增加一些新鮮的內容,比如觀點和評論,給用戶更豐富全面的內容。
3、高價值原創(chuàng)內容頁面
百度把原創(chuàng)定義為花費一定成本、大量經(jīng)驗積累提取后形成的文章,千萬不要再問我們偽原創(chuàng)是不是原創(chuàng)。
4、圖文并茂,且段落分明
如果文章字數(shù)超過500字,且是圖文并茂形式,段落清晰,為花費一定成本編寫的原創(chuàng)文章,是百度最喜歡的文章類型,大家可以參考“百度百科”形式!
第三步:資源分類并建立索引
當上一步處理完畢,經(jīng)過審核的高質量頁面,在這一步會被百度正式的儲存在索引庫中,也稱為被收錄了,并運用分詞算法對文章進行歸類,通俗點講就是什么類型的文章就放到什么位置,方便百度歸類文章內容!
這里跟大家講解一下,索引跟收錄會稍微有一點誤差,是因為有一部分的索引量百度并沒有直接公開出來,可能還需要進行審核,需要延遲一段時間才能放出來,有的直接公開出來了,所以大家查收錄的時候,一般索引量會高于收錄量,這個是正常現(xiàn)象!
第四步:輸出排序結果
搜索引擎會對蜘蛛抓取回來的頁面內容進行逐一標記和識別,將這些標記進行存儲為結構化數(shù)據(jù),比如頁面的基本title信息,tag,discripition,keywords,網(wǎng)頁外鏈描述,抓取記錄等一系列內容。以便在用戶搜索的時候提供最匹配的內容頁面。
當上一步建立索引以后,并且百度放出你的頁面以后,就會通過一系列算法來計算你應該獲得的排名位數(shù)!計算排名是需要一系列的算法,下面舉出幾個百度官方聲明的。
(這里注意,沒放出來的頁面是無法計算排名的,也就是百度中根本就搜索不到你的頁面)
影響百度搜索引擎頁面排序因素的幾個點!
1,相關性:網(wǎng)頁內容與用戶檢索需求的匹配程度,比如網(wǎng)頁包含的用戶檢查關鍵詞的個數(shù),以及這些關鍵詞出現(xiàn)的位置;外部網(wǎng)頁指向該頁面所用的錨文本等
2,權威性:用戶喜歡有一定權威性網(wǎng)站提供的內容,相應的,百度搜索引擎也更相信優(yōu)質權威站點提供的內容。
3,時效性:時效性結果指的是新出現(xiàn)的網(wǎng)頁,且網(wǎng)頁內承載了新鮮的內容。目前時效性結果在搜索引擎中日趨重要。
4,重要性:網(wǎng)頁內容與用戶檢查需求匹配的重要程度或受歡迎程度
5,豐富度:豐富度看似簡單卻是一個覆蓋范圍非常廣的命題。可以理解為網(wǎng)頁內容豐富,可以完全滿足用戶需求;不僅可以滿足用戶單一需求,還可以滿足用戶的延展需求。
6,受歡迎程度:指該網(wǎng)頁是不是受歡迎,用戶的訪問行為,停留時長,頁面點擊率等等。
7、綜合排序:將最能滿足用戶需求的結果排序在最前,可能包括的有用信息如:網(wǎng)站的整體評價、網(wǎng)頁質量、內容質量、資源質量、匹配程度、分散度、時效性等。
好了,今天我們就講解到這里,其實我們從搜索引擎的工作原理不難發(fā)現(xiàn),只有您網(wǎng)站上的內容能給用戶帶來更好的體驗,才能得到搜索引擎的親睞,所以內容是否對用戶有價值是我們終究要考慮的一個問題。
