肆合互動(dòng),團(tuán)隊(duì)始于2008,為您提供可信任的一站式網(wǎng)站制作和網(wǎng)絡(luò)推廣優(yōu)化服務(wù)!
028-85756675
網(wǎng)站地圖

新聞資訊

為您提供網(wǎng)站建設(shè)資訊、網(wǎng)站優(yōu)化知識(shí)、主機(jī)域名郵箱、
關(guān)鍵詞排名、網(wǎng)站開發(fā)常見問題等。

剖析搜索引擎蜘蛛的爬行和抓取頁(yè)面的原理知識(shí)

發(fā)表日期:2018/08/17 來(lái)源:肆合互動(dòng) 咨詢電話:028-85756675

  “搜索引擎蜘蛛”這個(gè)詞相信很多人都有點(diǎn)陌生,其實(shí)他的意思就是在搜索引擎系統(tǒng)中又被稱之為“蜘蛛”或“機(jī)器人”,是用來(lái)爬行和訪問頁(yè)面的程序。今天,成都網(wǎng)站優(yōu)化小編就來(lái)和大家分享下搜索引擎蜘蛛的爬行和抓取頁(yè)面的原理。希望對(duì)大家有所幫助。

  一、搜索引擎蜘蛛簡(jiǎn)介

  搜索引擎蜘蛛,在搜索引擎系統(tǒng)中又被稱之為“蜘蛛”或“機(jī)器人”,是用來(lái)爬行和訪問頁(yè)面的程序。

 ?、?爬行原理

  搜索引擎蜘蛛訪問網(wǎng)頁(yè)的過程,就好比用戶使用的瀏覽器。

  搜索引擎蜘蛛向頁(yè)面發(fā)出訪問請(qǐng)求,該頁(yè)面的服務(wù)器則返回該頁(yè)面的HTML代碼。

  搜索引擎蜘蛛將收到的HTML代碼存入搜索引擎的原始頁(yè)面數(shù)據(jù)庫(kù)中。

  ② 如何爬行

  為了提高搜索引擎蜘蛛的工作效率,通常采用多個(gè)蜘蛛并發(fā)分布爬行。

  同時(shí),分布爬行還分為兩種模式:深度優(yōu)先和廣度優(yōu)先。

  深度優(yōu)先:沿著發(fā)現(xiàn)的鏈接一直爬行,直到?jīng)]有任何鏈接。

  廣度優(yōu)先:先這一頁(yè)面上的所有鏈接爬行完畢之后,才會(huì)沿著第二層頁(yè)面繼續(xù)這樣爬行。

 ?、?蜘蛛必遵守的協(xié)議

  搜索引擎蜘蛛在訪問網(wǎng)站之前,都會(huì)先訪問網(wǎng)站根目錄下的robots.txt文件。

  搜索引擎蜘蛛不會(huì)去抓取robots.txt文件中禁止爬行的文件或目錄。

 ?、?常見搜索引擎蜘蛛

  百度蜘蛛:Baiduspider

  谷歌蜘蛛:Googlebot

  360蜘蛛:360Spider

  SOSO蜘蛛:Sosospider

  有道蜘蛛:YoudaoBot,YodaoBot

  搜狗蜘蛛:Sogou News Spider

  必應(yīng)蜘蛛:bingbot

  Alexa蜘蛛:ia_archiver

  二、如何吸引更多搜索引擎蜘蛛

  互聯(lián)網(wǎng)信息爆炸,搜索引擎蜘蛛不可能將所有網(wǎng)站的所有鏈接全部爬行到,那么如何吸引更多的搜索引擎蜘蛛到我們網(wǎng)站上來(lái)爬行變得非常重要。

  ① 導(dǎo)入鏈接

  無(wú)論是外部鏈接,還是內(nèi)部鏈接,只有有導(dǎo)入,才能被搜索引擎蜘蛛知道該頁(yè)面的存在。所以,多多做外鏈建設(shè)有助于吸引更多蜘蛛來(lái)訪。

 ?、?頁(yè)面更新頻率

  頁(yè)面更新頻率越高,搜索引擎蜘蛛來(lái)訪的次數(shù)也會(huì)越多。

 ?、?網(wǎng)站和頁(yè)面權(quán)重

  整個(gè)網(wǎng)站的權(quán)重以及某一頁(yè)面的權(quán)重(包括首頁(yè)也是頁(yè)面)影響著蜘蛛的來(lái)訪頻率,權(quán)重高、權(quán)威性強(qiáng)的網(wǎng)站一般都會(huì)增加搜索引擎蜘蛛的好感。

 ?、?與首頁(yè)的距離

  首頁(yè)>一級(jí)目錄>二級(jí)目錄>三級(jí)目錄>四級(jí)目錄…很顯然,目錄越深蜘蛛來(lái)訪的幾率和次數(shù)就會(huì)越少,因?yàn)橐话阃怄湺际侵赶蚴醉?yè)的,首頁(yè)再向下爬行,只會(huì)越來(lái)越少。

  這里給大家的建議是,做外鏈的時(shí)候,不要只做首頁(yè)外鏈,偶爾做一做欄目和聚合頁(yè)面的外鏈也還是不錯(cuò)的哦~

  有些時(shí)候,URL短,蜘蛛可能也會(huì)覺得這個(gè)鏈接的權(quán)重哦,所以,最好只做一級(jí)欄目,然后就是文章頁(yè)面。

  三、搜索引擎蜘蛛地址庫(kù)

  搜索引擎蜘蛛有一個(gè)專門的地址庫(kù),用來(lái)存放已經(jīng)被發(fā)現(xiàn)的URL(已被抓取和未被抓取的都算,只要是被發(fā)現(xiàn)的URL都算),這樣就不會(huì)出現(xiàn)重復(fù)爬行和抓取頁(yè)面的情況了。

 ?、?地址庫(kù)URL來(lái)源

  蜘蛛抓取的頁(yè)面中發(fā)現(xiàn)的新的URL;

  站長(zhǎng)后臺(tái)自主提交的URL;

  站長(zhǎng)后臺(tái)提交的XML地圖中的URL;

  站長(zhǎng)后臺(tái)提交的網(wǎng)站URL;

 ?、?對(duì)于未被抓取的URL

  對(duì)于未被抓取的URL,不管是以什么方式獲取的,哪怕是搜索引擎蜘蛛自己發(fā)現(xiàn)的,也會(huì)先放入地址庫(kù)中,然后在做統(tǒng)一抓取。

  四、頁(yè)面數(shù)據(jù)存儲(chǔ)

  搜索引擎蜘蛛將抓取的頁(yè)面數(shù)據(jù)會(huì)存入搜索引擎的原始頁(yè)面數(shù)據(jù)庫(kù)中,其實(shí),就可以理解為快照中看到的頁(yè)面數(shù)據(jù),和用戶看到的是一樣的,每一個(gè)頁(yè)面的URL地址都有一個(gè)唯一的編號(hào)。

  五、復(fù)制內(nèi)容檢測(cè)

  搜索引擎蜘蛛在爬行的過程中,會(huì)進(jìn)行一定程度的復(fù)制內(nèi)容檢測(cè)。如果是權(quán)重低的網(wǎng)站上,發(fā)現(xiàn)了大量的轉(zhuǎn)載或抄襲內(nèi)容時(shí),可能會(huì)停止爬行,這些頁(yè)面可能也會(huì)不抓取與收錄。

  但并不是說(shuō)網(wǎng)站就不能轉(zhuǎn)載,像一些權(quán)重很高的平臺(tái),哪怕是轉(zhuǎn)載了一篇舊聞排名也可以很好,因?yàn)樗阉饕嬷┲肟赡軙?huì)覺得,就算是舊聞可能也是高質(zhì)量的吧。

相關(guān)案例
更多案例>
ARE YOU
INTERESTED
IN?
感興趣嗎?

網(wǎng)站建設(shè)及推廣咨詢電話

028-85756675
15308030114

成都市天府新區(qū)華府大道1號(hào)藍(lán)潤(rùn)置地廣場(chǎng)T3公寓806室

7x24 小時(shí)專業(yè)服務(wù)
專業(yè)備案全程跟進(jìn)
承諾做不到退款
快速建站SEO友好

填寫網(wǎng)站建設(shè)及SEO優(yōu)化排名需求

*請(qǐng)認(rèn)真填寫需求信息,24小時(shí)內(nèi)與您取得聯(lián)系。
在線咨詢
電話咨詢

立即咨詢

028-85756675
微信咨詢
微信二維碼
QQ咨詢
返回頂部