中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

搜索引擎如何去抓取網(wǎng)頁(yè)

2019-03-22    來(lái)源:www.cmshtml.com

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

搜索引擎看似簡(jiǎn)單的抓取-入庫(kù)-查詢工作,但其中各個(gè)環(huán)節(jié)暗含的算法卻十分復(fù)雜。

搜索引擎抓取頁(yè)面工作靠蜘蛛(Spider)來(lái)完成,抓取動(dòng)作很容易實(shí)現(xiàn),但是抓取哪些頁(yè)面,優(yōu)先抓取哪些頁(yè)面卻需要算法來(lái)決定,下面介紹幾個(gè)抓取算法:

1、寬度優(yōu)先抓取策略:

我們都知道,大部分網(wǎng)站都是按照樹(shù)狀圖來(lái)完成頁(yè)面分布的,那么在一個(gè)樹(shù)狀圖的鏈接結(jié)構(gòu)中,哪些頁(yè)面會(huì)被優(yōu)先抓取呢?為什么要優(yōu)先抓取這些頁(yè)面呢?寬度優(yōu)先抓取策略就是按照樹(shù)狀圖結(jié)構(gòu),優(yōu)先抓取同級(jí)鏈接,待同級(jí)鏈接抓取完成后,再抓取下一級(jí)鏈接。如下圖:

大家可以發(fā)現(xiàn),我在表述的時(shí)候,使用的是鏈接結(jié)構(gòu)而不是網(wǎng)站結(jié)構(gòu)。這里的鏈接結(jié)構(gòu)可以由任何頁(yè)面的鏈接構(gòu)成,并不一定是網(wǎng)站內(nèi)部鏈接。這是一種理想化的寬度優(yōu)先抓取策略,在實(shí)際的抓取過(guò)程中,不可能想這樣完全寬度優(yōu)先,而是有限寬度優(yōu)先,如下圖:

上圖中,我們的Spider在取回G鏈接時(shí),通過(guò)算法發(fā)現(xiàn),G頁(yè)面沒(méi)有任何價(jià)值,所以悲劇的G鏈接以及下級(jí)H鏈接被Spider給和諧了。至于G鏈接為什么會(huì)被和諧掉?好吧,我們來(lái)分析一下。

2、非完全遍歷鏈接權(quán)重計(jì)算:

每個(gè)搜索引擎都有一套pagerank(指頁(yè)面權(quán)重,非google PR)計(jì)算方法,并且經(jīng)常會(huì)更新;ヂ(lián)網(wǎng)近乎無(wú)窮大,每天都會(huì)產(chǎn)生海量的新鏈接。搜索引擎對(duì)于鏈接權(quán)重的計(jì)算只能是非完全遍歷。為什么Google PR要三個(gè)月左右才更新一次?為什么百度大更新一個(gè)月1-2兩次?這就是因?yàn)樗阉饕娌捎昧朔峭耆闅v鏈接權(quán)重算法來(lái)計(jì)算鏈接權(quán)重。其實(shí)按照目前的技術(shù),實(shí)現(xiàn)更快頻率的權(quán)重更新并不難,計(jì)算速度以及存儲(chǔ)速度完全跟得上,但為什么不去做?因?yàn)闆](méi)那么必要,或者已經(jīng)實(shí)現(xiàn)了,但不想公布出來(lái)。那,什么是非完全遍歷鏈接權(quán)重計(jì)算?

我們將K數(shù)量的鏈接形成一個(gè)集合,R代表鏈接所獲得的pagerank,S代表鏈接所包含的鏈接數(shù)量,Q代表是否參與傳遞,β代表阻尼因數(shù),那么鏈接所獲得的權(quán)重計(jì)算公式為:

從公式 里可以發(fā)現(xiàn),決定鏈接權(quán)重的是Q,如果鏈接被發(fā)現(xiàn)作弊,或者搜索引擎人工清除,或者其他原因,Q被設(shè)為0,那么再多的外鏈都沒(méi)用。β是阻尼因數(shù),主要作用是防止權(quán)重0的出現(xiàn),導(dǎo)致鏈接無(wú)法參與權(quán)重傳遞,以及防止作弊的出現(xiàn)。阻尼因數(shù)β一般為0.85。為什么會(huì)在網(wǎng)站數(shù)量上乘以阻尼因數(shù)?因?yàn)橐粋(gè)頁(yè)面內(nèi)并非所有的頁(yè)面都參與權(quán)重傳遞,搜索引擎會(huì)將已經(jīng)過(guò)濾過(guò)的鏈接再度剔除15%。

但這種非完全遍歷權(quán)重計(jì)算需要積累到一定數(shù)量的鏈接后才能再次開(kāi)始計(jì)算,所以一般更新周期比較慢,無(wú)法滿足用戶對(duì)即時(shí)信息的需求。所以在此基礎(chǔ)上,出現(xiàn)了實(shí)時(shí)權(quán)重分配抓取策略。即當(dāng)蜘蛛完成抓取頁(yè)面并入口后,馬上進(jìn)行權(quán)重分配,將權(quán)重重新分配待抓取鏈接庫(kù),然后蜘蛛根據(jù)權(quán)重高低來(lái)進(jìn)行抓取。

3、社會(huì)工程學(xué)抓取策略

社會(huì)工程學(xué)策略,就是在蜘蛛抓取的過(guò)程中,加入人工智能,或者通過(guò)人工智能培訓(xùn)出來(lái)的機(jī)器智能,來(lái)確定抓取的優(yōu)先度。目前我已知的抓取策略有:

a、熱點(diǎn)優(yōu)先策略:對(duì)于爆發(fā)式的熱點(diǎn)關(guān)鍵詞進(jìn)行優(yōu)先抓取,而且不需要經(jīng)過(guò)嚴(yán)格的去重和過(guò)濾,因?yàn)闀?huì)有新的鏈接來(lái)覆蓋以及用戶的主動(dòng)選擇。

b、權(quán)威優(yōu)先策略:搜索引擎會(huì)給每個(gè)網(wǎng)站分配一個(gè)權(quán)威度,通過(guò)網(wǎng)站歷史、網(wǎng)站更新等來(lái)確定網(wǎng)站的權(quán)威度,優(yōu)先抓取權(quán)威度高的網(wǎng)站鏈接。

c、用戶點(diǎn)擊策略:當(dāng)大部分搜索一個(gè)行業(yè)詞庫(kù)內(nèi)的關(guān)鍵詞時(shí),頻繁的點(diǎn)擊同一個(gè)網(wǎng)站的搜索結(jié)果,那么搜索引擎會(huì)更頻繁的抓取這個(gè)網(wǎng)站。

d、歷史參考策略:對(duì)于保持頻繁更新的網(wǎng)站,搜索引擎會(huì)對(duì)網(wǎng)站建立更新歷史,根據(jù)更新歷史來(lái)預(yù)估未來(lái)的更新量以及確定抓取頻率。

對(duì)SEO工作的指導(dǎo):

搜索引擎的抓取原理已經(jīng)深入的講解了,那么現(xiàn)在要淺出這些原理對(duì)SEO工作的指導(dǎo)作用:

A、定時(shí)、定量的更新會(huì)讓蜘蛛準(zhǔn)時(shí)爬行抓取網(wǎng)站頁(yè)面;

B、公司運(yùn)作網(wǎng)站比個(gè)人網(wǎng)站的權(quán)威度更高;

C、建站時(shí)間長(zhǎng)的網(wǎng)站更容易被抓取;

D、頁(yè)面內(nèi)應(yīng)適當(dāng)?shù)姆植兼溄,太多、太少都不好?/p>

E、受用戶歡迎的網(wǎng)站同樣受搜索引擎歡迎;

F、重要頁(yè)面應(yīng)該放置在更淺的網(wǎng)站結(jié)構(gòu)中;

G、網(wǎng)站內(nèi)的行業(yè)權(quán)威信息會(huì)提高網(wǎng)站的權(quán)威度。

這次教程就到這里了,下次教程的主題是:頁(yè)面價(jià)值以及網(wǎng)站權(quán)重的計(jì)算。

文章來(lái)源:http://www.cmshtml.com/a/201212/30.html

標(biāo)簽: 搜索引擎 網(wǎng)頁(yè)優(yōu)化 百度搜索更新 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:網(wǎng)頁(yè)信噪比與SEO優(yōu)化

下一篇:SEOVIP排名分析顛覆傳統(tǒng)SEO優(yōu)化觀