中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Google工程師解釋Googlebot抓取網頁的原理

2019-03-05    來源:中國站長站

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

Google的Matt Cutts確認了AdSense的Mediabot的確是會幫助Googlebot抓取網頁的消息,但有部分人不相信Matt Cutts,或者不相信他能代表Google官方。作為Matt Cutts的blog的一名忠實讀者,我覺得完全沒必要花費篇幅再去特別說明Matt Cutts的權威性。我想說的是,Matt Cutts在是Google品質管理部門的一名高級軟件工程師,外界所知的是他負責研發(fā)阻止Spam與惡性控制排名的技術。因此,信不信當然由你。

其實上次Matt所透露的僅僅是其中一方面的內容。今天,Matt再次寫了一篇非常詳細的文章,解釋了Google的各種bot是怎樣抓取網頁的,以及Google最新的BigDaddy在抓取網頁方面有什么新的變化等等,內容非常的精彩,所以和大家分享一下。

首先要介紹的是Google的“crawl caching proxy”(爬行緩存代理)。Matt舉了一個ISP與用戶的例子來說明它。用戶上網時,總是先通過ISP獲取網頁內容,然后ISP就會把用戶訪問過的網頁緩存起來備用。比如說,當用戶A訪問了www.wo2080.com,那么中國電信(或網通等)就會把“80后創(chuàng)業(yè)基地”發(fā)送給用戶A,然后將“80后創(chuàng)業(yè)基地”緩存起來,當用戶B在下一秒鐘里再訪問www.wo2080.com,那么中國電信就會把緩存里的“幻滅的麥克風”發(fā)送給用戶B,這樣就能節(jié)省了帶寬。

正如本站之前所報道的那樣,Google最新的軟件層面的升級(轉移至BigDaddy)已經接近完成,因此升級后的Google各方面的能力都將得到加強。這些加強包括了更智能化的googlebot爬行、改良的規(guī)范性以及更好的收錄網頁能力。而在Googlebot爬行抓取網頁方面,Google也采取了節(jié)省帶寬的方法。Googlebot也隨著BigDaddy的升級而得到了升級。新的Googlebot已經正式支持了gzip編碼,所以如果你的網站開啟了gzip編碼功能,那么就能節(jié)省Googlebot爬行你的網頁時所占的帶寬。

除了改良的Googlebot外,升級后的Google將會采用上面所說到的crawl caching proxy來抓取網頁,以進一步節(jié)省帶寬。

創(chuàng)業(yè)基地SEO頻道得知:Google蜘蛛以Googlebot爬行為主,Server A指的是AdSense,而Server N則可以是Google的blogsearch或其它。我們可以看出,同一個網站,Googlebot與AdSense的Mediabot、blogsearch的bot都爬行過了,其中有很多重復的爬行。而升級后的Google所采用的crawl caching proxy又是怎樣的情形:

很明顯,因為crawl caching proxy將各種bot的抓取都緩存起來,因此當Googlebot已經抓取過某些網頁,而Mediabot或其它bot再次抓取重復的網頁時,crawl caching proxy就會發(fā)揮作用,直接將緩存里的網頁返回給Mediabot等,這樣就使得實際爬行次數減少,節(jié)省了帶寬。

從Matt的分析可以看出,Google這樣做的確是能節(jié)省自己及網站的帶寬,好處是能讓Google的各種bot在一定的時間里爬行更多的網頁,以方便收錄。我的理解是,雖然好處是相當明顯,但壞處也是有的。比如,當一個網站它以AdSense的廣告費為生,那么它就需要AdSense的Mediabot不停地光臨,以分析它的更新網頁的內容,投放更相關的廣告。但當這個網站是一個PR值不錯的網站,那么Googlebot很可能會天天都來爬行它,這樣一來,crawl caching proxy就會把Googlebot的爬行緩存起來,等Mediabot再來爬行的時候,它就直接把緩存的內容返回給Mediabot。這樣一來就減少了Mediabot爬行該網站的次數。由于兩種bot并不是采用完全相同的工作機制,因此這個網站有可能因此Mediabot的爬行次數的減少而使得顯示的AdSense廣告的相關性減弱。

本文來源:創(chuàng)業(yè)基地SEO頻道 www.wo2080.com 轉載請以鏈接形式注明出處。

標簽: Google優(yōu)化 抓取原理 

版權申明:本站文章部分自網絡,如有侵權,請聯系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯系。

上一篇:Google搜索引擎快速收錄網頁最佳方法

下一篇:與谷歌機器人約會:關于狀態(tài)代碼節(jié)約帶寬