從搜索引擎工作原理折射出的SEO知識(shí)（中）

2019-03-15 來源：Chinaz用戶投稿

在前面一篇文章里（搜索引擎工作原理折射SEO知識(shí)上）有說到搜索引擎的工作原理的前部分也就是如何通過蛛蛛來抓取網(wǎng)絡(luò)信息的問題。從中我們也了解到，蛛蛛的一些習(xí)性與SEO的一些操作小技巧。在今天的文章中我們會(huì)看到更多的有關(guān)于搜索引擎的內(nèi)容，好了廢話就不多說了。

我們都知道蛛蛛它畢竟還只是個(gè)程序而已，他做的工作不會(huì)通過網(wǎng)站的前臺(tái)來分析一個(gè)網(wǎng)站內(nèi)容，而是通過網(wǎng)站的代碼來進(jìn)行抓取信息的。而在網(wǎng)站的源代碼里我們會(huì)看到好多html、js等一些程序的語句。而蛛蛛他只會(huì)對(duì)里面的文章感興趣，也就是說他只提取網(wǎng)頁里的一些文字。有些朋友可能就會(huì)說到了，那我們還寫什么代碼？代碼不是起不到作用了嗎？

其實(shí)不是這樣的，在網(wǎng)站的標(biāo)簽優(yōu)化中我們都知道比如H標(biāo)簽、nofollow標(biāo)簽、alt標(biāo)簽等。這些標(biāo)簽還是能在蛛蛛抓取我們網(wǎng)站信息的時(shí)候起到強(qiáng)調(diào)與修飾作用。比如遇到圖片的時(shí)候，但蛛蛛并不能識(shí)別圖片里的信息，那么我們就會(huì)考慮去設(shè)置一下 alt標(biāo)簽來幫助搜索引擎來識(shí)別圖片里的信息；為了讓網(wǎng)站的一些權(quán)重不分散，我們?cè)诒匾胤浇o鏈接加上了nofollow。

既然搜索引擎蛛蛛是對(duì)網(wǎng)站文字特別感興趣，那對(duì)于中文SEO優(yōu)化來說。是不是會(huì)有個(gè)概念性的東西在這里面，那就是“分詞”

最簡單的一個(gè)例子，比如我們中文里面的“網(wǎng)站優(yōu)化”這四個(gè)詞，在百度搜索引擎數(shù)據(jù)詞庫里，其實(shí)是把網(wǎng)站與優(yōu)化兩個(gè)不同的詞分開來存放的。當(dāng)用戶來搜索網(wǎng)站優(yōu)化這個(gè)詞的時(shí)候，搜索引擎的步驟也就是把網(wǎng)站這個(gè)詞庫里的網(wǎng)頁信息與優(yōu)化詞庫里的信息做一個(gè)交集來檢索與排名。這點(diǎn)后面還會(huì)有說到。

在說到分詞的時(shí)候我們不得不提一個(gè)東西，那就是我們?nèi)绾蝸砜淳W(wǎng)站一個(gè)分詞情況：在百度搜索引擎里面搜索“寧波何濤SEO”在出面的搜索結(jié)果里面，我們看下網(wǎng)站的那個(gè)快照如圖

我們是不是很容易的看到在快照里的顯示結(jié)果百度把這個(gè)詞分成了三塊不同背景色的詞組。這個(gè)只是其一，我們也可以在百度的搜索結(jié)果里看到只要是我們搜索的詞，都會(huì)有標(biāo)紅的情況。這個(gè)也是分詞的另一種表現(xiàn)形式。

有些朋友可能會(huì)說了，你說的那些是個(gè)別情況，我們?cè)诂F(xiàn)實(shí)過程去搜索的詞遠(yuǎn)遠(yuǎn)比這個(gè)復(fù)雜，而且可能還會(huì)有一些語氣助詞等。做為越來越完善的搜索引擎而言。他們其實(shí)也早就考慮到了這個(gè)問題，首先是因?yàn)檫@些個(gè)語氣詞在搜索過程中實(shí)際上是起不到任何作用的。在搜索引擎進(jìn)行預(yù)處理的時(shí)候，他們也會(huì)把這些詞給過濾。一方面是減少檢索負(fù)擔(dān)，另一方面也是為了增加內(nèi)容的準(zhǔn)確度。

在搜索引擎把蛛蛛抓取來的信息進(jìn)行歸檔之前，還有個(gè)程度是必不可少的，他必須得做內(nèi)容的重復(fù)審核。一重意思：搜索引擎必須把同一個(gè)網(wǎng)站里的數(shù)據(jù)進(jìn)行刪選。有一種情況：比如有人在搜索我的網(wǎng)站寧波SEO的時(shí)候，在排名結(jié)果中第一頁會(huì)出現(xiàn)我們的首頁與內(nèi)容頁的可能性。其實(shí)做為一個(gè)成熟的搜索引擎來說，這種情況是要避免的。因?yàn)檫@樣的內(nèi)容對(duì)用戶的用處不大，就相當(dāng)于同一個(gè)內(nèi)容給排了兩次。第二重：對(duì)于不同的網(wǎng)站而言，因?yàn)榫W(wǎng)絡(luò)上的內(nèi)容那是成千上萬的。這里面就會(huì)出現(xiàn)兩個(gè)不同的網(wǎng)站，但內(nèi)容相同的情況。就是我們常說的網(wǎng)站內(nèi)容轉(zhuǎn)載的問題，搜索引擎也會(huì)考慮到重復(fù)的信息進(jìn)行刪選。

有了上幾步的重重審核，接下來的就是得做個(gè)有效的數(shù)據(jù)整理。我列兩張表給大家看下就明白了：

正向索引

文件ID

內(nèi)容

文件1

關(guān)鍵詞1，關(guān)鍵詞2，關(guān)鍵詞7。。。關(guān)鍵詞x

文件2

關(guān)鍵詞1，關(guān)鍵詞7，關(guān)鍵詞8.。。關(guān)鍵詞Y

。。。。。

。。。

文件N

關(guān)鍵詞6，關(guān)鍵詞50.。。關(guān)鍵詞z

倒排索引

文件ID 內(nèi)容關(guān)鍵詞1 文件1，文件2，文件10，。。。文件m 關(guān)鍵詞2 文件1，文件4，。。。。文件n 。。。。。。。。。。關(guān)鍵詞7 文件1，文件2，文件8.。。。。。文件o

我簡單的解釋一下上面的表格里的意思：正向索引表格，也就是搜索引擎臨時(shí)不能直接用于排名的數(shù)據(jù)表。這個(gè)里面他是按照文件來分配每個(gè)關(guān)鍵詞的。也就是說主鍵是文件。我們?cè)贀Q到第二張表來看，搜索引擎已經(jīng)把關(guān)鍵詞做為了主鍵，這也與我們搜索某個(gè)關(guān)鍵詞來找自己想要的信息一樣。我們可以發(fā)現(xiàn)：當(dāng)用戶搜索關(guān)鍵詞7的時(shí)候，這個(gè)時(shí)候搜索引擎就沒有必要對(duì)每篇內(nèi)容再進(jìn)行檢索，它只要做的就是從關(guān)鍵詞的詞庫里面提取出文件1，文件2，文件8等。

至少這幾個(gè)文件又是如何來排名的，這個(gè)也是下次我會(huì)寫出來的，感謝大家花時(shí)間來看我的文章整理。

文章摘自寧波何濤SEO博客：http://www.nb-seoer.com/post/154.html

標(biāo)簽： SEO知識(shí) 搜索引擎原理搜索引擎蛛蛛

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:企業(yè)站優(yōu)化博客與新聞系統(tǒng)的選取

下一篇:告SEO從業(yè)者書

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

從搜索引擎工作原理折射出的SEO知識(shí)（中）