中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

猜測百度分詞基本步驟

2019-03-19    來源:深圳SEO

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

最近和朋友在討論百度分詞,看了很多網(wǎng)上關于百度分詞的一些實例,我們來對百度的分詞步驟進行一些猜測,我們不可能真正的了解只能說是猜測:

1. 判斷用戶提交字符串,如果為多個字符串,則通過空格,標點符號,等進行切割。

2. 判斷提交字符串中有無字母或者數(shù)字,如果有把字母與數(shù)字當作獨立整體,并把這個整體當作切割負,進行前后切割。

3. 判斷切割后的詞組有無重復詞,有當作一個計算。

4. 如果提交為一個字符串,判斷字符串字數(shù),大于4并等于4個字的進行切割,如果小于4個字不進行任何處理。

5. 對照特殊詞庫表進行提取,如果字符串中包含特殊詞進行單獨提取。

6. 進行正向分詞處理。

7. 進行反向分詞處理。

8. 正向分詞結果與反向分詞結果進行對比,如果結果一樣,直接輸出。

9. 如果結果不一樣,輸出最短路徑(詞數(shù)最少的)進行輸出。

10. 如果長度一樣進行則輸出單子最少的結果。

11. 如果單子最少結果一樣,則輸出正向分詞結果。

針對百度索引提示,糾錯原理。

1.判讀詞組,1個字的詞不進行提示,大于1個字開啟提示功能。

1.進行同音字提示,如果詞數(shù)過多,提取用戶搜索最多詞組進行提示。

除以上外,我們還需要注意一點,那就是現(xiàn)在分詞中進行了語意相關結合:

舉個例子我們常常在搜索某些詞的時候會發(fā)現(xiàn)有些結果中并不是完全匹配的詞也進行了飄紅。其實這種情況就是語意結合。我們可以理解為百度把相關詞表進行了關聯(lián),或者干脆進行了表結合。造成了這種情況的出現(xiàn)。

比如我們搜索太原,我們會發(fā)現(xiàn)太原與太原市都進行了飄紅。

搜索英文car,car與汽車都進行了飄紅。

我的小站www.6cs.net(2011時尚冬裝)歡迎指點。(轉載請保留)

標簽: 百度分詞技術 關鍵詞優(yōu)化 長尾關鍵詞挖掘 

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:外鏈建設方法之百度知道

下一篇:利用熱門關鍵詞點燃流量之火 讓流量飛起來