中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

新浪微博搜索的分詞技術(shù)不足

2019-03-25    來源:劉凡平博客園

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

不是故意迫害新浪微博,也不是對新浪微博不滿,在這里指手畫腳。我是一個過路人,秉承技術(shù)學習的態(tài)度,來和大家分析新浪微博搜索分詞的不足。

迭詞是非常重要的測試元素,我們以“阿里巴 巴”作為測試詞匯,去評測效果:

效果是驚人的不令人滿意。那么真實的測試“阿里巴巴”效果應該是這樣子的:

可見“阿里巴 巴”和“阿里巴巴”這兩個看似相同的詞,但是在新浪微博的搜索中,差異竟然這么明顯。其原因據(jù)我推測是:沒有做全局分詞。例如,“阿里巴 巴”至少應該分為三個詞組,但是通過觀察,它只用了專業(yè)名詞詞庫。阿里巴巴應該切分的5個詞組“阿里”,“巴”,“巴”,“巴巴”“阿里巴巴”。如果沒有這樣做,將會直接導致搜索“阿里巴 巴”效果非常差,幾乎搜索不到“阿里巴 巴”相關詞匯。

同理,搜索“阿里  巴巴”效果也會很差,事實也證明如此:

當然,他們這樣分詞也有自己的道理,那就是用戶給定的空格,那一定是詞與詞的分隔符,或者他們自己分詞用的分隔符就是空格。在以前可以這樣解釋,但是搜索在N年前就進入了語義時代,如果還保留以前思想,那一定會落伍。尤其是:你把這三個case放入到百度、360、搜狗搜索里面去,他們都能很好處理。讓若你把“QQ”、“Q Q”放入新浪微博搜索,結(jié)果會更差。可見新浪微博的搜索非常依賴于詞庫,可是呢,往往是細節(jié)決定成敗!

標簽: 新浪微博 分詞技術(shù) 阿里巴巴 

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:用戶體驗:知心搜索對于草根站長是福是禍?

下一篇:如何提高關鍵詞的轉(zhuǎn)化率