中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

谷歌搜索用上BERT,10%搜索結果將改善

2019-11-01    來源:199it

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
如何讓搜索引擎呈現(xiàn)用戶想要的結果是困擾谷歌工程師的一大難題。最近,谷歌宣布,他們的搜索引擎用上了強大的 BERT 預訓練模型,可以讓搜索引擎結合語境理解用戶的搜索意圖,甚至能理解一些不起眼的介詞在搜索語句中的重要含義。有了 BERT 的加持,用戶能在谷歌中搜到相關性更強的結果。

為什么谷歌搜索要用 BERT?
「如果要讓我說出一條這些年學到的東西,那我會說『人類的好奇心是永無止境的』,」在谷歌搜索部門工作了 15 年的搜索副總裁在谷歌博客中寫道。谷歌每天的搜索量多達數(shù)十億,其中有 15% 是從未見過的,所以必須構建一些方法來應對這些無法預料的查詢。
用戶在搜索的時候往往很難確定一個最好的查詢組合:我們不知道用哪些詞,也不知道怎么拼。因為有時他們打開搜索引擎就是為了學習的,所以查到結果之前未必具備相應的知識。
搜索的核心是理解語言。搜索引擎的使命是弄清楚用戶的搜索意圖并從網(wǎng)上找到有用信息,無論查詢語句中的單詞如何拼寫或組合。復雜或會話性的查詢通常很難處理。人們會輸入他們以為搜索引擎可以理解的問題,但其實他們用的方式并非他們在現(xiàn)實中自然而然使用的方式。
為了解決這些問題,谷歌的研究人員決定在搜索引擎中引入更加強大的自然語言處理模型——BERT。
BERT 對于搜索引擎有何作用?
去年,谷歌開源了用于自然語言處理的預訓練模型——BERT?。一經(jīng)推出,BERT 就刷新了 11 項 NLP 任務的 SOTA 記錄,登頂 GLUE 基準排行榜。雖然榜首早已易主,但后續(xù)的很多 NLP 模型都是基于 BERT 的改進。其影響力可見一斑。
BERT 的突破基于谷歌在?Transformer?架構上的成功。Transformer 處理一個句子中與所有其他單詞相關的單詞,而不是按順序逐個處理;诖,BERT 模型就可以借助某個單詞前后的詞來考慮其所處的完整語境,這對于理解查詢語句背后的意圖非常有用。
但只有軟件方面的成功還不夠。用 BERT 構建的模型非常復雜,超出了傳統(tǒng)硬件的能力范疇。因此,谷歌選擇使用最新的 Cloud TPU 結果來提供搜索結果,以達到更好的效果。
用上 BERT 意味著什么?
BERT 在谷歌搜索中的應用體現(xiàn)在排名和精選摘要(featured snippet)兩個方面。將 BERT 應用于搜索排名之后,谷歌宣稱它可以幫助搜索引擎更好地理解美國(英文)10% 的搜索。谷歌表示,隨著時間的推移,他們還會將結果擴展至更多語言和地區(qū)。
用上 BERT 之后,對于比較長、會話性比較強的查詢,或者在「for」、「to」等介詞比較重要的語句中,谷歌搜索引擎將能夠理解查詢語句中詞的上下文。用戶可以用更加自然的方式進行搜索。
為了啟用這些改進,谷歌進行了大量測試,以確保這些改變更加有用。以下是一些評估示例,可以證明 BERT 在理解意圖方面的強大能力。
在以下示例中,用戶搜索的語句是「2019 brazil traveler to usa need a visa」。在這個句子中,「to」及其與其他單詞的關系對于理解句子含義非常重要。這是一個巴西人要去美國旅游的事件,而不是一個美國人去巴西旅游。在此之前,谷歌的搜索算法無法理解這種連接詞的重要性,所以會返回美國公民去巴西旅游的結果。在 BERT 的幫助下,搜索引擎將能夠理解搜索語句的核心含義,知道「to」這種簡單詞在句子中發(fā)揮的重要作用,因此能夠返回相關性更強的結果。

下面還有一些例子,從中可以看出,BERT 能夠幫助幫助我們掌握語言的細微含義,這些是計算機理解不了的。

能用上 BERT 的不止英語搜索
谷歌表示,他們會將 BERT 應用到全球各種語言的搜索中。這種模型的一大特點就是能將從一種語言中學到的東西應用到其他語言中。因此,他們可以將從英語中得到的改進模型應用于其他語言。
他們還用 BERT 改進了 20 多個國家的精選摘要,在韓語、印地語、葡萄牙語中取得了顯著進展。
搜索問題,永無止境
無論你想要搜索什么東西,無論你使用哪種語言,谷歌希望人們都可以使用最自然的方式進行搜索。但即使是 BERT 加持,谷歌搜索或許仍然無法讓人能夠獲得 100% 完美的結果。未來,谷歌仍會持續(xù)改進自己的搜索系統(tǒng)。
原文鏈接:https://blog.google/products/search/search-language-understanding-bert
來自:機器學習研究會訂閱號

標簽: [db:TAGG]

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Alphabet:3Q19財報電話會議實錄 對第三季度財務表現(xiàn)比較滿意

下一篇:CNNIC:2019年中國網(wǎng)民搜索引擎使用情況研究報告