一份不可多得的自然語(yǔ)言處理資源清單

2018-10-02 來(lái)源：raincent

容器云強(qiáng)勢(shì)上線(xiàn)！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

自然語(yǔ)言處理（Natural Langauge Processing，NLP）是計(jì)算機(jī)系統(tǒng)理解人類(lèi)語(yǔ)言的一種能力，它也是人工智能（AI）的子集。NLP在很多商業(yè)場(chǎng)景中都有所應(yīng)用，比如推薦系統(tǒng)、對(duì)話(huà)機(jī)器人等。NLP相關(guān)的崗位薪資和前景在機(jī)器學(xué)習(xí)算法崗中也是具有很大的吸引力，很多人轉(zhuǎn)行從事這方面的研究，大多數(shù)人是通過(guò)自學(xué)來(lái)提升自己的能力。目前，網(wǎng)絡(luò)上也有很多多免費(fèi)資源可以幫助自學(xué)者發(fā)展NLP方面的專(zhuān)業(yè)知識(shí)，但資源多且雜，沒(méi)有很好的一條線(xiàn)將其串起來(lái)，那么在本文中，我們列出了針對(duì)初學(xué)者和中級(jí)學(xué)習(xí)者的學(xué)習(xí)資源。

針對(duì)初學(xué)者的NLP資源

對(duì)于初學(xué)者而言，可以采用兩種方法，即傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)學(xué)習(xí)使用NLP，這兩種方法差別很大的，這里講述了兩者之間的區(qū)別。

傳統(tǒng)的機(jī)器學(xué)習(xí)

傳統(tǒng)的機(jī)器學(xué)習(xí)算法一般比較復(fù)雜，通常不易被人理解。以下是一些資源，可以幫助讀者開(kāi)始使用機(jī)器學(xué)習(xí)學(xué)習(xí)NLP：

Jurafsky和Martin的語(yǔ)音和語(yǔ)言處理是傳統(tǒng)自然語(yǔ)言處理領(lǐng)域中廣受好評(píng)的圣經(jīng)；
更實(shí)用的方法是可以嘗試使用 Natural Language Toolkit；

深度學(xué)習(xí)

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)子領(lǐng)域，由于人工神經(jīng)網(wǎng)絡(luò)的引入，其性能一般遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。初學(xué)者可以從以下資源開(kāi)始：

CS 224n：這是斯坦福大學(xué)的公開(kāi)課，也是開(kāi)始使用深度學(xué)習(xí)進(jìn)行NLP的最佳課程；
Yoav Golberg出版的免費(fèi)和付費(fèi)書(shū)籍也是開(kāi)始深度學(xué)習(xí)NLP的重要資源；
所有算法的非常全面的報(bào)道都可以在Jacob Einsenstein的NLP課程筆記中找到，該課程幾乎涉及所有NLP方法。

針對(duì)從業(yè)者的NLP資源

如果你是一名數(shù)據(jù)科學(xué)家，那么將需要以下三種類(lèi)型的資源：
1.快速入門(mén)指南/了解熱門(mén)和新的知識(shí)；
2.特定問(wèn)題的方法調(diào)查；
3.定期關(guān)注博客；

快速入門(mén)指南/了解熱門(mén)和新的知識(shí)

可以從Otter等人的深度學(xué)習(xí)NLP綜述開(kāi)始；
Young等人的綜述，試圖總結(jié)基于深度學(xué)習(xí)的NLP中的所有內(nèi)容，并建議從業(yè)者開(kāi)始使用NLP。
可以參考這篇文章來(lái)了解LSTM和RNN的基礎(chǔ)知識(shí)，它們?cè)贜LP中經(jīng)常被使用。LSTMs的另一個(gè)更知名的總結(jié)可以在此閱讀，這是一篇有趣的論文，用于了解RNN隱藏狀態(tài)的工作原理，同時(shí)推薦以下兩篇有趣的博文：
1.http://colah.github.io/posts/2015-08-Understanding-LSTMs

2.https://distill.pub/2016/augmented-rnns/

卷積神經(jīng)網(wǎng)絡(luò)（Convnets）可用于理解自然語(yǔ)言，通過(guò)閱讀此文可以幫助你想象在Convnets中處理NLP；
Convnets和RNNs之間的相互比較已經(jīng)在此文中總結(jié)出，二者實(shí)現(xiàn)的pytorch代碼也公開(kāi)在此；

特定問(wèn)題的方法調(diào)查

從業(yè)者需要的另一類(lèi)資源是對(duì)特定問(wèn)題的回答：“我必須訓(xùn)練一個(gè)算法來(lái)完成某一項(xiàng)任務(wù)X，此時(shí)我能使用的最有利（也很容易獲得）的東西是什么呢？”。
以下是你需要的內(nèi)容：

文本分類(lèi)

人們解決NLP的第一個(gè)問(wèn)題是什么呢，主要是文本分類(lèi)。文本分類(lèi)可以將文本分類(lèi)為不同的類(lèi)別或檢測(cè)文本中的情感。

ParallelDots 博客中描述了關(guān)于情感分析的不同調(diào)查，雖然該調(diào)查是針對(duì)情感分析技術(shù)的，但可以將其擴(kuò)展到大多數(shù)文本分類(lèi)問(wèn)題中。
另一項(xiàng)關(guān)于情感分析算法的調(diào)查（由Linked大學(xué)和UIUC的人員進(jìn)行）可以通過(guò)在此閱讀。
遷移學(xué)習(xí)在深入學(xué)習(xí)中變得非常熱門(mén)，尤其是在圖像處理任務(wù)中，只需要針對(duì)具體的分類(lèi)任務(wù)進(jìn)行模型微調(diào)就可以獲得比較好的性能，同理，在維基百科上訓(xùn)練用于語(yǔ)言建模的NLP模型也可以在相對(duì)較少量的數(shù)據(jù)上遷移學(xué)習(xí)文本分類(lèi)。以下是來(lái)自相關(guān)的資源鏈接：
1.https://arxiv.org/abs/1801.06146

2.https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

Fast.ai上有一個(gè)關(guān)于NLP的學(xué)習(xí)文檔可供使用，鏈接在此。
如果你正在學(xué)習(xí)兩個(gè)不同的任務(wù)，而沒(méi)有使用遷移學(xué)習(xí)的話(huà)，在此處提到了使用Convnet的技巧。
我們還發(fā)布了關(guān)于Zero Shot Text分類(lèi)的工作，該工作在沒(méi)有任何數(shù)據(jù)集培訓(xùn)的情況下獲得了良好的準(zhǔn)確性，并且正在開(kāi)發(fā)下一代。我們構(gòu)建了自定義文本分類(lèi)API，讀者可以在其中定義自己的類(lèi)別。

序列標(biāo)記

序列標(biāo)記是一種標(biāo)記具有不同屬性的單詞的任務(wù)，這些任務(wù)包括詞性標(biāo)注、命名實(shí)體識(shí)別、關(guān)鍵字標(biāo)記等，我們?cè)谶@里為這些任務(wù)寫(xiě)了一個(gè)有趣的方法調(diào)查。
今年COLING的研究論文為這些問(wèn)題提供了一個(gè)很好的資源，它為訓(xùn)練序列標(biāo)記算法提供了最佳指導(dǎo)。

機(jī)器翻譯

最近，NLP最大的進(jìn)步之一就是發(fā)現(xiàn)了可以將文本從一種語(yǔ)言翻譯成另一種語(yǔ)言的算法。谷歌的系統(tǒng)采用的是一個(gè)復(fù)雜的16層LSTM，并提供最先進(jìn)的翻譯結(jié)果。
此外，部分媒體專(zhuān)家吹噓炒作不成比例，一些夸張的報(bào)道聲稱(chēng)“Facebook必須關(guān)閉發(fā)明自己語(yǔ)言的人工智能”：
1.https://gadgets.ndtv.com/social-networking/news/facebook-shuts-ai-system-after-bots-create-own-language-1731309

2.https://www.forbes.com/sites/tonybradley/2017/07/31/facebook-ai-creates-its-own-language-in-creepy-preview-of-our-potential-future/#1d1ca041292c

關(guān)于機(jī)器翻譯的教程，請(qǐng)參閱菲利浦科恩的研究論文。使用深度學(xué)習(xí)機(jī)器翻譯的具體評(píng)論在此。
以下是本人最喜歡的幾篇論文：
谷歌的這篇論文告訴我們?nèi)绾卧谟写罅抠Y金和數(shù)據(jù)的情況下端到端地解決問(wèn)題；
Facebook的 Convolutional NMT系統(tǒng)及其代碼在此處作為庫(kù)發(fā)布；
https://marian-nmt.github.io/是一個(gè)用C ++快速翻譯的框架;
http://www.aclweb.org/anthology/P18-4020；
http://opennmt.net/使每個(gè)人都能夠訓(xùn)練他們的NMT系統(tǒng)；

問(wèn)答系統(tǒng)

市面上有許多不同類(lèi)型的問(wèn)答任務(wù)，比如從選項(xiàng)中選擇、從段落或知識(shí)圖表中選擇答案并根據(jù)圖像回答問(wèn)題，并且有不同的數(shù)據(jù)集可以了解最新技術(shù)方法。
* SQuAD數(shù)據(jù)集是一個(gè)問(wèn)答數(shù)據(jù)集，它測(cè)試算法閱讀理解和回答問(wèn)題的能力。微軟在今年早些時(shí)候發(fā)表的一篇論文中聲稱(chēng)，他們已經(jīng)達(dá)到了人類(lèi)級(jí)別的精度。另一個(gè)重要的算法是Allen AI的BIDAF及其改進(jìn)版；

另一個(gè)重要的算法是Visual Question Answering，它可以回答有關(guān)圖像的問(wèn)題。Teney等人的論文是一個(gè)很好的入門(mén)資源，可以在Github上找到實(shí)現(xiàn)代碼；
在現(xiàn)實(shí)生活中，提取問(wèn)答對(duì)大型文件應(yīng)答可使用遷移學(xué)習(xí)來(lái)完成，相關(guān)的論文可以在此訪(fǎng)問(wèn)；

改述、句子相似或推理

NLP有三個(gè)不同的任務(wù)：句子相似性，釋義檢測(cè)和自然語(yǔ)言推理（NLI），每個(gè)都需要比上一個(gè)更多的語(yǔ)義理解。 MultiNLI及其子集Stanford NLI是NLI最有名的基準(zhǔn)數(shù)據(jù)集，并且最近成為了研究的焦點(diǎn)；此外，還有MS復(fù)述語(yǔ)料庫(kù)和Quora語(yǔ)料庫(kù)用于釋義檢測(cè)，以及用于STS的SemEval數(shù)據(jù)集（語(yǔ)義文本相似性），可在這里找到此領(lǐng)域中對(duì)相關(guān)模型的調(diào)查綜述。在臨床領(lǐng)域應(yīng)用NLI是非常重要的，比如了解正確的醫(yī)療程序、副作用和藥物的交叉影響等，此教程是醫(yī)學(xué)領(lǐng)域中應(yīng)用NLI的一個(gè)好資源。
下面是這個(gè)領(lǐng)域推薦的論文列表：

交互空間的自然語(yǔ)言推理——它采用了一種非常聰明的方法，使用DenseNet表示句子，你可以在這里閱讀該論文；
這篇來(lái)自O(shè)mar Levy小組的研究論文表明，即使是簡(jiǎn)單的算法也能完成任務(wù)；
BiMPM是預(yù)測(cè)釋義的一個(gè)好模型，可以在這里訪(fǎng)問(wèn)；
我們還有一項(xiàng)關(guān)于釋義檢測(cè)的新工作，它將關(guān)系網(wǎng)絡(luò)應(yīng)用于句子表示之上，并已在今年的AINL會(huì)議上被接受。

其他領(lǐng)域

以下是一些更詳細(xì)的綜述性文章，閱讀這些文章可以幫助你，獲取在制作NLP系統(tǒng)時(shí)可能遇到的其他任務(wù)的研究信息。

語(yǔ)言建模（LM）——語(yǔ)言建模是學(xué)習(xí)一個(gè)無(wú)監(jiān)督語(yǔ)言表示的任務(wù)，這是通過(guò)給定前N個(gè)單詞的句子來(lái)預(yù)測(cè)第（n + 1）個(gè)單詞。這些模型具有兩個(gè)重要的實(shí)際用途，即自動(dòng)完成并用作文本分類(lèi)的轉(zhuǎn)移學(xué)習(xí)的基礎(chǔ)模型。詳細(xì)的綜述文章在此，如果有興趣了解如何根據(jù)搜索歷史自動(dòng)完成手機(jī)/搜索引擎中的LSTM工作，可以閱讀這篇論文；
關(guān)系提取——關(guān)系提取是提取句子中存在的實(shí)體之間關(guān)系的任務(wù)，給定的句子“A像r一樣與B相關(guān)”，那么得到三元組（A,r,B）。詳細(xì)的綜述文章在此，它使用BIDAF進(jìn)行零射擊關(guān)系提�。�
對(duì)話(huà)系統(tǒng)—— 隨著聊天機(jī)器人革命的開(kāi)始，對(duì)話(huà)系統(tǒng)現(xiàn)在也風(fēng)靡一時(shí)。許多人將對(duì)話(huà)系統(tǒng)看作成意圖檢測(cè)、關(guān)鍵字檢測(cè)、問(wèn)答等模型的組合，而其他人則嘗試端到端地對(duì)其進(jìn)行建模。詳細(xì)的綜述文章在此，在這里提下Facebook AI的Parl.ai框架；
文本摘要——文本摘要用于從文檔中獲取精簡(jiǎn)文本（段落/新聞文章等）。有兩種方法可以做到這一點(diǎn)：提取和抽象總結(jié)。雖然抽取摘要從文章中提供了具有最高信息內(nèi)容的句子，但抽象概括的目的是像人類(lèi)一樣編寫(xiě)摘要。來(lái)自愛(ài)因斯坦AI的演示將抽象概括帶入了主流研究中，詳細(xì)的綜述文章在此；
自然語(yǔ)言生成（NLG）—— 自然語(yǔ)言生成是計(jì)算機(jī)旨在像人類(lèi)一樣寫(xiě)作的研究，可能是寫(xiě)故事、詩(shī)歌、圖像標(biāo)題等。目前，在生成圖像標(biāo)題上已經(jīng)做得很好了，其中將LSTM和注意機(jī)制相結(jié)合，使得輸出可用于現(xiàn)實(shí)生活中，詳細(xì)的綜述文章在此；

關(guān)注博客

以下是推薦關(guān)注的博客列表，對(duì)于NLP感興趣的讀者可以時(shí)常瀏覽：

愛(ài)因斯坦AI ： https://einstein.ai/research
Google AI：https://ai.googleblog.com/
WildML： http://www.wildml.com/
DistillPub： https://distill.pub/
Sebastian Ruder： http://ruder.io/

作者信息

Muktabh Mayank，數(shù)據(jù)科學(xué)家、企業(yè)家、社會(huì)學(xué)家
文章原標(biāo)題《Free resources to learn Natural Language Processing》，譯者：Uncle_LLD。

標(biāo)簽： Google 代碼谷歌媒體搜索搜索引擎網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。