中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一份不可多得的自然語(yǔ)言處理資源清單

2018-10-02    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線(xiàn)!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

 


自然語(yǔ)言處理(Natural Langauge Processing,NLP)是計(jì)算機(jī)系統(tǒng)理解人類(lèi)語(yǔ)言的一種能力,它也是人工智能(AI)的子集。NLP在很多商業(yè)場(chǎng)景中都有所應(yīng)用,比如推薦系統(tǒng)、對(duì)話(huà)機(jī)器人等。NLP相關(guān)的崗位薪資和前景在機(jī)器學(xué)習(xí)算法崗中也是具有很大的吸引力,很多人轉(zhuǎn)行從事這方面的研究,大多數(shù)人是通過(guò)自學(xué)來(lái)提升自己的能力。目前,網(wǎng)絡(luò)上也有很多多免費(fèi)資源可以幫助自學(xué)者發(fā)展NLP方面的專(zhuān)業(yè)知識(shí),但資源多且雜,沒(méi)有很好的一條線(xiàn)將其串起來(lái),那么在本文中,我們列出了針對(duì)初學(xué)者和中級(jí)學(xué)習(xí)者的學(xué)習(xí)資源。

針對(duì)初學(xué)者的NLP資源

 


對(duì)于初學(xué)者而言,可以采用兩種方法,即傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)學(xué)習(xí)使用NLP,這兩種方法差別很大的,這里講述了兩者之間的區(qū)別。

傳統(tǒng)的機(jī)器學(xué)習(xí)


傳統(tǒng)的機(jī)器學(xué)習(xí)算法一般比較復(fù)雜,通常不易被人理解。以下是一些資源,可以幫助讀者開(kāi)始使用機(jī)器學(xué)習(xí)學(xué)習(xí)NLP:

  • Jurafsky和Martin的語(yǔ)音和語(yǔ)言處理是傳統(tǒng)自然語(yǔ)言處理領(lǐng)域中廣受好評(píng)的圣經(jīng);
  • 更實(shí)用的方法是可以嘗試使用 Natural Language Toolkit;


深度學(xué)習(xí)


深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)子領(lǐng)域,由于人工神經(jīng)網(wǎng)絡(luò)的引入,其性能一般遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。初學(xué)者可以從以下資源開(kāi)始:

  • CS 224n:這是斯坦福大學(xué)的公開(kāi)課,也是開(kāi)始使用深度學(xué)習(xí)進(jìn)行NLP的最佳課程;
  • Yoav Golberg出版的免費(fèi)和付費(fèi)書(shū)籍也是開(kāi)始深度學(xué)習(xí)NLP的重要資源;
  • 所有算法的非常全面的報(bào)道都可以在Jacob Einsenstein的NLP課程筆記中找到,該課程幾乎涉及所有NLP方法。


針對(duì)從業(yè)者的NLP資源


如果你是一名數(shù)據(jù)科學(xué)家,那么將需要以下三種類(lèi)型的資源:
1.快速入門(mén)指南/了解熱門(mén)和新的知識(shí);
2.特定問(wèn)題的方法調(diào)查;
3.定期關(guān)注博客;
 

快速入門(mén)指南/了解熱門(mén)和新的知識(shí)


  • 可以從Otter等人的深度學(xué)習(xí)NLP綜述開(kāi)始;
  • Young等人的綜述,試圖總結(jié)基于深度學(xué)習(xí)的NLP中的所有內(nèi)容,并建議從業(yè)者開(kāi)始使用NLP。
  • 可以參考這篇文章來(lái)了解LSTM和RNN的基礎(chǔ)知識(shí),它們?cè)贜LP中經(jīng)常被使用。LSTMs的另一個(gè)更知名的總結(jié)可以在此閱讀,這是一篇有趣的論文,用于了解RNN隱藏狀態(tài)的工作原理,同時(shí)推薦以下兩篇有趣的博文:
    1.http://colah.github.io/posts/2015-08-Understanding-LSTMs

2.https://distill.pub/2016/augmented-rnns/

  • 卷積神經(jīng)網(wǎng)絡(luò)(Convnets)可用于理解自然語(yǔ)言,通過(guò)閱讀此文可以幫助你想象在Convnets中處理NLP;
  • Convnets和RNNs之間的相互比較已經(jīng)在此文中總結(jié)出,二者實(shí)現(xiàn)的pytorch代碼也公開(kāi)在此;


特定問(wèn)題的方法調(diào)查


從業(yè)者需要的另一類(lèi)資源是對(duì)特定問(wèn)題的回答:“我必須訓(xùn)練一個(gè)算法來(lái)完成某一項(xiàng)任務(wù)X,此時(shí)我能使用的最有利(也很容易獲得)的東西是什么呢?”。
以下是你需要的內(nèi)容:
 

文本分類(lèi)


人們解決NLP的第一個(gè)問(wèn)題是什么呢,主要是文本分類(lèi)。文本分類(lèi)可以將文本分類(lèi)為不同的類(lèi)別或檢測(cè)文本中的情感。

  • ParallelDots 博客中描述了關(guān)于情感分析的不同調(diào)查,雖然該調(diào)查是針對(duì)情感分析技術(shù)的,但可以將其擴(kuò)展到大多數(shù)文本分類(lèi)問(wèn)題中。
  • 另一項(xiàng)關(guān)于情感分析算法的調(diào)查(由Linked大學(xué)和UIUC的人員進(jìn)行)可以通過(guò)在此閱讀。
  • 遷移學(xué)習(xí)在深入學(xué)習(xí)中變得非常熱門(mén),尤其是在圖像處理任務(wù)中,只需要針對(duì)具體的分類(lèi)任務(wù)進(jìn)行模型微調(diào)就可以獲得比較好的性能,同理,在維基百科上訓(xùn)練用于語(yǔ)言建模的NLP模型也可以在相對(duì)較少量的數(shù)據(jù)上遷移學(xué)習(xí)文本分類(lèi)。以下是來(lái)自相關(guān)的資源鏈接:
    1.https://arxiv.org/abs/1801.06146

2.https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

  • Fast.ai上有一個(gè)關(guān)于NLP的學(xué)習(xí)文檔可供使用,鏈接在此。
    如果你正在學(xué)習(xí)兩個(gè)不同的任務(wù),而沒(méi)有使用遷移學(xué)習(xí)的話(huà),在此處提到了使用Convnet的技巧。
  • 我們還發(fā)布了關(guān)于Zero Shot Text分類(lèi)的工作,該工作在沒(méi)有任何數(shù)據(jù)集培訓(xùn)的情況下獲得了良好的準(zhǔn)確性,并且正在開(kāi)發(fā)下一代。我們構(gòu)建了自定義文本分類(lèi)API,讀者可以在其中定義自己的類(lèi)別。


序列標(biāo)記

 

  • 序列標(biāo)記是一種標(biāo)記具有不同屬性的單詞的任務(wù),這些任務(wù)包括詞性標(biāo)注、命名實(shí)體識(shí)別、關(guān)鍵字標(biāo)記等,我們?cè)谶@里為這些任務(wù)寫(xiě)了一個(gè)有趣的方法調(diào)查。
  • 今年COLING的研究論文為這些問(wèn)題提供了一個(gè)很好的資源,它為訓(xùn)練序列標(biāo)記算法提供了最佳指導(dǎo)。


機(jī)器翻譯


  • 最近,NLP最大的進(jìn)步之一就是發(fā)現(xiàn)了可以將文本從一種語(yǔ)言翻譯成另一種語(yǔ)言的算法。谷歌的系統(tǒng)采用的是一個(gè)復(fù)雜的16層LSTM,并提供最先進(jìn)的翻譯結(jié)果。
  • 此外,部分媒體專(zhuān)家吹噓炒作不成比例,一些夸張的報(bào)道聲稱(chēng)“Facebook必須關(guān)閉發(fā)明自己語(yǔ)言的人工智能”:
    1.https://gadgets.ndtv.com/social-networking/news/facebook-shuts-ai-system-after-bots-create-own-language-1731309

2.https://www.forbes.com/sites/tonybradley/2017/07/31/facebook-ai-creates-its-own-language-in-creepy-preview-of-our-potential-future/#1d1ca041292c

  • 關(guān)于機(jī)器翻譯的教程,請(qǐng)參閱菲利浦科恩的研究論文。使用深度學(xué)習(xí)機(jī)器翻譯的具體評(píng)論在此。
    以下是本人最喜歡的幾篇論文:
  • 谷歌的這篇論文告訴我們?nèi)绾卧谟写罅抠Y金和數(shù)據(jù)的情況下端到端地解決問(wèn)題;
  • Facebook的 Convolutional NMT系統(tǒng)及其代碼在此處作為庫(kù)發(fā)布;
  • https://marian-nmt.github.io/是一個(gè)用C ++快速翻譯的框架;
  • http://www.aclweb.org/anthology/P18-4020;
  • http://opennmt.net/使每個(gè)人都能夠訓(xùn)練他們的NMT系統(tǒng);


問(wèn)答系統(tǒng)

 

市面上有許多不同類(lèi)型的問(wèn)答任務(wù),比如從選項(xiàng)中選擇、從段落或知識(shí)圖表中選擇答案并根據(jù)圖像回答問(wèn)題,并且有不同的數(shù)據(jù)集可以了解最新技術(shù)方法。
* SQuAD數(shù)據(jù)集是一個(gè)問(wèn)答數(shù)據(jù)集,它測(cè)試算法閱讀理解和回答問(wèn)題的能力。微軟在今年早些時(shí)候發(fā)表的一篇論文中聲稱(chēng),他們已經(jīng)達(dá)到了人類(lèi)級(jí)別的精度。另一個(gè)重要的算法是Allen AI的BIDAF及其改進(jìn)版;

  • 另一個(gè)重要的算法是Visual Question Answering,它可以回答有關(guān)圖像的問(wèn)題。Teney等人的論文是一個(gè)很好的入門(mén)資源,可以在Github上找到實(shí)現(xiàn)代碼;
  • 在現(xiàn)實(shí)生活中,提取問(wèn)答對(duì)大型文件應(yīng)答可使用遷移學(xué)習(xí)來(lái)完成,相關(guān)的論文可以在此訪(fǎng)問(wèn);


改述、句子相似或推理
 

NLP有三個(gè)不同的任務(wù):句子相似性,釋義檢測(cè)和自然語(yǔ)言推理(NLI),每個(gè)都需要比上一個(gè)更多的語(yǔ)義理解。 MultiNLI及其子集Stanford NLI是NLI最有名的基準(zhǔn)數(shù)據(jù)集,并且最近成為了研究的焦點(diǎn);此外,還有MS復(fù)述語(yǔ)料庫(kù)和Quora語(yǔ)料庫(kù)用于釋義檢測(cè),以及用于STS的SemEval數(shù)據(jù)集(語(yǔ)義文本相似性),可在這里找到此領(lǐng)域中對(duì)相關(guān)模型的調(diào)查綜述。在臨床領(lǐng)域應(yīng)用NLI是非常重要的,比如了解正確的醫(yī)療程序、副作用和藥物的交叉影響等,此教程是醫(yī)學(xué)領(lǐng)域中應(yīng)用NLI的一個(gè)好資源。
下面是這個(gè)領(lǐng)域推薦的論文列表:

  • 交互空間的自然語(yǔ)言推理——它采用了一種非常聰明的方法,使用DenseNet表示句子,你可以在這里閱讀該論文;
  • 這篇來(lái)自O(shè)mar Levy小組的研究論文表明,即使是簡(jiǎn)單的算法也能完成任務(wù);
  • BiMPM是預(yù)測(cè)釋義的一個(gè)好模型,可以在這里訪(fǎng)問(wèn);
  • 我們還有一項(xiàng)關(guān)于釋義檢測(cè)的新工作,它將關(guān)系網(wǎng)絡(luò)應(yīng)用于句子表示之上,并已在今年的AINL會(huì)議上被接受。


其他領(lǐng)域
 

以下是一些更詳細(xì)的綜述性文章,閱讀這些文章可以幫助你,獲取在制作NLP系統(tǒng)時(shí)可能遇到的其他任務(wù)的研究信息。

  • 語(yǔ)言建模(LM)——語(yǔ)言建模是學(xué)習(xí)一個(gè)無(wú)監(jiān)督語(yǔ)言表示的任務(wù),這是通過(guò)給定前N個(gè)單詞的句子來(lái)預(yù)測(cè)第(n + 1)個(gè)單詞。這些模型具有兩個(gè)重要的實(shí)際用途,即自動(dòng)完成并用作文本分類(lèi)的轉(zhuǎn)移學(xué)習(xí)的基礎(chǔ)模型。詳細(xì)的綜述文章在此,如果有興趣了解如何根據(jù)搜索歷史自動(dòng)完成手機(jī)/搜索引擎中的LSTM工作, 可以閱讀這篇論文;
  • 關(guān)系提取——關(guān)系提取是提取句子中存在的實(shí)體之間關(guān)系的任務(wù),給定的句子“A像r一樣與B相關(guān)”,那么得到三元組(A,r,B)。詳細(xì)的綜述文章在此,它使用BIDAF進(jìn)行零射擊關(guān)系提。
  • 對(duì)話(huà)系統(tǒng)—— 隨著聊天機(jī)器人革命的開(kāi)始,對(duì)話(huà)系統(tǒng)現(xiàn)在也風(fēng)靡一時(shí)。許多人將對(duì)話(huà)系統(tǒng)看作成意圖檢測(cè)、關(guān)鍵字檢測(cè)、問(wèn)答等模型的組合,而其他人則嘗試端到端地對(duì)其進(jìn)行建模。詳細(xì)的綜述文章在此,在這里提下Facebook AI的Parl.ai框架;
  • 文本摘要——文本摘要用于從文檔中獲取精簡(jiǎn)文本(段落/新聞文章等)。有兩種方法可以做到這一點(diǎn):提取和抽象總結(jié)。雖然抽取摘要從文章中提供了具有最高信息內(nèi)容的句子,但抽象概括的目的是像人類(lèi)一樣編寫(xiě)摘要。來(lái)自愛(ài)因斯坦AI的演示將抽象概括帶入了主流研究中,詳細(xì)的綜述文章在此;
  • 自然語(yǔ)言生成(NLG)—— 自然語(yǔ)言生成是計(jì)算機(jī)旨在像人類(lèi)一樣寫(xiě)作的研究,可能是寫(xiě)故事、詩(shī)歌、圖像標(biāo)題等。目前,在生成圖像標(biāo)題上已經(jīng)做得很好了,其中將LSTM和注意機(jī)制相結(jié)合,使得輸出可用于現(xiàn)實(shí)生活中,詳細(xì)的綜述文章在此;


關(guān)注博客


以下是推薦關(guān)注的博客列表,對(duì)于NLP感興趣的讀者可以時(shí)常瀏覽:

  • 愛(ài)因斯坦AI : https://einstein.ai/research
  • Google AI:https://ai.googleblog.com/
  • WildML: http://www.wildml.com/
  • DistillPub: https://distill.pub/
  • Sebastian Ruder: http://ruder.io/


作者信息


Muktabh Mayank,數(shù)據(jù)科學(xué)家、企業(yè)家、社會(huì)學(xué)家
文章原標(biāo)題《Free resources to learn Natural Language Processing》,譯者:Uncle_LLD。
 

標(biāo)簽: Google 代碼 谷歌 媒體 搜索 搜索引擎 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:加快大數(shù)據(jù)戰(zhàn)略布局 合力推動(dòng)發(fā)展共享數(shù)字中國(guó)

下一篇:UPS市場(chǎng)發(fā)展驅(qū)動(dòng)力:鋰離子電池和分布式計(jì)算