中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

深度學(xué)習(xí)文本分類(lèi)在支付寶投訴文本模型上的應(yīng)用

2018-08-19    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線(xiàn)!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

隨著深度學(xué)習(xí)的快速發(fā)展,以及在圖像、語(yǔ)音領(lǐng)域取得的不錯(cuò)成果,基于深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù)也日益受到人們的關(guān)注。計(jì)算機(jī)是怎么理解人類(lèi)的語(yǔ)言的呢?

傳統(tǒng)機(jī)器學(xué)習(xí)的應(yīng)用,常常是利用上述人工總結(jié)的文本特征,但往往會(huì)遇到一些問(wèn)題。比如“貓”和“咪”這兩詞語(yǔ)的語(yǔ)義很接近(即近義詞),但計(jì)算機(jī)并不能真正的在詞語(yǔ)語(yǔ)義層面理解,只是把他們當(dāng)作了兩個(gè)不同的詞語(yǔ)。再比如“小狗”和“小貓”是很相關(guān)的兩個(gè)詞語(yǔ),也不能被很好的理解和刻畫(huà)。

本文主要介紹了深度學(xué)習(xí)中的文本分類(lèi)任務(wù),以及一些應(yīng)用于文本分類(lèi)的深度學(xué)習(xí)模型。文本分類(lèi)是自然語(yǔ)言處理領(lǐng)域最經(jīng)典的場(chǎng)景之一,試圖推斷出給定的文本(句子、文檔等)的標(biāo)簽或標(biāo)簽集合。通過(guò)這些技術(shù),計(jì)算機(jī)能夠更好地理解人類(lèi)的語(yǔ)言。

針對(duì)支付寶投訴欺詐場(chǎng)景,螞蟻金服人工智能團(tuán)隊(duì)設(shè)計(jì)了多個(gè)文本深度學(xué)習(xí)模型。包括雙向GRU,Capsule Network和Attention-based Model等等,均在支付寶投訴欺詐場(chǎng)景上取得了不錯(cuò)的效果。大家一起來(lái)看看吧!

 

 

背景介紹

對(duì)于風(fēng)控業(yè)務(wù),用戶(hù)的投訴是理解黑產(chǎn)運(yùn)作方式和監(jiān)控風(fēng)控變化的重要形式。風(fēng)險(xiǎn)決策中心每天會(huì)得到大量用戶(hù)投訴文本信息,每個(gè)投訴文本通常對(duì)應(yīng)一定的風(fēng)險(xiǎn)形式。目前分類(lèi)模型只解決了部分對(duì)于文本信息利用率的問(wèn)題。目前支付寶投訴欺詐場(chǎng)景主要應(yīng)用到的深度學(xué)習(xí)模型有TextCNN和雙向GRU。

相關(guān)工作分析

本文的主要目的是想介紹一下深度學(xué)習(xí)中的文本分類(lèi)任務(wù),以及一些應(yīng)用于文本分類(lèi)的深度學(xué)習(xí)模型。文本分類(lèi)是自然語(yǔ)言處理領(lǐng)域最經(jīng)典的場(chǎng)景之一,試圖推斷出給定的文本(句子、文檔等)的標(biāo)簽或標(biāo)簽集合。

文本分類(lèi)中包含了大量的技術(shù)實(shí)現(xiàn),從是否使用了深度學(xué)習(xí)技術(shù)作為標(biāo)準(zhǔn)來(lái)衡量,可以將這些技術(shù)實(shí)現(xiàn)分為兩大類(lèi):基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類(lèi)和基于深度學(xué)習(xí)的文本分類(lèi)。

文本分類(lèi)的應(yīng)用非常廣泛,其中比較有常見(jiàn)的應(yīng)用有垃圾郵件分類(lèi),情感分析,新聞主題分類(lèi),自動(dòng)問(wèn)答系統(tǒng)中的問(wèn)句分類(lèi)以及一些現(xiàn)有的數(shù)據(jù)競(jìng)賽等,F(xiàn)有的數(shù)據(jù)競(jìng)賽包括知乎的看山杯機(jī)器學(xué)習(xí)挑戰(zhàn)賽,BDCI2017的比賽“讓AI當(dāng)法官”和Kaggle的比賽“Toxic Comment Classification Challenge”等。

文本分類(lèi)中主要有三種分類(lèi)類(lèi)型,包括二分類(lèi)問(wèn)題,多分類(lèi)問(wèn)題以及多標(biāo)簽問(wèn)題。比如垃圾郵件分類(lèi)中判斷郵件是否為垃圾郵件,屬于一個(gè)二分類(lèi)問(wèn)題。在情感分析中,判斷文本情感是積極還是消極,或者判斷文本情感屬于非常消極,消極,中立,積極,非常積極中的一類(lèi),既可以是二分類(lèi)問(wèn)題也可以是多分類(lèi)問(wèn)題。在BDCI 2017的比賽“讓AI當(dāng)法官”中,基于案件事實(shí)描述文本的罰金等級(jí)分類(lèi)和法條分類(lèi),分別屬于多分類(lèi)問(wèn)題和多標(biāo)簽分類(lèi)問(wèn)題。

文本分類(lèi)的評(píng)價(jià)指標(biāo)會(huì)根據(jù)不同的分類(lèi)類(lèi)型有各自不同的評(píng)價(jià)指標(biāo)。二分類(lèi)問(wèn)題中常常用到Accuracy,Precision,Recall和F1-score等指標(biāo);多分類(lèi)問(wèn)題往往會(huì)使用到Micro-Averaged-F1,Macro-Averaged-F1等指標(biāo);多標(biāo)簽分類(lèi)問(wèn)題中則還會(huì)考慮到Jaccard相似系數(shù)等。

在基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類(lèi)中,一般采用TF-IDF和Word Counts提取不同word n-gram的文本特征,然后將提取到的文本特征輸入到Logistics回歸、Naive Bayes等分類(lèi)器中進(jìn)行訓(xùn)練。但是當(dāng)統(tǒng)計(jì)樣本數(shù)量比較大的時(shí)候,就會(huì)出現(xiàn)數(shù)據(jù)稀疏和維度爆炸等問(wèn)題。這時(shí)候就需要做一些特征降維處理,比如停用詞過(guò)濾,低頻n-gram過(guò)濾,LDA降維等。

隨著深度學(xué)習(xí)的快速發(fā)展,以及在圖像、語(yǔ)音領(lǐng)域取得的不錯(cuò)成果,基于深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù)也日益受到人們的關(guān)注。傳統(tǒng)機(jī)器學(xué)習(xí)的應(yīng)用,是利用上述人工總結(jié)的文本特征,但往往會(huì)遇到一些問(wèn)題。比如“貓”和“咪”這兩詞語(yǔ)的語(yǔ)義很接近(即近義詞),但計(jì)算機(jī)并不能真正的在詞語(yǔ)語(yǔ)義層面理解,只是把他們當(dāng)作了兩個(gè)不同的詞語(yǔ)。再比如“小狗”和“小貓”是很相關(guān)的兩個(gè)詞語(yǔ),也不能被很好的理解和刻畫(huà)。

為了解決上述問(wèn)題,讓計(jì)算機(jī)一定程度上能夠理解詞語(yǔ)的語(yǔ)義,詞向量技術(shù)應(yīng)用而生。Mikolov et al. 2013 [1] 提出了word2vec模型,可以通過(guò)詞語(yǔ)上下文的結(jié)構(gòu)信息,將單詞的語(yǔ)義映射到一個(gè)固定的向量空間中。如果需要判定兩個(gè)詞語(yǔ)的語(yǔ)義相似度(或相關(guān)度),只需要計(jì)算兩個(gè)詞向量的夾角余弦或歐式距離等即可。比如,“小狗”與“小貓”的相似度值就會(huì)很高。憑借詞向量算法,計(jì)算機(jī)有了一定的詞語(yǔ)語(yǔ)義上的理解能力。

在此基礎(chǔ)上,我們希望可以更好的刻畫(huà)整個(gè)句子的語(yǔ)義信息。Yoon Kim, 2014 [2] 提出將CNN模型首次應(yīng)用到文本分類(lèi)問(wèn)題上。這里,詞向量作為網(wǎng)絡(luò)的第一層的輸入,而CNN的核心點(diǎn)在于可以捕捉局部相關(guān)性,在文本分類(lèi)任務(wù)中可以利用CNN來(lái)提取句子中類(lèi)似word n-gram的關(guān)鍵信息。

TextCNN模型架構(gòu)如下圖所示,句子中每個(gè)word使用K維向量來(lái)表示,于是句子可表示為一個(gè)N*K的矩陣,作為CNN的輸入。使用不同的Filter Window進(jìn)行卷積操作得到Feature Map,之后對(duì)Feature Map使用Max-over-time Pooling的池化操作,即將Feature Map向量中最大的值提取出來(lái),組成一個(gè)一維向量。經(jīng)過(guò)全連接層輸出,使用Softmax層進(jìn)行分類(lèi),并且加上Dropout層防止過(guò)擬合。

 

 

自然語(yǔ)言處理中更常用的是遞歸神經(jīng)網(wǎng)絡(luò)(RNN, Recurrent NeuralNetwork),能夠更好的表達(dá)上下文信息。Liu et al., 2016 [3] 介紹了RNN用于分類(lèi)問(wèn)題的設(shè)計(jì)。用于文本分類(lèi)的RNN網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示,網(wǎng)絡(luò)中將最后一個(gè)單元的結(jié)果作為文本特征,連接全連接Softmax層進(jìn)行分類(lèi)。

 

 

除此之外,還有使用雙向RNN網(wǎng)絡(luò) [4](Bidirectional RNNs,BiRNNs)的兩個(gè)方向的輸出向量的連接或均值作為文本特征。

一般的循環(huán)神經(jīng)網(wǎng)絡(luò)往往存在許多弊端。在訓(xùn)練網(wǎng)絡(luò)過(guò)程中,經(jīng)過(guò)許多階段傳播后會(huì)出現(xiàn)梯度消散(Gradient vanishing)或梯度爆炸(Gradient exploding)等問(wèn)題。循環(huán)神經(jīng)網(wǎng)絡(luò)在反向傳播中得到誤差的時(shí)候,可以想象一下多次乘以自身的參數(shù)權(quán)重,該乘積消散或爆炸取決于的幅值。針對(duì)于梯度爆炸的情況,常常會(huì)使用截?cái)嗵荻确椒ā5翘荻冉財(cái)嗖⒉荒苡行У靥幚硖荻认?wèn)題,有一個(gè)容易想到的方法是使用正則化或約束參數(shù),當(dāng)然還有更好的解決方案,那就是使用LSTM(Long Short-Term Memory)或GRU(Gated recurrent unit)等門(mén)控RNN(Gated RNN)。

梯度消散是原生RNN中一個(gè)很大的問(wèn)題,也就是后面時(shí)間的節(jié)點(diǎn)對(duì)于前面時(shí)間的節(jié)點(diǎn)感知力下降,也就是忘事兒。Hochreiter et al., 1997[5] 提出了LSTM,它的設(shè)計(jì)初衷就是來(lái)解決梯度消散問(wèn)題。在標(biāo)準(zhǔn)的RNN中,這個(gè)重復(fù)的模塊只有一個(gè)非常簡(jiǎn)單的結(jié)構(gòu),例如一個(gè)tanh層。LSTM同樣是這樣的結(jié)構(gòu),但是重復(fù)的模塊擁有一個(gè)不同的結(jié)構(gòu)。不同于單一神經(jīng)網(wǎng)絡(luò)層,這里是有四個(gè),以一種非常特殊的方式進(jìn)行交互。如下圖所示,一個(gè)LSTM塊有四個(gè)輸入。

(1)輸入(Input):模塊的輸入;

(2)輸入門(mén)(Input Gate):控制輸入;

(3)遺忘門(mén)(Forget Gate):控制是否更新記憶單元(Memory Cell);

(4)輸出門(mén)(Output Gate):控制輸出。

 

 

在多個(gè)LSTM連接的循環(huán)網(wǎng)絡(luò)中,單個(gè)的LSTM的各個(gè)門(mén)的控制方式如下:

 

 

 

 

Cho et al., 2014 [6] 提出了GRU網(wǎng)絡(luò)結(jié)構(gòu),GRU作為L(zhǎng)STM的一種變體,將遺忘門(mén)和輸入門(mén)合成了一個(gè)單一的更新門(mén)。同樣還混合了細(xì)胞狀態(tài)和隱藏狀態(tài),加諸其他一些改動(dòng)。最終的模型比標(biāo)準(zhǔn)的LSTM模型要簡(jiǎn)單,是目前非常流行的變體。

具體在文本分類(lèi)任務(wù)中,BiRNNs(實(shí)際使用的是雙向GRUs)從某種意義上可以理解為可以捕獲變長(zhǎng)且雙向的“word n-gram”信息。

問(wèn)題與挑戰(zhàn)

word2vec算法雖然可以學(xué)到有用的詞向量,但是該算法只刻畫(huà)了詞語(yǔ)的上下文結(jié)構(gòu)信息,并不能很好的利用中文詞語(yǔ)內(nèi)部的結(jié)構(gòu)信息,而中文又是一種強(qiáng)表義的語(yǔ)言文字。尤其是在大安全領(lǐng)域的數(shù)據(jù)里,有很多詞語(yǔ)的變種寫(xiě)法。比如“小姐”和“小女且”這兩個(gè)詞語(yǔ),經(jīng)常會(huì)有不法分子為了繞開(kāi)攔截系統(tǒng),故意采用“形變”寫(xiě)成后者;再比如“微信”和“威芯”這兩個(gè)詞語(yǔ),則是“音變”的刻意回避。因此,我們希望嘗試一種新的算法,可以很好的刻畫(huà)出中文詞語(yǔ)的“形”和“音”的特性,生成更高質(zhì)量的詞向量,進(jìn)而為后面的深度神經(jīng)網(wǎng)絡(luò)提供更大的信息量。

TextCNN能夠在很多任務(wù)里面能有不錯(cuò)的表現(xiàn),CNN卷積特征檢測(cè)器提取來(lái)自局部的序列窗口的模式,并使用max-pooling來(lái)選擇最明顯的特征。然后,CNN分層地提取不同層次的特征模式。然而,CNN在對(duì)空間信息進(jìn)行建模時(shí),需要對(duì)特征檢測(cè)器進(jìn)行復(fù)制,降低了模型的效率。但在實(shí)際中文的語(yǔ)料庫(kù)中,文本結(jié)構(gòu)豐富,單詞的位置信息、語(yǔ)義信息、語(yǔ)法結(jié)構(gòu)等,對(duì)于CNN這種空間不敏感的方法不可避免會(huì)出現(xiàn)問(wèn)題。

BiGRUs在文本分類(lèi)上有明顯的效果,但是在可解釋性以及關(guān)注文本整體重要性上有明顯的不足,特別是在分析badcase的時(shí)候感受尤其深刻。

如何解決TextCNN在文本中深入理解文字的位置信息、語(yǔ)義信息、語(yǔ)法結(jié)構(gòu)等信息,以及使BiGRUs文本模型能夠關(guān)注文本整體重要性將是下面要探索的內(nèi)容。

CW2VEC

Cao et al. 2018 [7] 在AAAI 2018的論文里提出了cw2vec算法。(相關(guān)閱讀請(qǐng)參考《AAAI 2018 論文 | 螞蟻金服公開(kāi)最新基于筆畫(huà)的中文詞向量算法》)該算法通過(guò)構(gòu)造“n元筆畫(huà)”提取出漢字的表義單元,比如“森林”與“木材”這兩個(gè)詞語(yǔ)具有很多共同的“4元筆畫(huà)”-“木”,因此這兩個(gè)詞語(yǔ)具有較高的相關(guān)度。相對(duì)于漢字、偏旁粒度的詞語(yǔ)拆解,n元筆畫(huà)是一種非人工總結(jié)、由算法自動(dòng)統(tǒng)計(jì)出來(lái)的表義結(jié)構(gòu)。在中文的公開(kāi)測(cè)試集中,cw2vec相對(duì)于word2vec, GloVe, CWE等算法均取得了一致性的提升。

 

 

cw2vec算法同時(shí)利用了中文詞語(yǔ)內(nèi)部和上下文的結(jié)構(gòu)信息,來(lái)設(shè)計(jì)損失函數(shù),因此產(chǎn)生更高質(zhì)量的中文詞向量。

 

 

除了“形”之外,“音”的刻畫(huà)可以通過(guò)“n元拼音”來(lái)實(shí)現(xiàn)。這里拼音字符從“a”到“z”,按照同樣的方法獲得詞語(yǔ)的拼音,然后通過(guò)滑窗進(jìn)一步得到“n元拼音”。

為了同時(shí)獲得“形”和“音”的特征信息,我們采用了一種簡(jiǎn)單有效的實(shí)驗(yàn)方案,即分別基于“n元筆畫(huà)”和“n元拼音”模式學(xué)習(xí)詞向量,然后再對(duì)詞向量進(jìn)行拼接。相對(duì)于詞向量平均(可以看作是線(xiàn)性加權(quán)),這種拼接方法,對(duì)后續(xù)的深度神經(jīng)網(wǎng)絡(luò)保有了更高的非線(xiàn)性信息融合能力。

目前cw2vec算法在內(nèi)容安全寶、保險(xiǎn)等場(chǎng)景中取得了不錯(cuò)的效果,這里我們也將探索其在支付寶投訴欺詐場(chǎng)景的作用。

Capsule Network

Hinton et al., 2017 [8] 在去年發(fā)表的論文中,Hinton介紹Capsule是一組神經(jīng)元,其輸入輸出向量表示特定實(shí)體類(lèi)型的實(shí)例化參數(shù)(即特定物體、概念實(shí)體等出現(xiàn)的概率與某些屬性)。我們使用輸入輸出向量的長(zhǎng)度表征實(shí)體存在的概率,向量的方向表示實(shí)例化參數(shù)(即實(shí)體的某些圖形屬性)。同一層級(jí)的Capsule通過(guò)變換矩陣對(duì)更高級(jí)別的Capsule的實(shí)例化參數(shù)進(jìn)行預(yù)測(cè)。當(dāng)多個(gè)預(yù)測(cè)一致時(shí)(本論文使用動(dòng)態(tài)路由使預(yù)測(cè)一致),更高級(jí)別的Capsule將變得活躍。

到目前為止,將膠囊網(wǎng)絡(luò)應(yīng)用到自然語(yǔ)言處理上的論文研究較少,其中Zhao et al., 2018 [9] 提出了將膠囊網(wǎng)絡(luò)應(yīng)用到文本分類(lèi)任務(wù)上。對(duì)于傳統(tǒng)的分類(lèi)問(wèn)題上,膠囊網(wǎng)絡(luò)取得了較好的性能,并且其性能超過(guò)了TextCNN,其模型結(jié)構(gòu)圖如下所示。

 

 

我們當(dāng)前使用的網(wǎng)絡(luò)結(jié)構(gòu)是隱藏大小為128的BiGRUs(雙向GRUs),連接膠囊網(wǎng)絡(luò)層,膠囊數(shù)量設(shè)置為10,路由數(shù)量設(shè)置為3。

Attention機(jī)制

在談及基于Attention機(jī)制的模型時(shí),不能不先提及一下Encoder-Decoder框架,Encoder-Decoder框架可以理解成由一個(gè)句子生成另一個(gè)句子的通用處理模型。其架構(gòu)如下圖所示:

 

 

如圖中的例子可以看到通過(guò)Encoder編碼了“機(jī)器學(xué)習(xí)”四個(gè)繁體字,得到一個(gè)中間語(yǔ)義,即圖中標(biāo)了紅框框的綠色方塊。然后將這個(gè)紅框框的綠色方塊作為Decoder的輸入。這里得做一下解釋?zhuān)珽ncoder-Decoder是一個(gè)通用的計(jì)算框架,其中的Encoder和Decoder可以是不同的模型組合,比如CNN、RNN等,上圖展示的就是Encoder和Decoder都是RNN的組合。

仔細(xì)看上圖的翻譯框架可以看到,在生成目標(biāo)單詞的時(shí)候,無(wú)論哪個(gè)單詞都是用到同一個(gè)紅框框的綠色方塊,即同一個(gè)中間語(yǔ)義。這就是展現(xiàn)出一種注意力不集中的分心模型。那注意力模型是如何的呢?

Bahdanau et al., 2014 [10] 提出了將Attention機(jī)制應(yīng)用到在機(jī)器翻譯。注意力模型會(huì)在輸出目標(biāo)單詞的時(shí)候關(guān)注到輸入單詞的,比如輸出“machine”的時(shí)候,注意力模型應(yīng)該將目光注意到“機(jī)器”兩個(gè)詞上,即“機(jī)器”的關(guān)注重要性應(yīng)該大一些,而“學(xué)習(xí)”兩個(gè)詞的重要性應(yīng)該小一些。基于Attention機(jī)制的模型架構(gòu)如下圖所示。

 

 

Yang et al., 2016 [11] 提出了用詞向量來(lái)表示句子向量,再由句子向量表示文檔向量,并且在詞層次和句子層次分別引入Attention的層次化Attention模型(Hierarchical Attention Networks,HAN)。HAN的模型結(jié)構(gòu)如下圖所示。

 

 

我們當(dāng)前使用的網(wǎng)絡(luò)結(jié)構(gòu)是隱藏大小為128的BiGRUs(雙向GRUs),連接word-level的Attention層。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)中讀取了支付寶投訴欺詐場(chǎng)景的一段數(shù)據(jù)作為訓(xùn)練集,另一段時(shí)間的數(shù)據(jù)作為測(cè)試集。數(shù)據(jù)的標(biāo)簽是三分類(lèi),有違禁類(lèi),非案件類(lèi)和欺詐類(lèi)。其中欺詐的分類(lèi)結(jié)果是我們主要關(guān)注的結(jié)果。數(shù)據(jù)集經(jīng)過(guò)一些去重?cái)?shù)據(jù),去除文本中的標(biāo)點(diǎn),填充空值等預(yù)處理操作后,將處理后的數(shù)據(jù)輸入我們的神經(jīng)網(wǎng)絡(luò)模型中,得到如下結(jié)果。

實(shí)驗(yàn)中我們主要對(duì)比Capsule Network和TextCNN模型以及BiGRU模型和Attention模型在不同詞向量作為初始網(wǎng)絡(luò)Embedding層在不同評(píng)價(jià)指標(biāo)下的效果對(duì)比。其中為了驗(yàn)證兩種詞向量拼接后的高維詞向量對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的效果,添加了一組詞向量拼接后對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)的實(shí)驗(yàn)對(duì)比。

 

 

上圖是使用word2vec作為詞向量,多個(gè)網(wǎng)絡(luò)模型在支付寶投訴文本上的一組實(shí)驗(yàn)示例。第一張圖是該組模型的ROC曲線(xiàn),第二張圖是該組模型的Precision/Recall曲線(xiàn)。

 

 

上圖是使用cw2vec作為詞向量,多個(gè)網(wǎng)絡(luò)模型在支付寶投訴文本上的一組實(shí)驗(yàn)示例。第一張圖是該組模型的ROC曲線(xiàn),第二張圖是該組模型的Precision/Recall曲線(xiàn)。

 

 

上圖是使用拼接后的高維向量作為詞向量,多個(gè)網(wǎng)絡(luò)模型在支付寶投訴文本上的一組實(shí)驗(yàn)示例。第一張圖是該組模型的ROC曲線(xiàn),第二張圖是該組模型的Precision/Recall曲線(xiàn)。

 

 

備注:其中2vecs是指將300維cw2vec詞向量和300維word2vec詞向量拼接在一起,形成一個(gè)600維詞向量。AUC的計(jì)算方式是根據(jù)三分類(lèi)共同的預(yù)測(cè)結(jié)果和真實(shí)標(biāo)簽計(jì)算得出的。三分類(lèi)準(zhǔn)確度(Accuracy)的計(jì)算方式是根據(jù)三分類(lèi)結(jié)果的最大值來(lái)確定類(lèi)別的,而Precision/Recall是僅根據(jù)三分類(lèi)中的欺詐類(lèi)的結(jié)果計(jì)算出來(lái)的。

實(shí)驗(yàn)中詞向量算法分別用到了word2vec和cw2vec,其中word2vec中包含了cbow和skip-gram各150維的詞向量,cw2vec中包含了基于筆畫(huà)和拼音各150維的詞向量。其中拼接后的高維詞向量(2vecs)是同時(shí)包含cw2vec和word2vec的600維詞向量。

上述實(shí)驗(yàn)表明,不管在使用word2vec,cw2vec以及拼接后的高維詞向量作為詞向量,我們用Capsule Network網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練的模型在Precision/Recall值和AUC值上都比原先TextCNN的效果好。比較兩者的三分類(lèi)準(zhǔn)確度,僅在使用拼接后的詞向量的準(zhǔn)確度上Capsule Network略低于TextCNN。因此,實(shí)驗(yàn)證明Capsule Network的整體表現(xiàn)優(yōu)于原先的TextCNN。

在比較BiGRU模型和Attention模型時(shí),我們可以發(fā)現(xiàn)在較低Precision下的Recall值時(shí),BiGRU模型的分值略高于Attention模型。但在較高Precision下的Recall時(shí),Attention模型的分值則明顯高于BiGRU模型。如表中Attention+word2vec在80%Precision下Recall值略低于BiGRU+word2vec。但在85% 和90%Precision下,Attention+word2vec的Recall值則明顯高于BiGRU+word2vec。在比較兩者的AUC值和Accuracy值,在使用word2vec詞向量和拼接的高維詞向量時(shí),Attention模型的分?jǐn)?shù)較高。

在詞向量間的對(duì)比中,可以看到僅使用cw2vec作為詞向量網(wǎng)絡(luò)模型整體上比word2vec和拼接的詞向量效果更好。

討論與展望

Capsule網(wǎng)絡(luò)結(jié)構(gòu)在文本分類(lèi)中能夠深入理解文字的位置信息、語(yǔ)義信息、語(yǔ)法結(jié)構(gòu)等信息,而Attention機(jī)制能夠讓RNN網(wǎng)絡(luò)更加關(guān)注于整理文本的重要性。

希望Capsule網(wǎng)絡(luò)結(jié)構(gòu)和Attention機(jī)制可以在更多的場(chǎng)景發(fā)揮效果,非常歡迎隨時(shí)聯(lián)系我們交流討論!

感謝各位技術(shù)同學(xué)的熱心幫助,以及螞蟻金服機(jī)器學(xué)習(xí)平臺(tái)-PAI平臺(tái)的技術(shù)支持,實(shí)驗(yàn)中的cw2vec和word2vec兩種詞向量的生成是在PAI平臺(tái)上實(shí)現(xiàn)的,為實(shí)驗(yàn)對(duì)比提供了很大的幫助,在數(shù)據(jù)中PAI的統(tǒng)計(jì)組件來(lái)進(jìn)行建模的前的EDA。使用Pai-Tensorflow的GPU資源及分布式Tensorflow的支持,極快地加速了整個(gè)實(shí)驗(yàn)流程。也希望大家能夠享受機(jī)器學(xué)習(xí)的樂(lè)趣!

參考文獻(xiàn)

[1] Mikolov et al. Distributedrepresentations of words and phrases and their compositionality[C]. NIPS. 2013.

[2] Kim Y. Convolutional neuralnetworks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.

[3] Liu P, Qiu X, Huang X.Recurrent neural network for text classification with multi-task learning[J].arXiv preprint arXiv:1605.05101, 2016.

[4] Schuster M, Paliwal K K.Bidirectional recurrent neural networks[J]. IEEE Transactions on SignalProcessing, 1997, 45(11): 2673-2681.

[5] Hochreiter S, Schmidhuber J.Long short-term memory[J]. Neural computation, 1997, 9(8): 1735-1780.

[6] Cho K, Van Merriënboer B,Gulcehre C, et al. Learning phrase representations using RNN encoder-decoderfor statistical machine translation[J]. arXiv preprint arXiv:1406.1078, 2014.

[7] Cao et al. cw2vec: LearningChinese Word Embeddings with Stroke n-gram Information. AAAI 2018.

[8] Sabour S, Frosst N, Hinton G E.Dynamic routing between capsules[C]//Advances in Neural Information ProcessingSystems. 2017: 3856-3866.

[9] Zhao W, Ye J, Yang M, et al.Investigating Capsule Networks with Dynamic Routing for Text Classification[J].arXiv preprint arXiv:1804.00538, 2018.

[10] Bahdanau D, Cho K, Bengio Y.Neural machine translation by jointly learning to align and translate[J]. arXivpreprint arXiv:1409.0473, 2014.

[11] Yang Z, Yang D, Dyer C, et al.Hierarchical attention networks for document classification[C]//Proceedings ofthe 2016 Conference of the North American Chapter of the Association forComputational Linguistics: Human Language Technologies. 2016: 1480-1489.

來(lái)源:云棲社區(qū)


標(biāo)簽: 安全 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:深度教練:深度學(xué)習(xí)模擬人類(lèi)教學(xué)過(guò)程,減少訓(xùn)練數(shù)據(jù)和時(shí)間

下一篇: 教育部公示大學(xué)申報(bào)新專(zhuān)業(yè):大數(shù)據(jù)繼續(xù)領(lǐng)先,人工智能最火