中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

深度思考:從BERT看大規(guī)模數(shù)據(jù)的無監(jiān)督利用

2019-02-19    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

在擊敗 11 個(gè) NLP 任務(wù)的 State-of-the-art 結(jié)果之后,BERT 成為了 NLP 界新的里程碑, 同時(shí)打開了新的思路: 在未標(biāo)注的數(shù)據(jù)上深入挖掘,可以極大地改善各種任務(wù)的效果。數(shù)據(jù)標(biāo)注是昂貴的,而大量的未標(biāo)注數(shù)據(jù)卻很容易獲得。

在分類中,標(biāo)簽表示訓(xùn)練示例所屬的類; 在回歸中,標(biāo)簽是對(duì)應(yīng)于該示例的實(shí)值響應(yīng)。 大多數(shù)成功的技術(shù),例如深度學(xué)習(xí),需要為大型訓(xùn)練數(shù)據(jù)集提供 ground truth 標(biāo)簽;然而,在許多任務(wù)中,由于數(shù)據(jù)標(biāo)注過程的高成本,很難獲得強(qiáng)有力的監(jiān)督信息。 因此,希望機(jī)器學(xué)習(xí)技術(shù)能夠在弱監(jiān)督下工作。

這不可避免地導(dǎo)致我們重新考慮弱監(jiān)督學(xué)習(xí)的發(fā)展方向。 弱監(jiān)督學(xué)習(xí)的主要目標(biāo)是僅使用有限量的標(biāo)注數(shù)據(jù),和大量的未標(biāo)注數(shù)據(jù),來提升各項(xiàng)任務(wù)的效果。

弱監(jiān)督最大的難點(diǎn)在于如何用少量的標(biāo)注數(shù)據(jù),和為標(biāo)注數(shù)據(jù)來有效地捕捉數(shù)據(jù)的流形。目前的一些解決方案在面對(duì)復(fù)雜的數(shù)據(jù)時(shí),比較難準(zhǔn)確地還原數(shù)據(jù)的流形。但是 BERT 通過大量的預(yù)訓(xùn)練,在這方面有著先天的優(yōu)勢。

因而,BERT 憑借對(duì)數(shù)據(jù)分布的捕獲是否足以超越傳統(tǒng)半監(jiān)督的效果?又或者,BERT 能否有與半監(jiān)督方法有效地結(jié)合,從而結(jié)合兩者優(yōu)勢?

弱監(jiān)督

通常,有三種類型的弱監(jiān)督。第一種是不完全監(jiān)督,即只有一個(gè)(通常很小的)訓(xùn)練數(shù)據(jù)子集用標(biāo)簽給出,而其他數(shù)據(jù)保持未標(biāo)注。 這種情況發(fā)生在各種任務(wù)中。 例如,在圖像分類中,ground truth 標(biāo)簽由人類注釋者給出;很容易從互聯(lián)網(wǎng)上獲取大量圖像,而由于人工成本,只能注釋一小部分圖像。

第二種類型是不精確監(jiān)督,即僅給出粗粒度標(biāo)簽。 再次考慮圖像分類任務(wù)。 期望使圖像中的每個(gè)對(duì)象都注釋;但是,通常我們只有圖像級(jí)標(biāo)簽而不是對(duì)象級(jí)標(biāo)簽。

第三種類型是不準(zhǔn)確監(jiān)督,即給定的標(biāo)簽并不總是真實(shí)的。 出現(xiàn)這種情況,例如當(dāng)圖像注釋器粗心或疲倦時(shí),或者某些圖像難以分類。

對(duì)于不完全監(jiān)督,在這種情況下,我們只給予少量的訓(xùn)練數(shù)據(jù),并且很難根據(jù)這樣的小注釋來訓(xùn)練良好的學(xué)習(xí) 然而,好的一面是我們有足夠的未標(biāo)注數(shù)據(jù)。 這種情況在實(shí)際應(yīng)用中經(jīng)常發(fā)生,因?yàn)樽⑨尩某杀究偸呛芨摺?/p>

通過使用弱監(jiān)督方法,我們嘗試以最有效的方式利用這些未標(biāo)注的數(shù)據(jù)。有兩種主要方法可以解決這個(gè)問題,即主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。兩者的明確區(qū)別在于前者需要額外的人為輸入,而后者不需要人為干預(yù)。

主動(dòng)學(xué)習(xí)(Active Learning)

主動(dòng)學(xué)習(xí)假設(shè)可以向人類從查詢未標(biāo)注數(shù)據(jù)的 ground truth。目標(biāo)是最小化查詢的數(shù)量,從而最大限度地減少人工標(biāo)簽的工作量。換句話說,此方法的輸出是:從所有未標(biāo)注的數(shù)據(jù)中,找到最有效的數(shù)據(jù)點(diǎn),最值得標(biāo)注的數(shù)據(jù)點(diǎn)然后詢問 ground truth。

例如,可能有一個(gè)距離決策邊界很遠(yuǎn)的數(shù)據(jù)點(diǎn),具有很高的正類可信度,標(biāo)注這一點(diǎn)不會(huì)提供太多信息或改進(jìn)分類模型。但是,如果非常接近分離閾值的最小置信點(diǎn)被重新標(biāo)注,則這將為模型提供最多的信息增益。

更具體地說,有兩種廣泛使用的數(shù)據(jù)點(diǎn)選擇標(biāo)準(zhǔn),即信息性和代表性。信息性衡量未標(biāo)注實(shí)例有助于減少統(tǒng)計(jì)模型的不確定性,而代表性衡量實(shí)例有助于表示輸入模式結(jié)構(gòu)的程度。

關(guān)于信息性,有兩種主要方法,即不確定性抽樣(Uncertainty sampling)和投票機(jī)制(query-by-committee)。 前者培訓(xùn)單個(gè)分類器,然后查詢分類器 confidence 最低的未標(biāo)注數(shù)據(jù)。 后者生成多個(gè)分類器,然后查詢分類器最不相同的未標(biāo)注數(shù)據(jù)。

關(guān)于代表性,我們的目標(biāo)是通常通過聚類方法來利用未標(biāo)注數(shù)據(jù)的聚類結(jié)構(gòu)。

半監(jiān)督學(xué)習(xí)(Semi-Supervised Learning)

另一方面,半監(jiān)督學(xué)習(xí)則試圖在不詢問人類專家的情況下利用未標(biāo)注的數(shù)據(jù)。 起初這可能看起來反直覺,因?yàn)槲礃?biāo)注的數(shù)據(jù)不能像標(biāo)注數(shù)據(jù)一樣,直接體現(xiàn)額外的信息。

然而,未標(biāo)注的數(shù)據(jù)點(diǎn)卻存在隱含的信息,例如,數(shù)據(jù)分布。新數(shù)據(jù)集的不斷增加以及獲得標(biāo)簽信息的困難使得半監(jiān)督學(xué)習(xí)成為現(xiàn)代數(shù)據(jù)分析中具有重要實(shí)際意義的問題之一。

半監(jiān)督學(xué)習(xí)的最主要假設(shè):數(shù)據(jù)分布中有可以挖掘的的信息。

圖 1 提供了直觀的解釋。如果我們必須根據(jù)唯一的正負(fù)點(diǎn)進(jìn)行預(yù)測,我們可以做的只是隨機(jī)猜測,因?yàn)闇y試數(shù)據(jù)點(diǎn)正好位于兩個(gè)標(biāo)注數(shù)據(jù)點(diǎn)之間的中間位置;如果我們被允許觀察一些未標(biāo)注的數(shù)據(jù)點(diǎn),如圖中的灰色數(shù)據(jù)點(diǎn),我們可以高可信度地預(yù)測測試數(shù)據(jù)點(diǎn)為正數(shù)。雖然未標(biāo)注的數(shù)據(jù)點(diǎn)沒有明確地具有標(biāo)簽信息,但它們隱含地傳達(dá)了一些有助于預(yù)測建模的數(shù)據(jù)分布信息。

 

▲ Figure 1 為標(biāo)注數(shù)據(jù)分布對(duì)分類的幫助 [12]所有半監(jiān)督算法都有兩個(gè)主要假設(shè),即流形假設(shè)和聚類假設(shè)。前者假設(shè)數(shù)據(jù)位于流形上,因此,附近的實(shí)例具有類似的預(yù)測。 而后者假設(shè)數(shù)據(jù)具有固有的集群結(jié)構(gòu),因此落入同一集群的實(shí)例具有相同的類標(biāo)簽。

 

簡而言之,類似的數(shù)據(jù)點(diǎn)應(yīng)該具有相似的輸出,我們假設(shè)存在數(shù)據(jù)間點(diǎn)間關(guān)系,這些關(guān)系可以通過未標(biāo)注的數(shù)據(jù)顯示出來。

Self-Training

下面我們詳細(xì)看一下各類的半監(jiān)督方法。說到半監(jiān)督學(xué)習(xí),我們不得不提到自我訓(xùn)練方案(Self-training)。

Self-training 通過自己的預(yù)測結(jié)果中信心最高的樣本來進(jìn)行 Bootstrapping。也就是說,原始分類器首先對(duì)測試集進(jìn)行一輪預(yù)測,并將最自信的預(yù)測添加到訓(xùn)練集中。選擇最自信的預(yù)測通;陬A(yù)定義的閾值,然后使用新的擴(kuò)大訓(xùn)練集作為輸入重復(fù)訓(xùn)練過程,并將整個(gè)過程迭代到某個(gè)終止條件。

我們可以參考圖 2 來對(duì)比 Self-training 和常規(guī)的 Expectation Maximisation (EM) 方法。

 

▲ Figure 2 Self-training 流程 [12]該方法是作為現(xiàn)有訓(xùn)練流程的 Wrapper 實(shí)現(xiàn)的。然而,這種方法的缺點(diǎn)是它是啟發(fā)式的,這意味著它們可能會(huì)加劇錯(cuò)誤。例如,第一個(gè)模型錯(cuò)誤地預(yù)測樣本具有高可信度,可能是由于標(biāo)簽噪聲等,這在現(xiàn)實(shí)世界的任務(wù)中非常常見。這將影響所有后續(xù)迭代,并且不會(huì)有自校正機(jī)制,因此錯(cuò)誤將無論如何傳播。

 

除了自我訓(xùn)練,半監(jiān)督學(xué)習(xí)的許多其他版本和類別得到發(fā)展,一些有著非常悠久的歷史。 還有四種其他主要類別的半監(jiān)督學(xué)習(xí)方法,即生成方法(Generative Methods),基于圖的方法(Graph-based Methods),低密度分離方法(Low-density Separation)和基于分歧的方法(Disagreement-based Methods)。我們將選取其中幾種方法進(jìn)行深入研究,以及不同方法的發(fā)展。

下面可以看到幾種不同方法的發(fā)展歷程:

 

▲ Figure 3 生成方法的發(fā)展歷程

▲ Figure 4 圖方法的發(fā)展歷程

▲ Figure 5 Low-density Separation 的發(fā)展歷程

▲ Figure 6 Disagreement Methods 的發(fā)展歷程

▲ Figure 7 綜合方法的發(fā)展歷程Generative Methods

 

生成方法假設(shè)標(biāo)注和未標(biāo)注數(shù)據(jù)都是從相同的固有模型生成的。 因此,未標(biāo)注實(shí)例的標(biāo)簽可以被視為模型參數(shù)的缺失值并且通過諸如期望最大化(Expectation-Maximisation)算法的方法來估計(jì)。

Mixture of Experts

早在 1996 年,就已經(jīng)在半監(jiān)督學(xué)習(xí)領(lǐng)域進(jìn)行了研究。學(xué)習(xí)基于總數(shù)據(jù)可能性的最大化,即基于標(biāo)注和未標(biāo)注數(shù)據(jù)子集。兩種不同的EM學(xué)習(xí)算法,不同之處在于應(yīng)用于未標(biāo)注數(shù)據(jù)的EM形式。 基于特征和標(biāo)簽的聯(lián)合概率模型的分類器是“專家的混合”結(jié)構(gòu),其等同于徑向基函數(shù)(RBF)分類器,但是與 RBF 不同,其適合于基于可能性的訓(xùn)練。

Hybrid Discriminative/Generative

現(xiàn)有的半監(jiān)督學(xué)習(xí)方法可分為生成模型或判別模型。而這個(gè)方法側(cè)重于概率半監(jiān)督分類器設(shè)計(jì),并提出了一種利用生成和判別方法的混合方法。在原有的生成模型(標(biāo)注樣本上訓(xùn)練得到)新引入偏差校正模型;谧畲箪卦恚Y(jié)合生成和偏差校正模型構(gòu)建混合模型。該方法結(jié)合了判別和生成方法的優(yōu)點(diǎn)。

Graph Based Methods

在圖 8 中,我么可以一眼看出問號(hào)代表的樣本,有很大的可能性為正樣本。這充分體現(xiàn)出未標(biāo)注數(shù)據(jù)的分布對(duì)于分類效果提升的幫助。

 

▲ Figure 8 數(shù)據(jù)分布對(duì)分類的影響 [5]我們可以把分類任務(wù)定義為圖結(jié)構(gòu),構(gòu)建連接相似數(shù)據(jù)點(diǎn)的圖,隱藏/觀察到的標(biāo)簽為圖節(jié)點(diǎn)上的隨機(jī)變量(圖便成為 MRF)。類似的數(shù)據(jù)點(diǎn)具有相似的標(biāo)簽,信息從標(biāo)注的數(shù)據(jù)點(diǎn)“傳播”。如圖 9 所示:

 

 

▲ Figure 9 根據(jù)相似度建立圖 [7]各個(gè)樣本為圖的節(jié)點(diǎn),鏈接相似的樣本。目標(biāo)則是最小化整體能量,能量的定義如下圖所示:

 

 

 

給出的信息是 n×n 相似度矩陣。應(yīng)該已經(jīng)有一些方法來確定所有樣本之間的相似性 - 并且已經(jīng)在這個(gè)階段給出。有許多不同的方法可以確定相似性,每種方法都有自己的優(yōu)點(diǎn)和缺點(diǎn)。

從圖 10 我們可以形象的看出優(yōu)化能量的過程,紅色邊為高能量,最終目的則是要減少高能量的邊。

 

▲ Figure 10 不同狀態(tài)的能量 [7]過程可以定義為離散馬爾可夫隨機(jī)場(Discrete Markov Random Fields)如圖 11:

 

 

▲ Figure 11 離散馬爾科夫隨機(jī)場 [7]Learning using Graph Mincuts

 

圖方法中比較早的研究,此研究相對(duì)于較早方法關(guān)鍵的突破在于可以在指數(shù)復(fù)雜度優(yōu)化問題上實(shí)現(xiàn)多項(xiàng)式運(yùn)算時(shí)間。這里用的相似度為 Nearest Neighbour(NN),并優(yōu)化最近鄰的一致性。潛在的隨機(jī)場為我們的方法提供了一個(gè)連貫的概率語義,但是本此方法僅使用場的均值,其特征在于諧波函數(shù)和譜圖理論。

半監(jiān)督學(xué)習(xí)問題的關(guān)鍵是先驗(yàn)假設(shè)的一致性,這意味著:(1)附近的點(diǎn)可能具有相同的標(biāo)簽; (2)同一結(jié)構(gòu)上的點(diǎn)(通常稱為簇或歧管)可能具有相同的標(biāo)簽。值得注意的是第一點(diǎn)是 Local,而第二點(diǎn)是 Global。傳統(tǒng)監(jiān)督學(xué)習(xí)算法,例如 k-NN,通常僅取決于局部一致性的第一假設(shè)。

預(yù)訓(xùn)練預(yù)訓(xùn)練與多任務(wù)學(xué)習(xí)

通過以上對(duì)半監(jiān)督學(xué)習(xí)中不同方法的分析,我們可以看到,半監(jiān)督的核心問題是數(shù)據(jù)流形構(gòu)成不準(zhǔn)確,在樣本數(shù)量少的時(shí)候更是如此。如果我們可以準(zhǔn)確地定義數(shù)據(jù)的分布,我們更有可能對(duì)未出現(xiàn)過的數(shù)據(jù)做出更好的預(yù)測。

BERT 通過大量的預(yù)訓(xùn)練,空間相對(duì)穩(wěn)定,可以把流形更加清楚地構(gòu)造出來。在半監(jiān)督任務(wù)中可以加入 BERT 提供的流形先驗(yàn),做整體的約束。我們可以用下圖來直觀地表示效果:

 

▲ Figure 12 BERT 理論上對(duì)數(shù)據(jù)流形的增強(qiáng)效果 [14]近日微軟發(fā)布的 MT-DNN,在 GLUE 的 11 項(xiàng) NLP 任務(wù)中有 9 項(xiàng)超越了 BERT!MT-DNN 在 BERT 預(yù)訓(xùn)練的基礎(chǔ)上,加入了多任務(wù)學(xué)習(xí)(Multi-task Learning)的方法,不像 BERT 只采用了未標(biāo)注數(shù)據(jù)來做預(yù)訓(xùn)練,MT-DNN 還利用了其他相關(guān)任務(wù)的監(jiān)督數(shù)據(jù),與 BERT 預(yù)訓(xùn)練進(jìn)行互補(bǔ),并且減輕對(duì)特定任務(wù)的過擬合。

 

實(shí)驗(yàn)

為了對(duì)比 BERT 在半監(jiān)督中的效果,我們做了一些實(shí)驗(yàn)來對(duì)比:傳統(tǒng)的監(jiān)督 Naïve Bayes 分類器,半監(jiān)督 Naïve Bayes 分類器,BERT 和半監(jiān)督 BERT。

這里用到的半監(jiān)督方法是 Self-training/Label Propagation。我們使用相同的數(shù)據(jù)集 – 20 Newsgroups Dataset,并使用相同數(shù)量的訓(xùn)練和測試集 1,200 和 10,000。實(shí)驗(yàn)結(jié)果如圖 13 所示:

 

▲ Figure 13 20 Newsgroup 分類結(jié)果可以看到加入了 BERT 之后效果非常明顯,BERT-base 已經(jīng)在原有的半監(jiān)督方法的基礎(chǔ)上面提升了接近 10%,說明 BERT 本身可以更加好地捕獲數(shù)據(jù)流形。此外,加入了半監(jiān)督方法的 BERT 在原有的基礎(chǔ)上有更好的效果,半監(jiān)督跟預(yù)訓(xùn)練的方法還有結(jié)合互補(bǔ)的潛力。

 

總結(jié)

在深入了解弱監(jiān)管的歷史和發(fā)展之后,我們可以看到這一研究領(lǐng)域的局限性和改進(jìn)潛力。數(shù)據(jù)標(biāo)簽成本總是很昂貴,因?yàn)樾枰I(lǐng)域?qū)I(yè)知識(shí)并且過程非常耗時(shí),尤其是在 NLP 中,文本理解因人而異。但是,我們周圍存在大量(幾乎無限量)未標(biāo)注的數(shù)據(jù),并且可以很容易地提取。

因此,我們始終將持續(xù)利用這種豐富資源視為最終目標(biāo),并試圖改善目前的監(jiān)督學(xué)習(xí)表現(xiàn)。從 ULMFiT 等語言模型到最近的 BERT,遷移學(xué)習(xí)是另一種利用未標(biāo)注數(shù)據(jù)的方法。通過捕獲語言的結(jié)構(gòu),本質(zhì)上是另一種標(biāo)簽形式。在這里,我們建議未來發(fā)展的另一個(gè)方向 - 將遷移學(xué)習(xí)與半監(jiān)督學(xué)習(xí)相結(jié)合,通過利用未標(biāo)注的數(shù)據(jù)進(jìn)一步提高效果。

參考文獻(xiàn)

[1] Blum, A. and Chawla, S. (2001). Learning from Labeled and Unlabeled Data using Graph Mincuts.

[2] Chapelle, O. and Zien, A. (2005). Semi-Supervised Classi?cation by Low Density Separation.

[3] Fujino, A., Ueda, N. and Saito, K. (2006). A Hybrid Generative/Discriminative Classifier Design for Semi-supervised Learing. Transactions of the Japanese Society for Artificial Intelligence, 21, pp.301-309.

[4] Gui, J., Hu, R., Zhao, Z. and Jia, W. (2013). Semi-supervised learning with local and global consistency. International Journal of Computer Mathematics, 91(11), pp.2389-2402.

[5] Jo, H. (2019). ?-training: Simple Semi-Supervised Text Classi?cation using Pretrained Word Embeddings.

[6] Kipf, T. (2017). Semi-Supervised Classification with Graph Convolutional Networks.

[7] Li, Q. (2018). Deeper Insights into Graph Convolutional Networks for Semi-Supervised Learning.

[8] Liu, X., He, P., Chen, W. and Gao, J. (2019). Multi-Task Deep Neural Networks for Natural Language Understanding.

[9] Miyato, T., Maeda, S., Ishii, S. and Koyama, M. (2018). Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, pp.1-1.

[10] NIGAM, K. (2001). Text Classi?cation from Labeled and Unlabeled Documents using EM.

[11] Triguero, I., García, S. and Herrera, F. (2013). Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study. Knowledge and Information Systems, 42(2), pp.245-284.

[12] Zhou, Z. (2017). A brief introduction to weakly supervised learning. National Science Review, 5(1), pp.44-53.

[13] Zhu, X. (2003). Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions.

[14] Zhuanlan.zhihu.com. (2019). [online] Available at: https://zhuanlan.zhihu.com/p/23340343 [Accessed 18 Feb. 2019].

標(biāo)簽: 互聯(lián)網(wǎng) 數(shù)據(jù)分析

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:全面了解大數(shù)據(jù)“三駕馬車”的開源實(shí)現(xiàn)

下一篇:2019年大數(shù)據(jù)發(fā)展將走向何方