技驚四座的BERT全靠數(shù)據(jù)集？大模型霸榜或許是學(xué)界的災(zāi)難

2019-07-23 來(lái)源：raincent

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

作為 2018 年自然語(yǔ)言處理領(lǐng)域的新秀，BERT 是過(guò)去幾年自然語(yǔ)言處理(NLP)領(lǐng)域的集大成者，一經(jīng)出場(chǎng)就技驚四座，碾壓所有算法，刷新了 11 項(xiàng) NLP 測(cè)試的最高紀(jì)錄，甚至有「超越人類」的表現(xiàn)，它被認(rèn)為是未來(lái) NLP 研究和工業(yè)應(yīng)用最為主流的語(yǔ)言模型之一。

然而最近臺(tái)灣國(guó)立成功大學(xué)的一篇論文卻給人們潑了冷水。這一研究認(rèn)為，BERT 至少在 ARCT 任務(wù)上利用了不正常的統(tǒng)計(jì)線索。正是這些統(tǒng)計(jì)線索，BERT 才能獲得極好的效果，如果在不改變?cè)瓟?shù)據(jù)的情況下去除不正常的線索，BERT 甚至不如隨機(jī)猜測(cè)。

此言一出，立即引發(fā)了機(jī)器學(xué)習(xí)社區(qū)的強(qiáng)烈反響，在研究社區(qū)中有人評(píng)價(jià)道：「我非常喜歡這篇論文，它用簡(jiǎn)單有效的方式表明這些模型沒(méi)有被正確地『理解』，并且只使用了簡(jiǎn)單的(錯(cuò)誤的)統(tǒng)計(jì)線索。我認(rèn)為大多數(shù)人(可能除了伊隆·馬斯克)都很清楚，這就是 BERT 模型所做的事情。然而，目前有關(guān) BERT 在少量標(biāo)簽情況下的改進(jìn)版仍層出不窮�！�

毫無(wú)疑問(wèn)，BERT 的研究很有價(jià)值，但目前的一些基準(zhǔn)測(cè)試可能已被證明并沒(méi)有效果。當(dāng)我們看到 BERT「解決」了一些任務(wù)的消息時(shí)，看起來(lái)就像我們已經(jīng)解決了 NLP 問(wèn)題，這些事件已經(jīng)形成了浮夸的風(fēng)氣，值得我們擔(dān)憂。

首先，是時(shí)候重新審視一下當(dāng)今的 NLP Benchmark 現(xiàn)狀了。

NLP 是如此活躍的一個(gè)開(kāi)發(fā)領(lǐng)域，其熱度的不斷增加離不開(kāi)各種排行榜：這些排行榜是多個(gè)共享任務(wù)、基準(zhǔn)系統(tǒng)的核心，如 GLUE 基準(zhǔn)以及 SQUAD、AllenAI 等單獨(dú)的數(shù)據(jù)集。這些排行榜激發(fā)了工程團(tuán)隊(duì)之間的競(jìng)爭(zhēng)，幫助其開(kāi)發(fā)出更好的模型來(lái)解決人類自然語(yǔ)言處理問(wèn)題。但事實(shí)真的是這樣嗎?麻省大學(xué)博士后 Anna Rogers 就這一現(xiàn)象表達(dá)了她的觀點(diǎn)。

排行榜有什么錯(cuò)?

通常來(lái)講，NLP 領(lǐng)域的排行榜都是下圖這個(gè)樣子：

網(wǎng)上和學(xué)術(shù)論文中的排行榜(將所提出的模型和基準(zhǔn)模型進(jìn)行對(duì)比)都遵循以上這種格式。

如今，用模型的測(cè)試性能來(lái)評(píng)估其是否新穎或有趣是遠(yuǎn)遠(yuǎn)不夠的，但排行榜恰恰展示的只有這一點(diǎn)。由于深度學(xué)習(xí)的范圍如此之廣，充滿各種不同的架構(gòu)，因此很難找出標(biāo)準(zhǔn)方法來(lái)衡量模型參數(shù)、訓(xùn)練數(shù)據(jù)等額外信息。在論文中，這些細(xì)節(jié)有時(shí)寫在方法部分，有時(shí)出現(xiàn)在附錄或 GitHub repo 的評(píng)論里，或者直接就沒(méi)有提。在那些在線排行榜中，每個(gè)系統(tǒng)的細(xì)節(jié)也只能從論文鏈接(若有的話)或 repo 的代碼中找到。

在這個(gè)越發(fā)忙碌的世界里，如果不是為了評(píng)審和復(fù)現(xiàn)，我們中有多少人會(huì)真正去找這些細(xì)節(jié)呢?這些簡(jiǎn)單的排行榜已經(jīng)提供了我們最關(guān)心的信息，即哪些是最新的 SOTA。我們通常懶得思考，不會(huì)去批判性地接收這些信息，即使在提醒很快出現(xiàn)的時(shí)候也會(huì)選擇忽略。如果我們不得不積極地去找到這些警示信號(hào)……好吧，根本不可能。冠軍模型在 twitter 上爆紅，可能還會(huì)在盲審中得到一些好處。

這種 SOTA 至上方法的危害也引發(fā)了很多討論。如果讀者眼里只有排行榜，那研究者就會(huì)認(rèn)為：只有擊敗 SOTA 才是有價(jià)值的研究。這樣的想法帶來(lái)了一大批水論文，它們的性能提升非常有限，而且很多無(wú)法復(fù)現(xiàn)(Crane, 2018)。這也給那些做同樣任務(wù)的研究者帶來(lái)了一些問(wèn)題，他們的模型沒(méi)有達(dá)到 SOTA，因此會(huì)覺(jué)得連論文都沒(méi)必要寫。

GLUE 基準(zhǔn)當(dāng)前排名，上面每一個(gè)模型成本都非常大，基本不是一般研究者能復(fù)現(xiàn)的。

本文旨在探討排行榜最近帶來(lái)的另一個(gè)問(wèn)題。其成因非常簡(jiǎn)單：從根本上來(lái)說(shuō)，模型性能的提升可能基于多個(gè)原因，要么是從可用的數(shù)據(jù)中構(gòu)建了更好的表征，要么只是用了更多的數(shù)據(jù)或更深的網(wǎng)絡(luò)。問(wèn)題是，如果一個(gè)模型用了更多的數(shù)據(jù)/計(jì)算，我們就很難找出其性能提升的真正原因。

最流行的排行榜現(xiàn)在由基于 Transformer 的模型占據(jù)。在橫掃各大排行榜數(shù)月之后，BERT 在 NAACL 2019 大會(huì)上獲得了最佳論文獎(jiǎng)。最近，XLNet 又后來(lái)者居上，在 20 項(xiàng)任務(wù)上碾壓 BERT，成為新的預(yù)訓(xùn)練模型 SOTA。其他的 Transformers 模型還包括 GPT-2、ERNIE 等。

問(wèn)題在于：這些模型都很大。雖然代碼是開(kāi)源的，但復(fù)現(xiàn)這些結(jié)果或創(chuàng)造可與之匹敵的模型所需的算力不是一般實(shí)驗(yàn)室可以承擔(dān)的。例如，XLNet 的訓(xùn)練 token 達(dá)到了 32B，需要使用 128 個(gè) Cloud TPU 訓(xùn)練 2 天，費(fèi)用超過(guò) 6.14 萬(wàn)美元。單單只是微調(diào)模型也非常昂貴。

這樣的排行榜真的還 OK?

但一方面，這一趨勢(shì)看起來(lái)又是可預(yù)測(cè)，甚至是必然的：擁有較多資源的用戶會(huì)想法設(shè)法利用更多資源來(lái)實(shí)現(xiàn)更好的性能。有人甚至認(rèn)為大模型證明了自身的可擴(kuò)展性，并實(shí)現(xiàn)了深度學(xué)習(xí)與生俱來(lái)的潛力，即能夠基于更多信息學(xué)習(xí)到更復(fù)雜的模式。沒(méi)有人知道解決特定 NLP 任務(wù)時(shí)到底需要多少數(shù)據(jù)，但數(shù)據(jù)越多應(yīng)該效果越好，并且限制數(shù)據(jù)似乎會(huì)適得其反。

從此觀點(diǎn)來(lái)看——從現(xiàn)在開(kāi)始，似乎只有業(yè)界才能做頂層 NLP 研究。學(xué)者們只能通過(guò)獲得更多資助或與高性能計(jì)算中心合作來(lái)提升自己的參與度。此外，他們還可以轉(zhuǎn)向分析，在業(yè)界提供的大模型之上構(gòu)建一些東西或者創(chuàng)建數(shù)據(jù)集。

但是，就 NLP 的整體進(jìn)展而言，這或許不是最好的選擇。

為什么「大模型+排行榜=災(zāi)難」?

簡(jiǎn)單來(lái)講，大模型的主要問(wèn)題在于：「更多數(shù)據(jù)和計(jì)算帶來(lái)的 SOTA 結(jié)果」并不是真正的研究進(jìn)展(「More data & compute = SOTA」is NOT research news)。

排行榜的目的在于顯示真正的進(jìn)步，那么我們需要著眼于提出新架構(gòu)。很明顯，大型預(yù)訓(xùn)練模型是珍貴的，但是除非作者證明他們的系統(tǒng)在使用同等規(guī)模數(shù)據(jù)和算力時(shí)性能優(yōu)于其他模型，否則很難判斷他們展示的是模型還是資源。

此外，該研究相當(dāng)程度上是不可復(fù)現(xiàn)的：沒(méi)人會(huì)花 6.14 萬(wàn)美元復(fù)現(xiàn) XLNet 訓(xùn)練。其控制變量測(cè)試表明 XLNet 在 3 個(gè)數(shù)據(jù)集上的性能僅比 BERT 高出 1-2%，因此我們實(shí)際上并不清楚其 masking 策略是否比 BERT 更成功。

同時(shí)，學(xué)習(xí)器模型的開(kāi)發(fā)并未被推動(dòng)，因?yàn)槠涿媾R的基礎(chǔ)任務(wù)更難，而看重排行榜的社區(qū)只關(guān)注 SOTA。這最后會(huì)讓學(xué)術(shù)團(tuán)隊(duì)付出代價(jià)，學(xué)生畢業(yè)時(shí)可能無(wú)法成為更好的工程師。

最后，大型深度學(xué)習(xí)模型通常過(guò)參數(shù)化。例如，BERT 的較小版本在大量語(yǔ)法測(cè)試實(shí)驗(yàn)中的得分高于大型版本。深度學(xué)習(xí)模型需要大量算力這件事本身并不一定是壞事，但浪費(fèi)算力對(duì)環(huán)境是沒(méi)有益處的。

BERT 不過(guò)是統(tǒng)計(jì)擬合

除了對(duì)數(shù)據(jù)與算力的質(zhì)疑，臺(tái)灣國(guó)立成功大學(xué)的研究者近日發(fā)表了一篇新論文，他們重新探討了神經(jīng)網(wǎng)絡(luò)在理解自然語(yǔ)言中的作用。研究者首先發(fā)現(xiàn) BERT 在 Argument Reasoning Comprehension Task 中性能極好，且只比人類基線水平低 3 個(gè)百分點(diǎn)。但是進(jìn)一步研究卻發(fā)現(xiàn)，該結(jié)果只是利用數(shù)據(jù)集中的統(tǒng)計(jì)線索得出。所以如果針對(duì)這些線索做個(gè)對(duì)抗數(shù)據(jù)集，那么模型的效果不會(huì)比隨機(jī)猜強(qiáng)多少。

論文：Probing Neural Network Comprehension of Natural Language Arguments

論文地址：https://arxiv.org/pdf/1907.07355.pdf

這項(xiàng)研究是在論證推理理解(ARCT)這一任務(wù)上測(cè)試的，這種任務(wù)還是挺難的，例如簡(jiǎn)單的論證「今天會(huì)下雨，所以要帶傘�！梗鼭撛诘那疤峒础噶軡袷遣缓玫摹�。而 ARCT 避免直接理解潛在前提，并將重心放在了推斷上，如下所示為 ARCT 任務(wù)的一個(gè)數(shù)據(jù)點(diǎn)：

ARCT 測(cè)試集中的一個(gè)樣本，模型需要從 Reason 和 Warrant 推斷出 Claim。例如「我們可以選擇不使用谷歌，且其它搜索引擎也不會(huì)重定向到谷歌，那么谷歌就不是寡頭壟斷」。

BERT 這樣的預(yù)訓(xùn)練模型能在該數(shù)據(jù)集上獲得 77% 的準(zhǔn)確率，只比正常人類基線水平低三個(gè)百分點(diǎn)。如果沒(méi)有足夠的通用知識(shí)，它能獲得這么好的效果是不科學(xué)的，因此研究者繼續(xù)探索 BERT 在該任務(wù)中學(xué)到了什么。

這種探索也不是這篇論文開(kāi)啟的，先前已經(jīng)有很多研究試圖探索 BERT 的決策過(guò)程。但研究者發(fā)現(xiàn) BERT 會(huì)搜索 warrant 中的線索詞，例如 not 等。這也就表明，BERT 如此優(yōu)秀的性能都將歸功于探索一些「?jìng)巍菇y(tǒng)計(jì)線索。

如果我們?nèi)⊥普摰哪娣衩}，那么就有可能去除這些不正常的統(tǒng)計(jì)線索，也就能構(gòu)建對(duì)抗樣本了。在這樣的的對(duì)抗數(shù)據(jù)集上，BERT 只能實(shí)現(xiàn) 53% 的準(zhǔn)確率，差不多是隨機(jī)猜測(cè)的概率了。此外，因?yàn)楹芏嗄Ｐ蛯?shí)際上也都在發(fā)現(xiàn)這樣的不正常統(tǒng)計(jì)線索，該對(duì)抗數(shù)據(jù)集能作為更多的度量方法。如下所示為上面 ARCT 案例的對(duì)抗樣本：

我們只需要按照邏輯改變「Not」之類的詞，模型就解決不了了。BERT 在這樣的對(duì)抗數(shù)據(jù)集只能獲得如下效果：

從這樣的實(shí)驗(yàn)結(jié)果可以看出，BERT 這類模型很大程度上都在擬合某些不正常的統(tǒng)計(jì)線索。但毋庸置疑的是，BERT 的擬合建模能力還是非常強(qiáng)的，遠(yuǎn)遠(yuǎn)超過(guò)了 BiLSTM 之類的模型。研究者在最后表示，除了 GLUE 這樣的基準(zhǔn)，對(duì)抗數(shù)據(jù)集也應(yīng)該被采用為標(biāo)準(zhǔn)的度量方法，并為模型性能提供更魯棒的評(píng)估標(biāo)準(zhǔn)。

可能的解決方案

對(duì) NLP 排行榜的追捧正將我們置于危險(xiǎn)的境地，它讓我們放棄了可復(fù)現(xiàn)性的目標(biāo)，只看到谷歌的某個(gè)模型在幾個(gè)月之后超越了另一個(gè)模型。為了避免這種情況再次發(fā)生，排行榜需要做出改變。

大體上有兩種可能的解決方案：

對(duì)于某一特定任務(wù)而言，我們應(yīng)該可以提供一個(gè)標(biāo)準(zhǔn)的訓(xùn)練語(yǔ)料庫(kù)，并將計(jì)算量限制在強(qiáng)大基線模型所使用的范圍內(nèi)。如果基線類似于 BERT，這將激勵(lì)研究者進(jìn)一步開(kāi)發(fā)能夠更好利用資源的模型。如果一個(gè)系統(tǒng)利用預(yù)訓(xùn)練表征(詞嵌入、BERT 等)，則最后得分應(yīng)該將預(yù)訓(xùn)練數(shù)據(jù)的大小考慮進(jìn)來(lái)。

對(duì)于像 GLUE 這樣的一整組任務(wù)而言，我們可以令參與者使用他們想要的所有數(shù)據(jù)和計(jì)算，但需要將它們考慮進(jìn)最后得分之中。排行榜不應(yīng)只體現(xiàn)模型相對(duì)于基線的性能提升，還應(yīng)列出其利用的資源量。

這兩種方法都需要一種可靠的方式來(lái)估測(cè)算力消耗，至少可以是任務(wù)組織者估計(jì)的推理時(shí)間。Aleksandr Drozd(RIKEN CCS)認(rèn)為最好的方法是僅報(bào)告 FLOP 計(jì)數(shù)，這在 PyTorch 和 TensorFlow 等框架中已經(jīng)可以實(shí)現(xiàn)。我們或許也可以為接收深度學(xué)習(xí)模型的共享任務(wù)建立通用的服務(wù)，在一批數(shù)據(jù)上訓(xùn)練一個(gè) epoch，為研究人員提供估測(cè)數(shù)字。

評(píng)估訓(xùn)練數(shù)據(jù)也不是一個(gè)簡(jiǎn)單的任務(wù)：純文本語(yǔ)料庫(kù)的價(jià)值應(yīng)該低于帶注釋的語(yǔ)料庫(kù)或 Freebase。這或許是可以進(jìn)行測(cè)量的。例如，非結(jié)構(gòu)化數(shù)據(jù)應(yīng)該可被估測(cè)為原始 token 計(jì)數(shù) N、aN 這樣的增強(qiáng)/解析數(shù)據(jù)和 N^2 這樣的結(jié)構(gòu)化數(shù)據(jù)作為索引。

與上述相反的一個(gè)論點(diǎn)是，某些模型本身可能需要比其他模型更多的數(shù)據(jù)，且只有在大規(guī)模實(shí)驗(yàn)中才能獲得合理的評(píng)估。但即使在這種情況下，一篇令人信服的論文也需要展示新模型能夠比其他模型更好地利用大量數(shù)據(jù)，我們也需要對(duì)所有模型在相同的數(shù)據(jù)上做多輪訓(xùn)練。

近幾個(gè)月來(lái)，我們不斷看到 NLP 領(lǐng)域的新進(jìn)展，每隔幾個(gè)月都會(huì)出現(xiàn)更新、更強(qiáng)大的模型，實(shí)現(xiàn)不切實(shí)際的結(jié)果。但每當(dāng)人們開(kāi)始檢視數(shù)據(jù)集的時(shí)候就會(huì)發(fā)現(xiàn)：其實(shí)這些模型根本沒(méi)有學(xué)到任何知識(shí)。我們是時(shí)候從模型優(yōu)化的工作上后退一步，仔細(xì)研究這些數(shù)據(jù)集，以及它們的真正意義了。

參考內(nèi)容：

https://hackingsemantics.xyz/2019/leaderboards/

https://arxiv.org/abs/1907.07355

標(biāo)簽： BERT 數(shù)據(jù)集機(jī)器學(xué)習(xí)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:智慧城市大數(shù)據(jù)可視化系統(tǒng)設(shè)計(jì)心得

下一篇:大數(shù)據(jù)你需要了解的陰暗面

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

技驚四座的BERT全靠數(shù)據(jù)集？大模型霸榜或許是學(xué)界的災(zāi)難