中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優(yōu)化算法

2018-12-21    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

NeurIPS (Conference on Neural Information Processing Systems,神經(jīng)信息處理系統(tǒng)進展大會)與ICML并稱為神經(jīng)計算和機器學習領域兩大頂級學術會議。今年為第32屆會議,將于 12月3日至8日在加拿大蒙特利爾舉辦。騰訊AI Lab第三次參加NeurIPS,共20篇論文入選,位居國內(nèi)企業(yè)前列。

騰訊AI Lab對會議的三大熱點——模型壓縮、自動機器學習、機器學習及最優(yōu)化算法相關的23篇論文進行了解讀。

模型壓縮

Model Compression

模型壓縮是近期深度學習領域中一個較為熱門的研究方向,通過對模型的網(wǎng)絡結(jié)構(gòu)或者權(quán)重表示方式進行簡化,在精度損失可控的前提下,降低模型的計算復雜度和參數(shù)規(guī)模,以解決深度學習模型計算效率較低的問題。粗略統(tǒng)計,本屆NIPS有15-20篇模型壓縮相關論文,涵蓋了網(wǎng)絡剪枝、權(quán)重量化、知識蒸餾、精簡網(wǎng)絡結(jié)構(gòu)設計等多個方面。

這次會議的研究中體現(xiàn)出四大特點:一、多種權(quán)重量化算法被提出,同時相應的訓練算法與理論分析也有較多討論;二、遷移學習與知識蒸餾的結(jié)合;三、新型精簡網(wǎng)絡結(jié)構(gòu)的不斷涌現(xiàn);四、模型壓縮的應用推廣至目標檢測、自然語言理解等領域。另外,“精簡深度神經(jīng)網(wǎng)絡及其產(chǎn)業(yè)界應用”研討會(Workshop)環(huán)節(jié)集中探討了近期模型壓縮方向的研究成果以及在實際場景中的應用。我們重點關注了以下文章:

1. 基于敏感度正則化的稀疏神經(jīng)網(wǎng)絡訓練

Learning Sparse Neural Networks via Sensitivity-Driven Regularization

https://nips.cc/Conferences/2018/Schedule?showEvent=11386

本文由都靈理工大學、Nuance Communications公司、巴黎高等電信學院和意大利電信集團合作完成。深度神經(jīng)網(wǎng)絡中的海量參數(shù)使得其難以應用到內(nèi)存有限的場景中,而正則化加剪枝的訓練方式可以使得網(wǎng)絡權(quán)重變得稀疏,以解決這一問題。本文對網(wǎng)絡最終輸出相對于網(wǎng)絡權(quán)重的敏感度進行量化分析,并引入了一個正則化項,以逐步減小低敏感度的網(wǎng)絡權(quán)重的絕對值;谠撍惴ǎ罅康木W(wǎng)絡權(quán)重會逐步收斂為零,從而可以被安全地從網(wǎng)絡模型中刪去。 實驗結(jié)果表明,該算法在權(quán)重稀疏度和模型預測精度方面都超過了現(xiàn)有算法;在部分數(shù)據(jù)集上,當模型預測精度相同時,該算法可以將權(quán)重稀疏度提升至現(xiàn)有算法的兩倍。

 

 

2. 一種高可擴展性的8比特神經(jīng)網(wǎng)絡訓練算法

Scalable Methods for 8-bit Training of Neural Networks

https://nips.cc/Conferences/2018/Schedule?showEvent=11503

本文由Intel和以色列理工學院合作完成。對訓練完畢的網(wǎng)絡模型進行定點量化可以提升模型在推理過程中的計算效率,但是對于如何確定最優(yōu)的量化比特數(shù)以及量化方案尚無定論。本文首先通過理論分析指出,在網(wǎng)絡訓練過程中,除部分特定的操作外,大部分操作對于模型權(quán)重精度的下降并不敏感。基于這一結(jié)論,本文提出對模型權(quán)重、各層特征圖以及梯度信號進行量化,并且維護了兩個量化精度不同的梯度信號,在不損失精度的情況下最大程度地提升計算效率。同時,由于batch normalization層對于量化精度要求更高,本文提出了Range BN層以提升對量化誤差的容忍度。實驗結(jié)果表明,在ImageNet-1K數(shù)據(jù)集上,本文對模型權(quán)重、各層特征圖以及梯度信號進行8比特量化,量化后模型達到了目前最好的預測精度。

 

 

3. 判別力最大化的通道剪枝算法在深度神經(jīng)網(wǎng)絡中的應用

Discrimination-aware Channel Pruning for Deep Neural Networks

https://nips.cc/Conferences/2018/Schedule?showEvent=11109

本文由華南理工大學、阿德萊德大學、德州大學阿靈頓分校和騰訊AI Lab合作完成,F(xiàn)有的通道剪枝算法大多基于稀疏約束進行重新訓練,或者基于預訓練模型進行剪枝后模型的重構(gòu)誤差最小化,存在訓練困難,忽視模型判別力等問題。本文提出了一種判別力最大化的通道剪枝算法,以篩選和保留模型中真正對判別力有貢獻的通道。為實現(xiàn)這一目標,作者引入了額外的判別力損失項,以提高網(wǎng)絡中間各層的判別力,再基于判別力損失項和重構(gòu)誤差項進行各層的通道選擇。實驗表明,在ILSVRC-12數(shù)據(jù)集上,基于該算法剪枝后的ResNet-50模型可以在刪去30%通道的情況下,top-1分類精度比基準模型高0.39%。

 

 

4. 釋義復雜模型:基于因子遷移學習的網(wǎng)絡壓縮

Paraphrasing Complex Network:Network Compression via Factor Transfer

https://nips.cc/Conferences/2018/Schedule?showEvent=11283

本文由國立首爾大學完成。本文提出了一種新的知識蒸餾訓練算法,通過引入額外的卷積層,對參考模型的信息進行解釋與重新組織,從而更好地指導目標模型的訓練。這一過程由兩個卷積模塊共同完成,分別被稱為釋義器(paraphraser)和翻譯器(translator)。釋義器以無監(jiān)督的方式進行訓練,以提取參考模型中的有效信息;翻譯器則位于目標模型中,用于將目標模型中的對應信息進行變換,以擬合參考模型的釋義器所輸出的信息。實驗結(jié)果表明,基于該算法訓練得到的目標模型,在多個數(shù)據(jù)集上的圖像分類和目標檢測任務上,都取得了超過已有知識蒸餾算法的訓練效果。

 

 

5. Moonshine:基于精簡卷積操作的知識蒸餾

Moonshine:Distilling with Cheap Convolutions

https://nips.cc/Conferences/2018/Schedule?showEvent=11295

本文由愛丁堡大學完成。本文提出了一種結(jié)構(gòu)化的模型蒸餾算法以降低模型運行過程中的內(nèi)存開銷。具體地,基于預定義的參考模型的網(wǎng)絡結(jié)構(gòu),經(jīng)過簡單的結(jié)構(gòu)變換,可以得到目標模型的網(wǎng)絡結(jié)構(gòu),從而避免了重新設計目標模型的網(wǎng)絡結(jié)構(gòu),同時也可以直接復用參考模型的超參數(shù)設定。以殘差模型為例,通過對殘差單元中的兩個3x3卷積層進行變換,以分組卷積+跨組混合卷積的結(jié)構(gòu)作為替代,可以顯著降低模型的計算復雜度。變換后得到的目標模型可以基于知識蒸餾和注意力遷移學習算法進行訓練。實驗結(jié)果表明,該算法可以以極低的精度損失,大幅度降低內(nèi)存開銷;同時,相比于直接訓練目標模型,知識蒸餾訓練機制的引入可以明顯提升目標模型的預測精度。

 

 

6. 基于在線自我集成的知識蒸餾

Knowledge Distillation by On-the-Fly Native Ensemble

https://nips.cc/Conferences/2018/Schedule?showEvent=11723

本文由倫敦瑪麗女王大學和Vision Semantics公司合作完成。知識蒸餾常被用于訓練低復雜度、高泛化能力的模型,但是離線知識蒸餾算法往往需要一個高精度的預訓練模型作為參考,并且訓練過程需要分為兩個階段進行,而在線知識蒸餾算法不能有效地構(gòu)造一個高精度的參考模型。本文提出了一種在線自我集成的知識蒸餾算法,以實現(xiàn)單階段的在線蒸餾。具體地,該算法訓練了一個多分支的網(wǎng)絡,在線地構(gòu)造參考模型以提升目標模型的預測精度。實驗結(jié)果表明,該算法在多個數(shù)據(jù)集上,對于各種網(wǎng)絡結(jié)構(gòu)均取得了一致的性能提升,同時訓練效率更高。

7. ChannelNet:基于逐通道卷積的高效卷積神經(jīng)網(wǎng)絡

ChannelNets:Compact and Efficient Convolutional Neural Networks via Channel-Wise Convolutions

https://nips.cc/Conferences/2018/Schedule?showEvent=11508

本文由德克薩斯A&M大學完成。本文提出了一種逐通道卷積操作,以取代CNN模型中特征圖之間的稠密連接關系;谶@一逐通道卷積操作,作者提出了ChannelNet這一輕量級的網(wǎng)絡結(jié)構(gòu)。ChannelNet中采用了三個類型的逐通道卷積操作,分別是:分組逐通道卷積、深度可分逐通道卷積以及全卷積分類層。與之前常用于移動端的CNN模型(包括SqueezeNet、MobileNet和ShuffleNet)相比,ChannelNet在性能無損的前提下顯著降低了模型的參數(shù)量與計算開銷。下圖中,(a)是深度可分卷積,(b)是將深度可分卷積中的1x1卷積替換為分組1x1卷積,(c)是本文提出的分組逐通道卷積(以融合各組信息),(d)是本文提出的深度可分逐通道卷積。

 

 

8. Pelee:一種基于移動端設備的實時目標檢測系統(tǒng)

Pelee:A Real-Time Object Detection System on Mobile Devices

https://nips.cc/Conferences/2018/Schedule?showEvent=11208

本文由西安大略大學完成。為實現(xiàn)深度學習模型在移動端設備上的部署,研究者們提出了一系列精簡網(wǎng)絡結(jié)構(gòu),包括MobileNet、ShuffleNet和NASNet-A等,但是此類模型嚴重依賴于深度可分卷積,而這一卷積操作在大多數(shù)深度學習框架中沒有較好的高效實現(xiàn)。針對這一問題,本文基于傳統(tǒng)的卷積操作,構(gòu)建了PeleeNet這一高效網(wǎng)絡結(jié)構(gòu)。PeleeNet可以看作是DenseNet的一個變種,采用了類似的連接模型和設計思想。具體地,PeleeNet中采用了雙卷積通道和名為stem block的初始卷積單元,同時動態(tài)地調(diào)整瓶頸層中的通道數(shù)量以節(jié)省計算開銷,并對SSD模型的網(wǎng)絡結(jié)構(gòu)進行優(yōu)化,與PeleeNet結(jié)合,實現(xiàn)了在移動端設備上的實時目標檢測。

 

 

自動機器學習

Auto Machine Learning

自動機器學習(AutoML)是機器學習中最近興起的重要分支。它主要是指,把機器學習在現(xiàn)實問題上的應用過程自動化的技術。在一個典型的機器學習應用中,實踐者必須人工去做特征預處理、算法選擇、網(wǎng)絡結(jié)構(gòu)設計(如果選擇了深度學習算法)、超參調(diào)節(jié),以求最大化模型性能。這其中的很多步驟都超出了非算法專家的能力,所以自動機器學習被提出來將這些步驟自動化。自動機器學習,使得機器學習在實際問題的應用中變得更為容易,也更容易得到一些可以超越手工設計模型性能的新模型。初略統(tǒng)計本屆NIPS有20余篇自動機器學習相關論文,涵蓋貝葉斯優(yōu)化、網(wǎng)絡結(jié)構(gòu)搜索、以及遷移學習等多個方面。

這次會議的研究中體現(xiàn)了三大特點:一、研究上開始解決更為復雜的任務(例如,語義分割)的網(wǎng)絡結(jié)構(gòu)搜索;二、小領域之間開始了融合,比如出現(xiàn)了用貝葉斯優(yōu)化(傳統(tǒng)上用于超參優(yōu)化)來解決網(wǎng)絡結(jié)構(gòu)搜索的技術研究;三、其他非自動機器學習領域的技術開始被更多地應用過來,例如遷移學習。

1. 為稠密圖像預測搜索高效多規(guī)模結(jié)構(gòu)

Searching for Efficient Multi-Scale Architectures for Dense Image Prediction

https://nips.cc/Conferences/2018/Schedule?showEvent=11831

神經(jīng)網(wǎng)絡結(jié)構(gòu)設計是許多機器學習系統(tǒng)在很多任務上最先進性能的關鍵組件。許多工作都致力于通過將巧妙構(gòu)建的搜索空間和簡單的學習算法結(jié)合來自動設計和構(gòu)建神經(jīng)網(wǎng)絡結(jié)構(gòu)。最近的進展表明,這種元學習方法在圖像分類問題上可以取得超出人類設計的神經(jīng)網(wǎng)絡的性能。一個懸而未決的問題是這些方法在其他領域中能夠取得什么樣的性能。在這項工作中,我們關注密集圖像預測的元學習技術的構(gòu)建,重點是場景解析,人體分割和語義圖像分割的任務。由于視覺信息的多尺度性以及圖像的高分辨率,在密集圖像預測任務上進行合適的網(wǎng)絡結(jié)構(gòu)搜索是十分具有挑戰(zhàn)性的;趯γ芗瘓D像預測技術的調(diào)查,我們構(gòu)建了一個遞歸搜索空間,并證明即使使用有效的隨機搜索,我們也可以找出出優(yōu)于人類設計的網(wǎng)絡結(jié)構(gòu),并在三個密集預測上實現(xiàn)最先進的性能任務:其中包括在Cityscapes(街景解析)數(shù)據(jù)集上取得82.7%的準確度,在PASCAL-Person-Part(人體分割)上71.3%的準確度,以及在PASCAL VOC 2012(語義圖像分割)87.9%的準確度。另外,我們模型得到的網(wǎng)絡結(jié)構(gòu)在計算上更有效,跟現(xiàn)有的技術相比僅需要一半的參數(shù)和一半的計算力。

 

 

2. 神經(jīng)結(jié)構(gòu)優(yōu)化

Neural Architecture Optimization

https://nips.cc/Conferences/2018/Schedule?showEvent=11750

自動神經(jīng)網(wǎng)絡結(jié)構(gòu)設計已經(jīng)顯示出其在發(fā)現(xiàn)強大的神經(jīng)網(wǎng)絡架構(gòu)方面的潛力。無論是基于強化學習還是進化算法(EA)的現(xiàn)有技術都是在離散空間中進行搜索。這是非常低效的。在本文中,我們提出了一種簡單有效的基于連續(xù)優(yōu)化的自動神經(jīng)網(wǎng)絡結(jié)構(gòu)設計方法。我們將這種新方法稱為神經(jīng)結(jié)構(gòu)優(yōu)化(NAO)。我們提出的方法有三個關鍵組成部分:(1)編碼器將神經(jīng)網(wǎng)絡架構(gòu)映射到連續(xù)空間中(2)預測器將網(wǎng)絡的連續(xù)表示作為輸入并預測其準確性(3)解碼器將網(wǎng)絡的連續(xù)表示映射回其架構(gòu)。性能預測器和編碼器使我們能夠在連續(xù)空間中執(zhí)行基于梯度優(yōu)化,以找到具有更高精度的新架構(gòu)的表達。然后,解碼器將這種更好的嵌入解碼到網(wǎng)絡。實驗表明,我們的方法發(fā)現(xiàn)的體系結(jié)構(gòu)對于CIFAR-10上的圖像分類任務和PTB上的語言建模任務具有很強的競爭力,優(yōu)于或者與先前的網(wǎng)絡結(jié)構(gòu)搜索方法的最佳結(jié)果相當,并且計算資源顯著減少。具體來說,我們在CIFAR-10圖像分類任務的測試集上的錯誤率為2.07%和在PTB語言建模任務測試集perplexity為55.9。在上述兩個任務上發(fā)現(xiàn)的最佳體系結(jié)構(gòu)可以被遷移到其他諸如CIFAR-100和WikiText-2等數(shù)據(jù)集合。此外,通過使用最近人們提出的權(quán)重共享機制,我們的模型可以在有限計算資源條件下(單一GPU訓練10小時)在CIFAR-10(錯誤率為3.53%)和PTB(測試集perplexity為56.3)上取得不錯的結(jié)果。

 

 

3. 利用貝葉斯優(yōu)化和最優(yōu)運輸做神經(jīng)結(jié)構(gòu)搜索

Neural Architecture Search with Bayesian Optimisation and Optimal Transport

https://nips.cc/Conferences/2018/Schedule?showEvent=11214

貝葉斯優(yōu)化是指一類用于對黑盒函數(shù)f進行全局優(yōu)化的方法,其中對于f我們只能得到其在某些點處的評估值。這種方法通常應用于f的評估代價非常昂貴時,在機器學習中的一個應用情形是模型選擇。由于模型的泛化性能是很難分析的,所以我們一般利用帶噪音和高昂的訓練、驗證程序去選擇最好的模型。傳統(tǒng)的貝葉斯優(yōu)化方法集中在歐式和類別數(shù)據(jù)的領域,所以它在模型選擇中只能用來對機器學習模型調(diào)節(jié)超參。但是,隨著對深度學習的興趣的激增,調(diào)節(jié)網(wǎng)絡結(jié)構(gòu)的需求也在快速增長。在本文中,我們設計了一個名為NASBOT的算法,一個基于高斯過程來做網(wǎng)絡結(jié)構(gòu)搜索的貝葉斯優(yōu)化框架。為了實現(xiàn)這個目標,我們針對神經(jīng)網(wǎng)絡結(jié)構(gòu)空間設計了一個可以通過最優(yōu)運輸程序高效計算的度量。這個度量對于深度學習社區(qū)可能還有在貝葉斯優(yōu)化之外的其他用處。我們在幾個基于交叉驗證的多層感知器和卷積神經(jīng)網(wǎng)絡模型選擇問題上,展示了NASBOT可以超越其他網(wǎng)絡結(jié)構(gòu)搜索的替代方案。

 

 

4. 利用傅里葉特征的高效高維貝葉斯優(yōu)化

Efficient High Dimensional Bayesian Optimization with Additivity and Quadrature Fourier Features

https://nips.cc/Conferences/2018/Schedule?showEvent=11859

我們針對高維的黑盒函數(shù)優(yōu)化設計了一個高效的貝葉斯優(yōu)化算法。我們假設了一個可重疊變量組的廣義可加模型。當變量組之間不重疊時,我們可以為高維貝葉斯優(yōu)化提供第一個可以證明的多項式時間算法。為了使得優(yōu)化高效和可行,我們引入一個新的基于數(shù)值積分的確定性的傅里葉特征逼近,并為平方指數(shù)核提供了詳細的分析。這個逼近的錯誤隨著特征的個數(shù)指數(shù)衰減,并且可以對后驗均值和方差給出精確逼近。另外,核矩陣的逆的計算復雜度從數(shù)據(jù)點個數(shù)的立方減少到線性。

 

 

5. 帶有一個未知高斯過程先驗的元貝葉斯優(yōu)化的后悔上界

Regret bounds for meta Bayesian optimization with an unknown Gaussian process prior

https://nips.cc/Conferences/2018/Schedule?showEvent=11991

貝葉斯優(yōu)化通常假設一個貝葉斯先驗是提前給定的。但是,由于先驗里未知的參數(shù),在貝葉斯優(yōu)化里的強理論保證經(jīng)常是在實踐里是達不到的。在這篇文章中,我們采用了一個經(jīng)驗貝葉斯的變體并且展示了,通過用相同先驗里抽取的離線數(shù)據(jù)來估計高斯過程先驗并構(gòu)造后驗的無偏估計,基于置信上界和提升概率的變體都可以達到一個接近零的后悔上界。該后悔上界隨著離線數(shù)據(jù)個數(shù)和在線評估個數(shù)的增加,可以衰減到一個與觀察噪音成比例的常數(shù)。實驗上,我們在很有挑戰(zhàn)的模擬機器人問題處理和運動規(guī)劃上成功驗證了所提的方法。

 

 

6. 為貝葉斯優(yōu)化最大化獲得函數(shù)

Maximizing acquisition functions for Bayesian optimization

https://nips.cc/Conferences/2018/Schedule?showEvent=11938

貝葉斯優(yōu)化是一個主要依賴于獲得函數(shù)來引導搜索過程的,用于全局優(yōu)化的高效抽樣方法。對獲得函數(shù)進行完全最大化就產(chǎn)生了貝葉斯決策規(guī)則,但是由于這些獲得函數(shù)通常都是很難優(yōu)化的,所以這個理想很難實現(xiàn)。尤其當并行評估幾個詢問時,由于獲得函數(shù)是非凸、高維和棘手的,最大化獲得函數(shù)就更加難以實現(xiàn)了。為此,我們利用了蒙特卡洛積分的可微性和并行詢問的子模性,提出兩個新的用于最大化獲得函數(shù)的方法。

 

 

7. 用于自動化機器學習的概率矩陣分解

Probabilistic Matrix Factorization for Automated Machine Learning

https://nips.cc/Conferences/2018/Schedule?showEvent=11337

為了達到頂尖的性能,現(xiàn)代機器學習技術需要仔細的數(shù)據(jù)預處理和超參調(diào)節(jié)。此外,由于研發(fā)的機器學習模型的個數(shù)的增長,模型選擇也變得越來越重要。自動化機器學習的選擇和調(diào)節(jié),一直以來都是機器學習社區(qū)的研究目標之一。在本文中,我們提出通過組合協(xié)同過濾和貝葉斯優(yōu)化的想法來解決這個元學習的任務。具體來說,我們通過概率矩陣分解利用在數(shù)百個不同數(shù)據(jù)上的實驗,然后利用獲得函數(shù)來指導對可能的機器學習流程空間的探索。在我們的實驗里,我們展示了我們的方法可以在很多數(shù)據(jù)上快速確認高性能的流程,并可以顯著地超越目前的頂尖方法。

 

 

8. 可擴展的超參遷移學習

Scalable Hyperparameter Transfer Learning

https://nips.cc/Conferences/2018/Schedule?showEvent=11660

貝葉斯優(yōu)化(BO)是一種針對例如超參優(yōu)化等無梯度黑盒函數(shù)優(yōu)化問題的基于模型的方法。通常來說,貝葉斯優(yōu)化依賴于傳統(tǒng)的高斯過程回歸,然而傳統(tǒng)的高斯過程的算法復雜度是評價測試數(shù)目的立方級。因此,基于高斯過程的貝葉斯優(yōu)化不能夠利用大量過去評價測試的經(jīng)驗作為熱啟動。在本文中,我們提出了一種多任務的自適應的貝葉斯線性回歸模型來解決該問題。值得注意的是,該模型僅是評價測試數(shù)目的線性復雜度。在該模型中,每個黑盒函數(shù)優(yōu)化問題(任務)都以一個貝葉斯線性回歸模型來建模,同時多個模型通過共享一個深度神經(jīng)網(wǎng)絡進行耦合,從而實現(xiàn)遷移學習。實驗表明該神經(jīng)網(wǎng)絡可以學到一個適合熱啟動黑盒優(yōu)化問題的特征表示,并且當目標黑盒函數(shù)和其他相關信號(比如訓練損失)一起學習的時候,貝葉斯優(yōu)化可以變快。該模型被證明至少比最近發(fā)表的相關黑盒優(yōu)化文獻快了至少一個數(shù)量級。

 

 

9. 利用神經(jīng)自動機器學習的遷移學習

Transfer Learning with Neural AutoML

https://nips.cc/Conferences/2018/Schedule?showEvent=11799

在本文中,我們通過遷移學習減小神經(jīng)網(wǎng)絡AutoML的計算代價。AutoML通過自動化機器學習算法以減少人的干預。盡管神經(jīng)網(wǎng)絡AutoML因可以自動設計深度學習網(wǎng)絡的結(jié)構(gòu)最近非常流行,但是其計算成本巨大。為了解決該問題,我們提出了基于遷移學習的神經(jīng)網(wǎng)絡AutoML,以充分利用之前任務上學習到的知識來加快網(wǎng)絡結(jié)構(gòu)設計。我們擴展了基于增強學習的網(wǎng)絡結(jié)構(gòu)搜索方法以支持多個任務上的并行訓練,并將得到的搜索策略遷移到新的任務上。在自然語言及圖像分類的任務上,該方法將單任務訓練的收斂時間減少了至少一個數(shù)量級。

 

 

機器學習與最優(yōu)化算法

Optimization For Learning

眾所周知,機器學習與最優(yōu)化算法之間的關系密不可分。在機器學習建模的過程中,會出現(xiàn)各式的極小值優(yōu)化模型。在學習參數(shù)的過程中,會使用到各種各樣的最優(yōu)化算法。機器學習算法和最優(yōu)化算法以及它們的交叉,歷年都是研究的熱點。在本次nips收錄的文章中,同樣出現(xiàn)了大量的機器學習的模型建立以及模型訓練算法設計的工作。

1. Adaptive Methods for Nonconvex Optimization

https://papers.nips.cc/paper/8186-adaptive-methods-for-nonconvex-optimization.pdf

本文由google research 和 卡內(nèi)基梅隆大學合作完成。 本文證明,通過增加batch-size,ADAM和RMSProp可以保證全局收斂性質(zhì);诖,文中也提出了一類新的訓練深度神經(jīng)網(wǎng)絡的自適應隨機梯度算法YOGI。通過增加batch-size,同樣證明了YOGI的全局收斂性并且通過實驗驗證了YOGI比ADAM具有更快的訓練速度和更高的測試精度。 注意到,本文的作者曾從理論層面指出了ADAM和RMSProp是發(fā)散的,并因此獲得ICLR2018 Best Paper Award。

 

 

Figure1. ADAM和YOGI的算法框架對比

 

 

Figure2. ResNet在CIFAR10數(shù)據(jù)集上的測試精度對比

 

 

Figure3. 在深度自動編解碼模型上, YOGI和ADAM訓練損失和測試損失對比圖

2. Spider: Near-Optimal Non-Convex Optimization via Stochastic Path Integrated Differential Estimator

https://papers.nips.cc/paper/7349-spider-near-optimal-non-convex-optimization-via-stochastic-path-integrated-differential-estimator.pdf

本文由北京大學和騰訊AI Lab合作完成。本文的主要貢獻主要在理論層面,文中提出了尋找非凸隨機優(yōu)化的一階和二階穩(wěn)定點的算法SPIDER。 文中證明SPIDER算法的計算復雜度在當前求解非凸隨機優(yōu)化算法中是最優(yōu)的。 另外文中采用的一種全新的計算復雜度的分析技巧,該技巧具有很強的可移植性,可以應用到其他很多的隨機優(yōu)化算法的分析中。

 

 

Figure1. SPIDER算法框架

 

 

Figure2. 不同算法的計算復雜度對比圖

3. Escaping Saddle Points in Constrained Optimization

https://papers.nips.cc/paper/7621-escaping-saddle-points-in-constrained-optimization.pdf

本文由麻省理工學院獨立完成。針對帶約束的非凸光滑優(yōu)化問題 , 本文提出了一類通用的求解算法框架,并且首次證明了該算法框架可以逃離約束非凸優(yōu)化問題的鞍點。值得說明的是,本文是第一個提出能求夠逃離約束非凸優(yōu)化問題鞍點的算法。

 

 

 

 

4. Online Adaptive Methods, Universality and Acceleration

https://papers.nips.cc/paper/7885-online-adaptive-methods-universality-and-acceleration.pdf

本文由蘇黎世聯(lián)邦理工學院和洛桑聯(lián)邦理工學院合作完成。本文提出一類新的自適應隨機梯度算法來AcceleGrad求解無約束隨機凸優(yōu)化問題。AcceleGrad算法中采用了新穎的加權(quán)自適應學習率估計策略和Nesterov加速策略來提高效率。作者理論上證明了該算法能夠達到最優(yōu)的計算復雜度。另外,作者從實驗上說明了AcceleGrad算法的優(yōu)越性。

 

 

Figure 1. AcceleGrad 算法框架

 

 

Figure2. AcceleGrad 算法與SGD和AdaGrad的效果對比圖。

5. Multi-Task Learning as Multi-Objective Optimization

https://papers.nips.cc/paper/7334-multi-task-learning-as-multi-objective-optimization.pdf

本文由Intel實驗室獨立完成。多任務學習問題通常建模成為一個極小化問題,其中這個優(yōu)化問題的損失函數(shù)為多個任務的損失函數(shù)的線性組合。在本文中,作者創(chuàng)造性的將多任務學習直接建模成為一個多目標優(yōu)化問題,

 

 

并且提出了一類求解上述多目標優(yōu)化問題的梯度型算法。最后,作者通過實驗上說明了基于多目標優(yōu)化的多任務學習算法的優(yōu)越性。

 

 

Figure1. 多目標優(yōu)化問題的梯度型算法框架

 

 

Figure2. 不同算法的效果對比圖(越小越好)

6. Semidefinite relaxations for certifying robustness to adversarial examples

https://papers.nips.cc/paper/8285-semidefinite-relaxations-for-certifying-robustness-to-adversarial-examples.pdf

本文由斯坦福大學獨立完成。神經(jīng)網(wǎng)絡的攻防是近年的研究熱點。本文基于最優(yōu)化中的半正定松弛技巧來確定神經(jīng)網(wǎng)絡對攻擊樣本的防御能力。文中提出的半正定松弛技術驗證任意的ReLU神經(jīng)網(wǎng)絡的防御魯棒性,并且從理論上說明了文中采取的半正定松弛技術比線性規(guī)劃松弛技術更加精準,從而得到更好的魯棒性估計。

 

 

Figurre1. 不同的松弛技巧的松弛效果對比圖

 

標簽: Google ssd 安全 搜索 推廣 網(wǎng)絡

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:手把手教你用Python創(chuàng)建簡單的神經(jīng)網(wǎng)絡(附代碼)

下一篇:如何為數(shù)據(jù)集構(gòu)建圖像重復查找器?(附代碼)