站長資訊平臺

深度學習在CV領域已觸及天花板？

2019-07-23 來源：raincent

隨著深度學習研究的不斷深入，越來越多的領域應用到了深度學習。但是，深度學習取得成功的同時，也不可避免地遭受到越來越多的質(zhì)疑，特別是在CV領域。本文沒有對他人的觀點直接做出批判，而是從深度學習的本質(zhì)出發(fā)，探討它的優(yōu)勢以及相關局限性，最后對深度學習可能的應對方法和未來展開討論。本文作者為王子嘉，帝國理工學院人工智能碩士在讀。

1. 深度學習從未停止前進

圖像數(shù)據(jù)的特征設計，即特征描述，在過去一直是計算機視覺(Computer Vision, CV)頭痛的問題，而深度學習在計算機視覺領域的興起使得這一領域不再需要很多的人為干預，大大降低了對專業(yè)知識的需求(見下圖)。對應的，圍繞著深度學習開始出現(xiàn)大量的炒作，這樣的炒作使得很多人開始對深度學習產(chǎn)生懷疑，但是同樣不得忽視的是深度學習在計算機視覺任務上已經(jīng)獲得的大量成功。

(圖源：https://trantorinc.com/blog/top-computer-vision-trends-2019/)

CNN 從 AlexNet 之后，新模型以肉眼可見的速度在增長，比較經(jīng)典的如 LeNet(1998)、AlexNet(2012)、ZF-net(2013)、GoogleNet(2014)、VGG(2014)、ResNet(2015);2014 年提出的 GAN 更是一個里程碑式的突破。但近年來，CV 領域雖然新論文不斷，但更多的是在填前人挖好的坑(改進模型)，比如 2018 的 BigGAN 以及今年的的 Mask Scoring RCNN 等，都沒有引起很大的轟動。相比之下，NLP 繼 BERT 之后又出現(xiàn)了 XLNet，就顯得熱鬧的多。對應的，對于 Deep Learning 在 CV 領域是否觸頂?shù)馁|(zhì)疑聲也開始變得更加強烈。

對此問題，本文不會做直接評判，而是首先簡單介紹什么是 Deep Learning，再介紹 Deep Learning 的優(yōu)勢，然后介紹當下較為主流的對于 Deep Learning 的批判，最后兩個部分會對 Deep Learning 可能的應對方法和未來展開討論。

1.1 什么是深度學習

想要了解什么是深度學習，最簡單的方法莫過于打開一個深度學習課程或者入門書籍，看一下它的目錄，就大概了解深度學習包括什么了。本文引用 Lecun 在 2015 年曾經(jīng)給深度學習下過的定義——深度學習方法由多個層組成，用于學習具有多個等級的數(shù)據(jù)特征。所以有些學者也把深度學習叫做分級學習(Hierarchical Learning)。

如今的深度學習不只是本文在開頭提及的 Deep CNN，它還包括 Deep AE(AutoEncoder，如 Variational Autoencoders, Stacked Denoising Autoencoders, Transforming Autoencoders 等)、R-CNN(Region-based Convolutional Neural Networks，如 Fast R-CNN，F(xiàn)aster R-CNN，Mask R-CNN，Multi-Expert R-CNN 等)、Deep Residual Networks(如 Resnet，ResNeXt)、Capsule Networks、GAN(Generative Adversarial Network) 等，以及 RNN、LSTM 等處理用于處理序列類數(shù)據(jù)的 Recurrent 類模型。

1.2 深度學習的優(yōu)勢

深度學習之所以能在 CV 領域火起來，除了本文開頭提及的減少了特征提取的麻煩外，還有其他的優(yōu)勢。比如它是端到端模型;訓練中的特征提取器，甚至于訓練出的模型都可以用于其他任務;它可以獲得相較于傳統(tǒng)方法更好的效果;同時它還是由極其簡單的組件組成的。本文將就這幾個優(yōu)勢分別進行闡述。

自動特征提取

計算機視覺領域的主要研究重點是從數(shù)字圖像中檢測和提取有用的特征。這些特征提供了圖像的大量信息，并且可以直接影響到最后任務的效果。因此過去出現(xiàn)了很多很優(yōu)秀的手動的特征提取器，比如尺度不變特征變換(SIFT)，Gabor 濾波器和定向梯度直方圖(HOG)等，它們也一直是特征提取的計算機視覺焦點，并取得了很好的效果。

而深度學習的優(yōu)勢在于它做到了直接從大型圖像數(shù)據(jù)集中自動學習復雜且有用的特征，可以從神經(jīng)網(wǎng)絡模型的提供的圖像中學習并自動提取各種層次的特征。舉個很簡單的例子，當把深度神經(jīng)網(wǎng)絡的每一層中提取到的特征畫出來，最底層可能提取的是輪廓類的特征，而最高層可能提取的就是最基本的線條類的特征。而現(xiàn)在各種比賽(如 ILSVRC)和標準集中從復雜的人工特征檢測器(如 SIFT)向深度卷積神經(jīng)網(wǎng)絡過渡就很好的證明深度學習網(wǎng)絡的確很好的解決了這一問題。

端到端(end-to-end)

端到端模型解決了 CV 中需要使用模塊的任務的問題。這類任務中每個模塊都是針對特定任務而設計的，例如特征提取，圖像對齊或分類任務。這些模塊都有自己的輸入輸出，模塊的一端是原始圖像，另一端就是這個模塊的輸出，當然深度學習模型也可以作為這些模塊中的一部分。然后這些模塊組成一個整體，從而完成最后的任務。

但是深度學習模型自己也可以完成整個任務(端到端)，它可以只使用一個模型，這個模型同時包含多個模塊(比如特征提取和分類)，這樣使得其可以直接在原始圖像上訓練并進行圖像分類。這種端到端的方法也有取代傳統(tǒng)方法的趨勢。比如在物體檢測和人臉識別中，這種端到端的模型就會同時訓練多個模塊的輸出(如類和邊界框)和新?lián)p失函數(shù)(如 contrastive 或 triplet loss functions)從而得到最終的模型。

模型遷移

深度神經(jīng)網(wǎng)絡一般會在比傳統(tǒng)數(shù)據(jù)集大得多的數(shù)據(jù)集(數(shù)百萬乃至數(shù)十億張圖片)上訓練。這允許模型學習到所有照片的普遍特征和特征的層次結(jié)構。這一點被很多人注意到，并提出了遷移學習的概念，這個概念也在一定程度上緩解了深度學習對數(shù)據(jù)的依賴。

更好的效果

深度學習帶給 CV 最大的好處就是它所具有的更好的性能。深度神經(jīng)網(wǎng)絡性能的顯著提高正是深度學習領域迅速發(fā)展的催化劑。比如前文提到的 Alex Net 就以 15.8% 的 top-5 錯誤率獲得了 2012 年 ILSVRC 的冠軍，而當年的第二名卻有 26.2% 的錯誤率。而這些模型也很快應用在 CV 的各個領域，并解決了很多曾經(jīng)很難解決的問題

簡單的組件

我們可以發(fā)現(xiàn) CV 領域里大部分優(yōu)秀的深度學習網(wǎng)絡都是基于相同的元素——卷積層和 Pooling 層，并將這些元素進行不同的組合。卷積網(wǎng)絡是一種專門處理網(wǎng)格結(jié)構數(shù)據(jù)的網(wǎng)絡，并可以將這些模型進行擴展。目前看來，這種方法已經(jīng)在二維圖像上取得了不小的成功。

2. 深度學習的局限性

盡管深度學習有很多優(yōu)勢，也取得了不小的成績，但是也有很多局限性導致其在前幾年的飛速發(fā)展后似乎進入了一個瓶頸期。Gary Marcus 曾經(jīng)說過，深度學習是貪婪，脆弱，不透明和淺薄的。這些系統(tǒng)很貪婪，因為它們需要大量的訓練數(shù)據(jù);它們是脆弱的，因為當神經(jīng)網(wǎng)絡應用在一些不熟悉的場景時，面對與訓練中使用的示例不同的場景，它并不能很好的完成任務;它們是不透明的，因為與傳統(tǒng)的可調(diào)試代碼不同，神經(jīng)網(wǎng)絡的參數(shù)只能根據(jù)它們在數(shù)學中的權重來解釋，因此，它們是黑盒子，其輸出很難解釋;它們是淺薄的，因為它們的訓練缺乏先天知識，對世界沒有常識。

貪婪

前文中提到過深度學習的一大優(yōu)勢就是當你給你的網(wǎng)絡更多的數(shù)據(jù)時，相應的你也會獲得更好的結(jié)果。但是如果把這句話反過來說，這個優(yōu)勢就變成了問題——想要獲得更好的結(jié)果，你就需要大量的標注數(shù)據(jù)。

脆弱

當下的深度學習網(wǎng)絡在做分類的時候，很難輸出一個百分百肯定的結(jié)果，這也就意味著網(wǎng)絡并沒有完全理解這些圖片，只能通過各種特征的組合來完成大概的預測。而不管我們用來訓練的圖片庫有多大，都是有限的，從而有些圖片是沒有在我們的訓練庫內(nèi)的(對抗樣本)，這些圖片很可能跟我們已有的圖片具有極其類似的特征，從而出現(xiàn)下圖中將對抗樣本完全分錯類的情況。

(圖源：[3])

可以想象，一輛自動駕駛汽車可以行駛數(shù)百萬英里，但它最終會遇到一些沒有經(jīng)驗的新事物;一個機器人可以學會拿起一個瓶子，但如果讓他拿起一個杯子，它就得從頭學起。

同時，當在圖片中摻雜一些人類不可見的噪音，或是對背景進行一些改變，都可能會讓模型的預測出錯。下圖就是一個改變背景的例子，從下圖可以看出，當背景物品從自行車變?yōu)榧螅@只猴子被預測成了一個人，這大概是因為模型在訓練的時候認為人比猴子要更可能有一把吉他。

(圖源：https://thegradient.pub/the-limitations-of-visual-deep-learning-and-how-we-might-fix-them/)

最后，深度學習大多是基于卷積的，卷積可以很好的處理二維圖像，但是對三維圖像的處理效果卻不甚理想。

不透明

深度學習說到底還是一個數(shù)學模型，雖然本源是來自于人類的大腦的工作機制，但是還是無法真的理解這個模型的各個參數(shù)的含義，從而導致整個深度學習網(wǎng)絡成為了一個黑盒模型，除了一些超參以外，很難進行內(nèi)部的調(diào)參。

淺薄

當下的深度學習網(wǎng)絡大部分傾向于表征學習，而非真正的智能，很依賴于其訓練數(shù)據(jù)，很難從有限的數(shù)據(jù)中學習到全局的東西;同時在一些不斷變化的情景下，這些網(wǎng)絡也很難有很好的表現(xiàn)。換句話說，這些網(wǎng)絡缺少「創(chuàng)造力」和「想象力」。

3. 深度學習的應對

仔細觀察上述缺點的話，不難發(fā)現(xiàn)深度學習目前能解決的就是數(shù)據(jù)的問題，而至于其「智能」的問題，可能需要一個新的框架來實現(xiàn)了。本文剩下的部分主要陳述深度學習為了解決上述缺陷而興起的部分領域，以及這些領域較新的論文與進展。

數(shù)據(jù)合成

為了解決數(shù)據(jù)問題，最簡單也最直接的方法就是合成更多的數(shù)據(jù)。在過去的一年中，數(shù)據(jù)合成一直是計算機視覺研究的一個巨大趨勢。它們由人工生成，可以用來訓練深度學習模型。例如，SUNCG 數(shù)據(jù)集可以用于模擬室內(nèi)環(huán)境，Cityscapes 數(shù)據(jù)集用于駕駛和導航，合成人的 SURREAL 數(shù)據(jù)集用于學習姿勢估計和跟蹤。

除了這些數(shù)據(jù)集，還有一些論文也在就如何更好的使用合成數(shù)據(jù)以及如何更好的合成數(shù)據(jù)做出研究：

這篇聚焦于數(shù)據(jù)質(zhì)量的論文 [5] 在 Auto City 數(shù)據(jù)集上進行實驗，最終證明分割任務的效果確實與生成標記所花費的時間量密切相關，但與每個標簽的質(zhì)量無關;[9] 使用了一個利用合成預想來訓練的多任務深度網(wǎng)絡，使得特征學習可以從不同的信息源中學習，極大減少了標注數(shù)據(jù)所需的時間;[13] 提出了一種基于合成數(shù)據(jù)訓練的實物檢測系統(tǒng)。

遷移學習

遷移學習現(xiàn)在在 CV 領域很受歡迎，簡單的說，遷移學習就是在一個很大的數(shù)據(jù)庫上對模型進行預訓練，再將這個預訓練過的模型用于其他任務上，有點類似于 NLP 中的 Word Embedding。

(圖源：https://trantorinc.com/blog/top-computer-vision-trends-2019/)

舉個例子，假設你有一個經(jīng)過訓練的 ML 模型 A 來識別動物的圖片，你可以用 A 來訓練識別狗的圖片的模型 D。就數(shù)據(jù)而言，訓練 D 需要向 A 添加一些額外的層，但是大大減少了訓練 D 所需的數(shù)據(jù)量。

遷移學習是一個很大的領域，最近發(fā)表的與遷移學習相關的論文也很多，本文只挑選幾篇較新且已發(fā)表的的論文進行簡單介紹：

[7] 中提出了基于不完整實例的對抗模仿學習——Action-Guided Adversarial Imitation Learning (AGAIL)，它在基本的 GAN 中(Generator + Discriminator 的組合)加入了一個 guide，從而達到從不完整實例中學習的目的;[8] 中提出了兩種提升 CNN 表征泛化度的方法，其中一種依賴于分類學知識，另一種是利用微調(diào)進行重訓練，并提出了一種衡量遷移學習泛化度的集成方法;[14] 雖然還沒經(jīng)過 peer-review，但是其使用 GAN 進行化妝遷移的想法很具有啟發(fā)性，不同于傳統(tǒng)的 GAN，本文使用了兩個編碼器，一個身份編碼器(identity encoder)和一個化妝風格編碼器(Makeup encoder)，并使用一個解碼器將兩個編碼器的輸出重建成人臉，最后還有一個鑒別器來鑒別人臉的真假。

3D 對象理解

前文說過，當前的卷積層和 Pooling 層在二維數(shù)字圖像中有很好的應用，但是 3D 對象理解對于深度學習系統(tǒng)成功解釋和現(xiàn)實世界導航至關重要。例如，網(wǎng)絡可能能夠在街道圖像中定位汽車，為其所有像素著色，并將其分類為汽車。但它是否真的了解圖像中的汽車相對于街道中的其他物體的位置?

為此深度學習專家們提出了可以準確地表示物體在空間中的位置的點云(point cloud)。點云是 3D 空間中的一組數(shù)據(jù)點。簡單地說，物體表面上的每個點都有三維坐標(X，Y，Z)，稱為點云。其中，PointNet++ [4] 就是一種很好的利用點云的深度學習模型。

除了點云，[11] 延伸了 2017 年出現(xiàn)的 Mask R-CNN，提出一種 3D Mask R-CNN 架構，它使用時空卷積來提取特征并直接識別短片中的姿勢。完整的架構如下所示。它在姿勢估計和人體追蹤方面實現(xiàn)了當前最優(yōu)結(jié)果。

(圖源自論文)

[12] 提出了一種行人重識別(person re-identification)的新方法，這個問題一般是通過基于檢索的方法來解決的，即求導查詢圖像與來自某個嵌入空間的存儲圖像之間的相似度度量，而本文中的框架將姿勢信息直接嵌入到 CNN 中，并設計了一個新的無監(jiān)督重排序方法。完整的框架如下圖所示，其中 Baseline Architecture 使用的是 ResNet-50，同時一個簡單的 View Predictor 與 Baseline Architecture 一起提供了姿態(tài)信息作為后面的輸入。

(圖源自論文)

域適應(Domain Adaptation)

嚴格來說，域適應應該也算遷移學習的一種，不過上文提到的遷移學習主要說的是樣本遷移。域適應的目的其實跟數(shù)據(jù)合成類似，都是為了得到更多的有標注數(shù)據(jù)。簡單來說，就是用任務 A 的數(shù)據(jù)來為任務 B 準備數(shù)據(jù)，或者說是將這個數(shù)據(jù)改造成適合任務 B 的數(shù)據(jù)。

舉一個例子，利用相似性學習的無監(jiān)督域適應 [1] 使用對抗性網(wǎng)絡來處理域適應。作者使用一個網(wǎng)絡從有標記源中提取特征，又利用另一個網(wǎng)絡從未標記的目標域中提取特征，這些特征的數(shù)據(jù)分布相似但不同。為了標記來自目標域的圖像，作者將圖像的嵌入與來自源域的原型圖像的嵌入進行比較，然后將最近鄰居的標簽分配給它。另一個域適應的例子是 [15]，文中提出了一種圖像到圖像的轉(zhuǎn)換，主要用了 3 種主要技術：(i)domain-agnostic feature extraction(無法區(qū)分領域的特征的提取)，(ii)domain-specific reconstruction(嵌入可以被解碼回源域和目標域)，和(iii)cycle consistency(正確學習映射)。從根本上來說，這個方法的目的就是找到從源數(shù)據(jù)分布到目標數(shù)據(jù)分布的映射結(jié)構。

除了上面的例子，最近 [10] 也提出了一種利用 Bayesian 來做域適應的方法。

(圖源：[1])

4. 總結(jié)

由本文可見，當下深度學習有自己的優(yōu)勢，也有一定的局限性，而深度學習專家們也在盡力解決這些局限性。對于深度學習的未來，我相信除了它自己的改進外，它也會在一些新興領域如 NLP 與 CV 結(jié)合的產(chǎn)物——Visual Question Answering(VQA)中大放異彩。當然，未來也很有可能會出現(xiàn)更加智能的模型來代替現(xiàn)在的深度學習模型。

References

[1] Pedro Oliveira Pinheiro. Unsupervised domain adaptation with similarity learning. CoRR, abs/1711.08995, 2017.

[2] Matiur Rahman Minar and Jibon Naher. Recent advances in deep learning: An overview. CoRR, abs/1807.08169, 2018. [3] Alan L. Yuille and Chenxi Liu. Deep nets: What have they ever done for vision? CoRR, abs/1805.04025, 2018.

[4] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J. Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. CoRR, abs/1706.02413, 2017.

[5] Aleksandar Zlateski, Ronnachai Jaroensri, Prafull Sharma, and Fr´edo Durand. On the importance of label quality for semantic segmentation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.

[6] Artidoro Pagnoni, Stefan Gramatovici, and Samuel Liu. PAC learning guarantees under covariate shift. CoRR, abs/1812.06393, 2018.

[7] Mingfei Sun and Xiaojuan Ma. Adversarial imitation learning from incomplete demonstrations. CoRR, abs/1905.12310, 2019.

[8] Y. Tamaazousti, H. Le Borgne, C. Hudelot, M. E. A. Seddik, and M. Tamaazousti. Learning more universal representations for transferlearning. IEEE Transactions on Pattern Analysis and Machine Intelligence, pages 1–1, 2019.

[9] Zhongzheng Ren and Yong Jae Lee. Cross-domain self-supervised multitask feature learning using synthetic imagery. CoRR, abs/1711.09082, 2017.

[10] Jun Wen, Nenggan Zheng, Junsong Yuan, Zhefeng Gong, and Changyou Chen. Bayesian uncertainty matching for unsupervised domain adaptation. CoRR, abs/1906.09693, 2019.

[11] Rohit Girdhar, Georgia Gkioxari, Lorenzo Torresani, Manohar Paluri, and Du Tran. Detect-and-track: Efficient pose estimation in videos. CoRR, abs/1712.09184, 2017.

[12] M. Saquib Sarfraz, Arne Schumann, Andreas Eberle, and Rainer Stiefelhagen. A pose-sensitive embedding for person re-identification with expanded cross neighborhood re-ranking. CoRR, abs/1711.10378, 2017.

[13] Jonathan Tremblay, Aayush Prakash, David Acuna, Mark Brophy, Varun Jampani, Cem Anil, Thang To, Eric Cameracci, Shaad Boochoon, and Stan Birchfield. Training deep networks with synthetic data: Bridging the reality gap by domain randomization. CoRR, abs/1804.06516, 2018.

[14] Honglun Zhang, , Wenqing Chen, Hao He, and Yaohui Jin. Disentangled makeup transfer with generative adversarial network. CoRR, abs/1804.06516, 2019.

[15] Zak Murez, Soheil Kolouri, David J. Kriegman, Ravi Ramamoorthi, and Kyungnam Kim. Image to image translation for domain adaptation. CoRR, abs/1712.00479, 2017.

標簽：深度學習人工智能

版權申明：本站文章部分自網(wǎng)絡，如有侵權，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:解讀Apache Flink狀態(tài)生存時間特性：如何自動清理應用程序狀態(tài)？

下一篇:Spark和Hadoop的架構區(qū)別解讀

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

深度學習在CV領域已觸及天花板？

深度學習在CV領域已觸及天花板？