深度學(xué)習(xí)是泡沫嗎?何時會破?
有人在 Quora 上問了一個匪夷所思的問題:“深度學(xué)習(xí)的泡沫何時會破?”在短短的十幾個小時內(nèi),該問題就得到了 18 個回應(yīng),而且每個回應(yīng)都頗有深度。下面的內(nèi)容翻譯自吳恩達和微軟數(shù)據(jù)科學(xué)家 Tim Scarfe 對該問題的回應(yīng)。
吳恩達:
在 100 多年前也曾經(jīng)出現(xiàn)過有關(guān)電力的炒作,但那個所謂的泡沫到現(xiàn)在都沒有破,相反,我們現(xiàn)在根本離不開電力!
深度學(xué)習(xí)為我們帶來了很多價值,它被廣泛應(yīng)用在多個領(lǐng)域,如 Web 搜索、廣告、語音識別、推薦系統(tǒng)等,所以毫無疑問,這項技術(shù)會與我們同在。深度學(xué)習(xí)技術(shù)與其他人工智能工具(圖像模型、智能決策、KR 等)的結(jié)合正在改變著我們的各行各業(yè),它的影響力將不僅限于技術(shù)行業(yè)。
然而,在技術(shù)社區(qū)之外,人們對”情感人工智能“似乎給予了過多的期望。我與一些 CEO 聊過這方面的問題,他們把人工智能當(dāng)成解決技術(shù)問題的靈丹妙藥??磥?,在深度學(xué)習(xí)方面確實存在一些泡沫,我希望這些泡沫在變大之前就破掉,越快越好。
Tim Scarfe(微軟數(shù)據(jù)科學(xué)家,機器學(xué)習(xí)博士):
我感覺深度學(xué)習(xí)比預(yù)想的要更加普及。深度學(xué)習(xí)為預(yù)測技術(shù)帶來了變革,而且在序列建模(如自然語言處理、語音識別)、局部空間處理(如計算機視覺)和增強學(xué)習(xí)方面具備無以倫比的性能。
在很多情況下,深度學(xué)習(xí)算法的性能相比之前的“頻率學(xué)派”算法有了階段性的進步。在擁有大數(shù)據(jù)集的情況下,執(zhí)行關(guān)鍵性預(yù)測任務(wù)的性能優(yōu)勢尤為明顯。
上圖展示了 ImageNet 計算機視覺檢測技術(shù)的快速發(fā)展,其中包括 2012 年 Alex Krizhevsky 使用他的卷積神經(jīng)網(wǎng)絡(luò)擊敗了前作。今年,一個來自中國的團隊將錯誤率降低到了 2.2%,看來這場競賽似乎要告一段落了。
我們也看到過去 8 年多在語言處理和語音識別方面出現(xiàn)了類似的進步。今年,微軟通過基于 CNN 和雙向 LSTM 的架構(gòu)實現(xiàn)了語音識別的 human parity。
人們常說這些要歸因于過去 10 年的數(shù)據(jù)大爆炸和計算大爆炸。實際上,這些大爆炸就是性能得到大幅提升的主要推動力,而人工神經(jīng)網(wǎng)絡(luò)不過是一項古老的技術(shù)。我不認(rèn)為我們會在這兩方面停下腳步,不是嗎?
不過我想說的是,這不僅僅是一次思維的轉(zhuǎn)型,或僅僅是一種全新的編程方式。
1.更少地強調(diào)特征提取
在古老的頻率學(xué)派架構(gòu)里,數(shù)據(jù)科學(xué)家需要掌握一些領(lǐng)域知識來完成特征提取。所有的算法都用來解決優(yōu)化問題,這些問題與特征是混雜在一起的。這并不是說深度學(xué)習(xí)架構(gòu)就不包含領(lǐng)域知識,圖像的 CNN 模型局部空間依賴和 RNN 模型臨時依賴不就是嗎?關(guān)鍵的差異在于,NN 模型會自己學(xué)習(xí)表征層次,而這些表征在很多情況下可以很好地工作。
2.新奇預(yù)測(novel prediction)架構(gòu)
我想,我們現(xiàn)在的優(yōu)勢是可以在一個框架內(nèi)搭建出一個端到端的新奇預(yù)測架構(gòu),而且可以很快地訓(xùn)練模型,并在云端操作模型。
在以前,我們需要回歸和分類算法,而現(xiàn)在我們使用預(yù)測架構(gòu)。
上面的圖片展示了物體的分割和局部化網(wǎng)絡(luò)——Mask R-CNN。請留意我們是如何使用 CNN 來檢測圖像特征的,我們有一個區(qū)域提議網(wǎng)絡(luò)(region proposal network)和該區(qū)域內(nèi)的掩膜回歸(mask regression),它們都處于同一個網(wǎng)絡(luò)內(nèi)。任何一個熟悉深度學(xué)習(xí)工具包和云端人工智能訓(xùn)練平臺(如微軟 Azure)的人都可以重現(xiàn)、訓(xùn)練和操作這些東西。
深度學(xué)習(xí)實際上是一種新型的編程模式,也被稱為“可微編程(differentiable programming)”。
3.創(chuàng)新架構(gòu)正在出現(xiàn)
這個可以參考 GAN 或混合專家(Mixture of Experts)模型。
4.業(yè)界在擁抱深度學(xué)習(xí)和創(chuàng)新
微軟和谷歌已經(jīng)在他們的云端安裝了一些硬件來加速深度學(xué)習(xí),也因為深度學(xué)習(xí)與生俱來的靈活預(yù)測架構(gòu),得到了廣泛的應(yīng)用。這一領(lǐng)域或許有點炒作過度了,但對于創(chuàng)新來說是一件好事,因為每個人都被調(diào)動起來了,變革的速度在加快。
5.超越深度學(xué)習(xí)
我并不認(rèn)為我們剩下的只有深度學(xué)習(xí)。我個人相信基于模型的貝葉斯機器學(xué)習(xí)可能會回歸,因為它可以在有效數(shù)據(jù)不足的情況下對真實世界的領(lǐng)域知識進行建模,而深度學(xué)習(xí)需要大量的數(shù)據(jù)!