對人類來說,對生拇指(opposable thumbs)的出現(xiàn)是一個重大的時刻。那么,如果在進(jìn)化過程中大自然又賜給我們額外的拇指,人類使用工具的能力是否會更強(qiáng)呢?情況可能不會有太大改觀,畢竟一只手有一個拇指就夠了。但對神經(jīng)網(wǎng)絡(luò)而言,并非如此。神經(jīng)網(wǎng)絡(luò)已經(jīng)成為執(zhí)行類人任務(wù)(human-like)的領(lǐng)先AI系統(tǒng)。隨著其規(guī)模越來越大,理解力也隨之增強(qiáng)。這無疑對研究者來說,驚喜與挑戰(zhàn)并存。
基本的數(shù)學(xué)結(jié)果表明,網(wǎng)絡(luò)差不多大就可以了,但現(xiàn)代神經(jīng)網(wǎng)絡(luò)的規(guī)模往往遠(yuǎn)超出預(yù)測需求——這種情況被稱為過度參數(shù)化(over-parameterization)。
一般來說,只要參數(shù)的數(shù)量大于要滿足的方程的數(shù)量,就可以使用參數(shù)化模型類進(jìn)行數(shù)據(jù)插值。
而深度學(xué)習(xí)中一個令人費(fèi)解的現(xiàn)象是,模型的訓(xùn)練參數(shù)比這個經(jīng)典理論所暗示的要多得多。具體而言,求解n個方程一般只需要 n 個未知數(shù)。然而,革命性的深度學(xué)習(xí)方法圍繞著高度參數(shù)化的模型,從 n 個訓(xùn)練數(shù)據(jù)點(diǎn)學(xué)習(xí)的參數(shù)遠(yuǎn)遠(yuǎn)超過 n 個。
NeurIPS 會議上發(fā)表的一篇題為“A Universal Law of Robustness via Isoperimetry”論文中,微軟研究院的 Sébastien Bubeck 和斯坦福大學(xué)的 Mark Sellke 對規(guī)模擴(kuò)展成功背后的奧秘提供了新的解釋:找到一個擬合d維數(shù)據(jù)的平滑函數(shù)至少需要nd參數(shù)。
換句話說,d 因子的過度參數(shù)化對于平滑插值是必要的,這也恰好表明,深度學(xué)習(xí)中使用的大尺寸模型是有用的,而非框架的弱點(diǎn)。而且,神經(jīng)網(wǎng)絡(luò)必須比傳統(tǒng)的預(yù)期要大得多,才能避免某些基本問題。這一發(fā)現(xiàn)為一個持續(xù)了幾十年的問題提供了普適性的見解。
“這是一個非常有趣的數(shù)學(xué)理論結(jié)果。”瑞士洛桑聯(lián)邦理工學(xué)院的Lenka Zdeborová說道。“他們以一種非常普遍的方式證明了這一點(diǎn)。因此,從該意義上說,它將成為計(jì)算機(jī)科學(xué)的核心?!?/strong>
對神經(jīng)網(wǎng)絡(luò)規(guī)模的標(biāo)準(zhǔn)期望,來自于對它們?nèi)绾斡洃洈?shù)據(jù)的分析。但要理解記憶,首要做的是理解網(wǎng)絡(luò)。
神經(jīng)網(wǎng)絡(luò)的一個常見任務(wù)是識別圖像中的物體。為了創(chuàng)建這樣的網(wǎng)絡(luò),首先,研究人員需要提供大量的圖像和標(biāo)簽,以訓(xùn)練其學(xué)習(xí)數(shù)據(jù)之間的相關(guān)性。然后,網(wǎng)絡(luò)將會在所看到的圖像中進(jìn)行正確的識別。換句話說,訓(xùn)練會使網(wǎng)絡(luò)記住數(shù)據(jù)。更值得注意的是,一旦網(wǎng)絡(luò)記住了足夠多的訓(xùn)練數(shù)據(jù),它還能以不同程度的準(zhǔn)確度預(yù)測從未見過的物體標(biāo)簽,即泛化??梢哉f,網(wǎng)絡(luò)的規(guī)模決定了它的記憶量。
這點(diǎn)可以借助圖形的方式加以理解。想象一下,在xy平面上得到了兩個數(shù)據(jù)點(diǎn)。接下來,你可以將這些點(diǎn)與一條由兩個參數(shù)(線的斜率和穿過垂直軸時的高度)描述的線相連接。如果給定其他人這條線,以及其中一個原始數(shù)據(jù)點(diǎn)的x坐標(biāo),那么,他們只需查看這條線(或使用參數(shù))就可以找出相應(yīng)的y坐標(biāo)。因?yàn)?,這條線已經(jīng)記住了這兩個數(shù)據(jù)點(diǎn)。
當(dāng)然,神經(jīng)網(wǎng)絡(luò)與之類似。例如,圖像由數(shù)百或數(shù)千個值描述——每個像素對應(yīng)一個值。構(gòu)成這個組合的自由值,在數(shù)學(xué)上就等價于高維空間中的點(diǎn)的坐標(biāo),而坐標(biāo)的數(shù)量稱為維數(shù)。
一個古老的數(shù)學(xué)結(jié)果表明,要用曲線擬合n個數(shù)據(jù)點(diǎn),需要一個包含n個參數(shù)的函數(shù)。當(dāng)神經(jīng)網(wǎng)絡(luò)在 20 世紀(jì) 80 年代作為一股力量出現(xiàn)時,思考同樣的事情是有意義的。無論數(shù)據(jù)的維度如何,他們應(yīng)該只需要n個參數(shù)來擬合n個數(shù)據(jù)點(diǎn)。
“這不再是將會發(fā)生的事情,”德克薩斯大學(xué)奧斯汀分校的 Alex Dimakis 說?!艾F(xiàn)在,我們常規(guī)地創(chuàng)建神經(jīng)網(wǎng)絡(luò),它的參數(shù)比訓(xùn)練樣本的數(shù)量還要多,這意味著書必須重寫?!?/strong>
他們正在研究神經(jīng)網(wǎng)絡(luò)需要加強(qiáng)的另一種特性——魯棒性,即網(wǎng)絡(luò)處理微小變化的能力。例如,一個魯棒性差的網(wǎng)絡(luò)可能已經(jīng)學(xué)會了識別長頸鹿,但它會將一個幾乎沒有修改的版本錯誤地標(biāo)記為沙鼠。2019 年,在 Bubeck 和同事們意識到這個問題與網(wǎng)絡(luò)規(guī)模有關(guān)時,也試圖進(jìn)行一些與之相關(guān)的定理證明。
據(jù)研究推測,魯棒性法則應(yīng)該適用于所有的兩層神經(jīng)網(wǎng)絡(luò)。在本文中,研究團(tuán)隊(duì)也證明了它實(shí)際上適用于任意光滑參數(shù)化函數(shù)類,只要參數(shù)的大小至多為多項(xiàng)式。而且多項(xiàng)式大小限制對于有界深度神經(jīng)網(wǎng)絡(luò)是必要的。
Bubeck 說:“我們當(dāng)時正在研究對抗的例子,然后網(wǎng)絡(luò)規(guī)模就強(qiáng)行加入了進(jìn)來。于是,我們意識到這或許是一個令人難以置信的機(jī)會,因?yàn)樯婕暗搅私庖?guī)模本身的一系列問題?!?/strong>
在研究過程中,這對搭檔證明了過度參數(shù)化對于網(wǎng)絡(luò)魯棒性的必要程度。隨后,他們通過計(jì)算需要多少個參數(shù)來將數(shù)據(jù)點(diǎn)與具有等同于魯棒性的曲線擬合,得出了平滑性(smoothness)。
為了充分理解該點(diǎn),再次回想平面中的曲線,其中 x 坐標(biāo)表示單個像素的顏色,y 坐標(biāo)表示圖像標(biāo)簽。由于曲線是平滑的,如果對像素顏色稍加修改,沿著曲線移動一小段距離,相應(yīng)的預(yù)測只會發(fā)生很小的變化。另一方面,對于明顯鋸齒狀的曲線,x 坐標(biāo)的微小變化可能誘發(fā)y坐標(biāo)的劇烈變化。
這項(xiàng)研究表明,平滑擬合高維數(shù)據(jù)點(diǎn)并非需要 n 個參數(shù),而是高達(dá) n × d 個參數(shù),其中 d 是輸入的維數(shù)(例如,對于 784 像素的圖像,d 值為 784)。
換句話說,如果你希望網(wǎng)絡(luò)能可靠地記憶其訓(xùn)練數(shù)據(jù),過度參數(shù)化不僅有幫助,而且是強(qiáng)制性的。這一證明依賴于高維幾何的一個奇怪的事實(shí),即在球面上隨機(jī)分布的點(diǎn)彼此之間幾乎都是一個直徑的距離。點(diǎn)之間的巨大間隔意味著用一條平滑的曲線擬合它們,需要許多額外的參數(shù)“這個證明非常簡單——不需要復(fù)雜的數(shù)學(xué)運(yùn)算,而且說明了一些非常普遍的原理,”耶魯大學(xué)的 Amin Karbasi 說。
該結(jié)果提供了一種新穎的方法,以更好地理解為什么簡單的神經(jīng)網(wǎng)絡(luò)擴(kuò)展策略卻如此有效。
除了這次的研究之外,其他相關(guān)的一些研究,也揭示了過度參數(shù)化之所以有用的原因。例如,它可以提高訓(xùn)練過程的效率,以及網(wǎng)絡(luò)的泛化能力。雖然依據(jù)目前所知,過度參數(shù)化對于魯棒性是必要的,但尚不清楚魯棒性對其他事物究竟有多重要。但是,如果能將其與過度參數(shù)化聯(lián)系起來,新的研究便給出了明示,魯棒性極有可能比人們想象的更重要。