

曠視科技孫劍團隊首次披露AutoML相關(guān)成果,通過構(gòu)建一個簡化的超網(wǎng)絡(luò)來解決訓(xùn)練過程中面對的主要挑戰(zhàn)。在在ImageNet上的實驗結(jié)果超過了谷歌、Facebook等AutoML技術(shù)的成績。
曠視首次曝光自家AutoML技術(shù)。
今天,曠視科技首席科學(xué)家孫劍團隊發(fā)布論文Single Path One-Shot Neural Architecture Search with Uniform Sampling,首次披露AutoML中的重要子領(lǐng)域神經(jīng)結(jié)構(gòu)搜索的最新成果——單路徑One-Shot模型。

單路徑One-Shot模型用來解決訓(xùn)練過程中面對的主要挑戰(zhàn),其核心思想是構(gòu)建一個簡化的超網(wǎng)絡(luò)——單路徑超網(wǎng)絡(luò)(Single Path Supernet),這個網(wǎng)絡(luò)按照均勻的路徑采樣方法進(jìn)行訓(xùn)練,在ImageNet上的實驗證明,這一方法在精度、內(nèi)存消耗、訓(xùn)練時間、模型搜索的有效性及靈活性方面結(jié)果最優(yōu),超過了谷歌、Facebook等公司AutoML技術(shù)的成績。
設(shè)計神經(jīng)網(wǎng)絡(luò)非常耗費時間,并且需要專業(yè)知識,幾年前谷歌創(chuàng)建了AutoML的方法,通常使用強化學(xué)習(xí)或進(jìn)化算法來設(shè)計新的神經(jīng)網(wǎng)絡(luò)架構(gòu),也證明神經(jīng)網(wǎng)絡(luò)可以設(shè)計神經(jīng)網(wǎng)絡(luò)。
論文的作者之一、曠視上海研究院負(fù)責(zé)人危夷晨表示,深度學(xué)習(xí)是非常通用的技術(shù),但在實際落地時會面臨在不同行業(yè)、不同場景、不同計算設(shè)備上尋找最優(yōu)算法和工程實現(xiàn)的問題。自動神經(jīng)網(wǎng)絡(luò)搜索是用“計算換智能”的新范式,可以極大地加速我們的產(chǎn)品及解決方案在各行業(yè)的落地。
單路徑One-Shot模型:模型搜索框架的新變體
深度學(xué)習(xí)終結(jié)了手工設(shè)計特征的時代,同時解決了權(quán)重優(yōu)化問題。NAS(神經(jīng)網(wǎng)絡(luò)模型搜索)則旨在通過另一個方法——模型搜索(architecture search),終結(jié)人工設(shè)計架構(gòu)。
早期的NAS方法使用嵌套式優(yōu)化,從搜索空間采樣出模型結(jié)構(gòu),接著從頭訓(xùn)練其權(quán)重,缺點是對于大型數(shù)據(jù)集來講計算量過大。新近的NAS方法則采用權(quán)重共享策略減少計算量。本文提出的超網(wǎng)絡(luò)則包含所有子結(jié)構(gòu),只訓(xùn)練一次,所有子結(jié)構(gòu)便可以直接從超網(wǎng)絡(luò)獲得其權(quán)重,無需從頭訓(xùn)練。即使在大型數(shù)據(jù)集上,計算也十分高效。
大多數(shù)權(quán)重共享方法使用連續(xù)的搜索空間,將模型結(jié)構(gòu)分布不斷參數(shù)化。這些參數(shù)在超網(wǎng)絡(luò)訓(xùn)練期間與網(wǎng)絡(luò)權(quán)重進(jìn)行聯(lián)合優(yōu)化。因此可以在優(yōu)化時進(jìn)行模型搜索,從分布中采樣最優(yōu)的架構(gòu)。其公式化表示優(yōu)雅而理論完備。但是存在兩個問題:
第一,超網(wǎng)絡(luò)的權(quán)重深度耦合。目前尚不清楚為什么特定結(jié)構(gòu)的復(fù)用權(quán)重(inherited weights)依然有效。
第二,聯(lián)合優(yōu)化導(dǎo)致了模型參數(shù)和超網(wǎng)絡(luò)權(quán)重的進(jìn)一步耦合。梯度方法的貪婪天性不可避免地在結(jié)構(gòu)分布和超網(wǎng)絡(luò)權(quán)重中引入偏差。這很容易誤導(dǎo)模型搜索。精細(xì)地微調(diào)超參數(shù)和優(yōu)化過程被用于先前方法之中。
One-shot(一步法)是一種新范式。它定義了超網(wǎng)絡(luò),并以相似的方式做權(quán)重復(fù)用。但是并沒有將模型結(jié)構(gòu)分布參數(shù)化。模型搜索從超網(wǎng)絡(luò)訓(xùn)練中解耦,并且解決步驟是獨立的。因此,One-shot具有序列性。它結(jié)合了上述嵌套式和聯(lián)合式優(yōu)化方法的優(yōu)點,因此靈活而高效。
盡管第二個問題已解決,現(xiàn)有One-shot并未很好地解決第一個問題。超網(wǎng)絡(luò)的權(quán)重依然耦合。優(yōu)化依然復(fù)雜,并包含敏感的超參數(shù),導(dǎo)致在大型數(shù)據(jù)集上表現(xiàn)欠佳。
曠視提出方法的動機旨在吸收One-shot的優(yōu)點,克服其缺點。One-shot成功的關(guān)鍵是使用復(fù)用權(quán)重的模型的精度可以用來預(yù)測從頭訓(xùn)練模型的精度。因此,曠視研究院提出,超網(wǎng)絡(luò)訓(xùn)練應(yīng)是隨機的。這樣所有子結(jié)構(gòu)的權(quán)重能夠被同時且均勻地優(yōu)化。
為減少超網(wǎng)絡(luò)的權(quán)重耦合,曠視研究院提出一個單路徑超網(wǎng)絡(luò),在每次迭代訓(xùn)練中只有單路徑結(jié)構(gòu)被激活。訓(xùn)練中不需要任何超參數(shù)來指導(dǎo)子結(jié)構(gòu)的選擇,采用均勻采樣的方式,平等對待所有子結(jié)構(gòu)。
本文方法簡單而靈活,超網(wǎng)絡(luò)訓(xùn)練中沒有超參數(shù)。其簡易性允許設(shè)計豐富的搜索空間,包括新設(shè)計通道單元和位寬單元。模型搜索過程十分高效,因為只需要基于超網(wǎng)絡(luò)的權(quán)重進(jìn)行前向計算。進(jìn)化算法則用來輕松支持多種約束。
綜合性消融實驗及在大型數(shù)據(jù)集(ImageNet)上的實驗證明了這一方法在精度、內(nèi)存消耗、訓(xùn)練時間、模型搜索的有效性及靈活性方面都表現(xiàn)良好,達(dá)到了當(dāng)前最優(yōu)的結(jié)果。
方法詳解
如上所述,耦合式模型搜索和權(quán)重優(yōu)化是存在挑戰(zhàn)和問題的。通過回顧發(fā)現(xiàn),早期使用嵌套優(yōu)化的 NAS 方法在于解決公式 (1) 和 (2) 的優(yōu)化問題,這不禁引起思考,問題解耦和權(quán)重共享的優(yōu)點是否可以兼得?


這一考慮誕生了所謂的 One-shot 。這些方法依然只訓(xùn)練一次超網(wǎng)絡(luò),并允許各結(jié)構(gòu)共享其中的權(quán)重。
但是,超網(wǎng)絡(luò)訓(xùn)練及模型搜索作為先后次序的兩個步驟是解耦的。請注意,這不同于嵌套優(yōu)化或聯(lián)合優(yōu)化。
首先,超網(wǎng)絡(luò)權(quán)重被優(yōu)化為:

相比公式 (4)

公式 (5) 已經(jīng)不存在搜索空間的連續(xù)參數(shù)化,只有網(wǎng)絡(luò)權(quán)重被優(yōu)化。
其次,搜索部分被表示為:

公式 (6) 與公式 (1) 、 (2) 的最大區(qū)別是其權(quán)重是預(yù)先初始化的。評估
通過借助進(jìn)化算法,搜索同樣非常靈活。像等式 (3)

對模型結(jié)構(gòu)進(jìn)行的約束可以精確地滿足。并且一旦訓(xùn)練好一個超網(wǎng)絡(luò),可在同一超網(wǎng)絡(luò)內(nèi)基于不同約束(比如 100ms 和 200ms 延遲)重復(fù)搜索。這些特性是先前方法所缺失的,將使 One-Shot NAS 方法對實際任務(wù)更具吸引力。
但依然存在一個問題。在等式 (5) 中,超網(wǎng)絡(luò)訓(xùn)練的圖節(jié)點權(quán)重是耦合的,復(fù)用權(quán)重是否適用于任意子結(jié)構(gòu)尚不清楚。
單路徑超網(wǎng)絡(luò)和均勻采樣
按照基本原理重新出發(fā),會使 One-Shot 范式更有效。在等式 (5) 中,模型搜索成功的關(guān)鍵在于,在驗證集中,使用復(fù)用權(quán)重





請注意,等式 (7) 是等式 (5) 的實現(xiàn)。在優(yōu)化的每一步中,子結(jié)構(gòu)是隨機采樣的,只有對應(yīng)的權(quán)重
為減少節(jié)點權(quán)重之間的協(xié)同適應(yīng),曠視研究院提出最大化簡化搜索空間

圖 1:單一路徑超網(wǎng)絡(luò)架構(gòu)圖
在每次訓(xùn)練時僅保留一個。不存在任何調(diào)優(yōu)。訓(xùn)練在本文實驗中收斂良好。
先驗分布

圖 2:不同采樣策略的單路徑超網(wǎng)絡(luò)的進(jìn)化模型搜索


