曠視AutoML首次曝光！孫劍、危夷晨團隊最新力作，效果超谷歌

2019-04-02 15:07 性質(zhì)：轉(zhuǎn)載作者：曠視來源：曠視

免責(zé)聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機構(gòu)所有。文章內(nèi)容觀點，與本網(wǎng)無關(guān)。如有需要刪除，敬請來電商榷?。?/div>

新智元報道來源：曠視研究院編輯：肖琴、張乾【新智元導(dǎo)讀】曠視科技孫劍團隊首次披露AutoML相關(guān)成果，通過構(gòu)建一個簡化的...

曠視科技孫劍團隊首次披露AutoML相關(guān)成果，通過構(gòu)建一個簡化的超網(wǎng)絡(luò)來解決訓(xùn)練過程中面對的主要挑戰(zhàn)。在在ImageNet上的實驗結(jié)果超過了谷歌、Facebook等AutoML技術(shù)的成績。

曠視首次曝光自家AutoML技術(shù)。

今天，曠視科技首席科學(xué)家孫劍團隊發(fā)布論文Single Path One-Shot Neural Architecture Search with Uniform Sampling，首次披露AutoML中的重要子領(lǐng)域神經(jīng)結(jié)構(gòu)搜索的最新成果——單路徑One-Shot模型。

單路徑One-Shot模型用來解決訓(xùn)練過程中面對的主要挑戰(zhàn)，其核心思想是構(gòu)建一個簡化的超網(wǎng)絡(luò)——單路徑超網(wǎng)絡(luò)（Single Path Supernet），這個網(wǎng)絡(luò)按照均勻的路徑采樣方法進(jìn)行訓(xùn)練，在ImageNet上的實驗證明，這一方法在精度、內(nèi)存消耗、訓(xùn)練時間、模型搜索的有效性及靈活性方面結(jié)果最優(yōu)，超過了谷歌、Facebook等公司AutoML技術(shù)的成績。

設(shè)計神經(jīng)網(wǎng)絡(luò)非常耗費時間，并且需要專業(yè)知識，幾年前谷歌創(chuàng)建了AutoML的方法，通常使用強化學(xué)習(xí)或進(jìn)化算法來設(shè)計新的神經(jīng)網(wǎng)絡(luò)架構(gòu)，也證明神經(jīng)網(wǎng)絡(luò)可以設(shè)計神經(jīng)網(wǎng)絡(luò)。

論文的作者之一、曠視上海研究院負(fù)責(zé)人危夷晨表示，深度學(xué)習(xí)是非常通用的技術(shù)，但在實際落地時會面臨在不同行業(yè)、不同場景、不同計算設(shè)備上尋找最優(yōu)算法和工程實現(xiàn)的問題。自動神經(jīng)網(wǎng)絡(luò)搜索是用“計算換智能”的新范式，可以極大地加速我們的產(chǎn)品及解決方案在各行業(yè)的落地。

單路徑One-Shot模型：模型搜索框架的新變體

深度學(xué)習(xí)終結(jié)了手工設(shè)計特征的時代，同時解決了權(quán)重優(yōu)化問題。NAS（神經(jīng)網(wǎng)絡(luò)模型搜索）則旨在通過另一個方法——模型搜索（architecture search），終結(jié)人工設(shè)計架構(gòu)。

早期的NAS方法使用嵌套式優(yōu)化，從搜索空間采樣出模型結(jié)構(gòu)，接著從頭訓(xùn)練其權(quán)重，缺點是對于大型數(shù)據(jù)集來講計算量過大。新近的NAS方法則采用權(quán)重共享策略減少計算量。本文提出的超網(wǎng)絡(luò)則包含所有子結(jié)構(gòu)，只訓(xùn)練一次，所有子結(jié)構(gòu)便可以直接從超網(wǎng)絡(luò)獲得其權(quán)重，無需從頭訓(xùn)練。即使在大型數(shù)據(jù)集上，計算也十分高效。

大多數(shù)權(quán)重共享方法使用連續(xù)的搜索空間，將模型結(jié)構(gòu)分布不斷參數(shù)化。這些參數(shù)在超網(wǎng)絡(luò)訓(xùn)練期間與網(wǎng)絡(luò)權(quán)重進(jìn)行聯(lián)合優(yōu)化。因此可以在優(yōu)化時進(jìn)行模型搜索，從分布中采樣最優(yōu)的架構(gòu)。其公式化表示優(yōu)雅而理論完備。但是存在兩個問題：

第一，超網(wǎng)絡(luò)的權(quán)重深度耦合。目前尚不清楚為什么特定結(jié)構(gòu)的復(fù)用權(quán)重（inherited weights）依然有效。

第二，聯(lián)合優(yōu)化導(dǎo)致了模型參數(shù)和超網(wǎng)絡(luò)權(quán)重的進(jìn)一步耦合。梯度方法的貪婪天性不可避免地在結(jié)構(gòu)分布和超網(wǎng)絡(luò)權(quán)重中引入偏差。這很容易誤導(dǎo)模型搜索。精細(xì)地微調(diào)超參數(shù)和優(yōu)化過程被用于先前方法之中。

One-shot（一步法）是一種新范式。它定義了超網(wǎng)絡(luò)，并以相似的方式做權(quán)重復(fù)用。但是并沒有將模型結(jié)構(gòu)分布參數(shù)化。模型搜索從超網(wǎng)絡(luò)訓(xùn)練中解耦，并且解決步驟是獨立的。因此，One-shot具有序列性。它結(jié)合了上述嵌套式和聯(lián)合式優(yōu)化方法的優(yōu)點，因此靈活而高效。

盡管第二個問題已解決，現(xiàn)有One-shot并未很好地解決第一個問題。超網(wǎng)絡(luò)的權(quán)重依然耦合。優(yōu)化依然復(fù)雜，并包含敏感的超參數(shù)，導(dǎo)致在大型數(shù)據(jù)集上表現(xiàn)欠佳。

曠視提出方法的動機旨在吸收One-shot的優(yōu)點，克服其缺點。One-shot成功的關(guān)鍵是使用復(fù)用權(quán)重的模型的精度可以用來預(yù)測從頭訓(xùn)練模型的精度。因此，曠視研究院提出，超網(wǎng)絡(luò)訓(xùn)練應(yīng)是隨機的。這樣所有子結(jié)構(gòu)的權(quán)重能夠被同時且均勻地優(yōu)化。

為減少超網(wǎng)絡(luò)的權(quán)重耦合，曠視研究院提出一個單路徑超網(wǎng)絡(luò)，在每次迭代訓(xùn)練中只有單路徑結(jié)構(gòu)被激活。訓(xùn)練中不需要任何超參數(shù)來指導(dǎo)子結(jié)構(gòu)的選擇，采用均勻采樣的方式，平等對待所有子結(jié)構(gòu)。

本文方法簡單而靈活，超網(wǎng)絡(luò)訓(xùn)練中沒有超參數(shù)。其簡易性允許設(shè)計豐富的搜索空間，包括新設(shè)計通道單元和位寬單元。模型搜索過程十分高效，因為只需要基于超網(wǎng)絡(luò)的權(quán)重進(jìn)行前向計算。進(jìn)化算法則用來輕松支持多種約束。

綜合性消融實驗及在大型數(shù)據(jù)集（ImageNet）上的實驗證明了這一方法在精度、內(nèi)存消耗、訓(xùn)練時間、模型搜索的有效性及靈活性方面都表現(xiàn)良好，達(dá)到了當(dāng)前最優(yōu)的結(jié)果。

方法詳解

如上所述，耦合式模型搜索和權(quán)重優(yōu)化是存在挑戰(zhàn)和問題的。通過回顧發(fā)現(xiàn)，早期使用嵌套優(yōu)化的 NAS 方法在于解決公式 (1) 和 (2) 的優(yōu)化問題，這不禁引起思考，問題解耦和權(quán)重共享的優(yōu)點是否可以兼得？

這一考慮誕生了所謂的 One-shot 。這些方法依然只訓(xùn)練一次超網(wǎng)絡(luò)，并允許各結(jié)構(gòu)共享其中的權(quán)重。

但是，超網(wǎng)絡(luò)訓(xùn)練及模型搜索作為先后次序的兩個步驟是解耦的。請注意，這不同于嵌套優(yōu)化或聯(lián)合優(yōu)化。

首先，超網(wǎng)絡(luò)權(quán)重被優(yōu)化為：

相比公式 (4)

公式 (5) 已經(jīng)不存在搜索空間的連續(xù)參數(shù)化，只有網(wǎng)絡(luò)權(quán)重被優(yōu)化。

其次，搜索部分被表示為：

公式 (6) 與公式 (1) 、 (2) 的最大區(qū)別是其權(quán)重是預(yù)先初始化的。評估僅需要推理。沒有微調(diào)或者再訓(xùn)練。因此搜索非常有效。

通過借助進(jìn)化算法，搜索同樣非常靈活。像等式 (3)

對模型結(jié)構(gòu)進(jìn)行的約束可以精確地滿足。并且一旦訓(xùn)練好一個超網(wǎng)絡(luò)，可在同一超網(wǎng)絡(luò)內(nèi)基于不同約束（比如 100ms 和 200ms 延遲）重復(fù)搜索。這些特性是先前方法所缺失的，將使 One-Shot NAS 方法對實際任務(wù)更具吸引力。

但依然存在一個問題。在等式 (5) 中，超網(wǎng)絡(luò)訓(xùn)練的圖節(jié)點權(quán)重是耦合的，復(fù)用權(quán)重是否適用于任意子結(jié)構(gòu)尚不清楚。

單路徑超網(wǎng)絡(luò)和均勻采樣

按照基本原理重新出發(fā)，會使 One-Shot 范式更有效。在等式 (5) 中，模型搜索成功的關(guān)鍵在于，在驗證集中，使用復(fù)用權(quán)重（沒有額外的微調(diào)）的任意子結(jié)構(gòu)的精度是高度可信的。正如等式 (1) 是理想情況，需要權(quán)重近似最優(yōu)權(quán)重。近似的效果和訓(xùn)練損失函數(shù)被最小化的程度成正比。這推導(dǎo)出一個原則：超網(wǎng)絡(luò)權(quán)重的優(yōu)化應(yīng)當(dāng)與搜索空間中所有子結(jié)構(gòu)的優(yōu)化同時進(jìn)行。這可表示為：

請注意，等式 (7) 是等式 (5) 的實現(xiàn)。在優(yōu)化的每一步中，子結(jié)構(gòu)是隨機采樣的，只有對應(yīng)的權(quán)重被激活和更新。這不僅節(jié)省內(nèi)存空間，而且高效。由此，超網(wǎng)絡(luò)本身不再是一個有效的網(wǎng)絡(luò)，而變成一個隨機的網(wǎng)絡(luò)。