澎思科技科學(xué)家申省梅：如何攻克AI安防人臉識別的最大算法難題？

2019-03-27 09:49 性質(zhì)：轉(zhuǎn)載作者：雷鋒網(wǎng) 來源：雷鋒網(wǎng)

免責(zé)聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn)，與本網(wǎng)無關(guān)。如有需要刪除，敬請來電商榷！）

澎思核心算法分為三類：

前沿算法細(xì)分上，第一個是圖像識別方面，我們可以看到很多的算法。

在人臉檢測方面、對準(zhǔn)、識別到一人一檔、FaceID，以后走到哪里，你的臉就是你的ID；面部屬性檢測包括性別、年齡、人種、美顏、表情、狀態(tài)、性格等；人體檢測包括姿態(tài)、姿勢、穿著、描述、跟蹤、跨境識別/ReID，人的行為檢測包括特定行為判斷和預(yù)測等等。

在安防行業(yè)，很多危險行為的判斷預(yù)測也很重要。一個車發(fā)生事故后逃逸，我們只要調(diào)動就近的相機(jī)就很快抓到這輛車，這對智能交通的管理非常重要。還有其他物體的識別追蹤等等，還有語義的理解。

在圖像增強(qiáng)方面，有去噪聲、去模糊、去抖動、超分辨率，抗反光/抗逆光，還有去霧、去雨、去雪等等。在圖像抓拍方面，有新的傳感器的出現(xiàn)，比如AI-on-Sensor、AI圖像質(zhì)量評價以及AI的在控捕捉等等。

現(xiàn)在我們談一下人臉識別的過去、今天以及面臨的挑戰(zhàn)。

人臉識別不是一個很新的課題，20多年前人臉識別就已經(jīng)在某些產(chǎn)品里得到應(yīng)用，用的是過去的機(jī)器學(xué)習(xí)。那個時候公開的數(shù)據(jù)集基本上都是限制性的人臉，都是近距離或者是光線受到控制的圖像。今天我們看到動態(tài)監(jiān)控相機(jī)下捕捉的人臉，這個跨度非常大，行人是多姿態(tài)的，并且質(zhì)量沒辦法控制，尤其是光線，會對識別造成很大的影響。

大家注意到，訓(xùn)練數(shù)據(jù)級也變化了，從小數(shù)據(jù)到公開大數(shù)據(jù)、超級大數(shù)據(jù)，過去比賽的測試數(shù)據(jù)都是比對正臉的，即使今天的比賽也如此，一直到最近IJB-C出現(xiàn)多姿態(tài)側(cè)臉的競賽。

但這也不是真正代表安防場景下動態(tài)監(jiān)控視頻下的數(shù)據(jù)。

如果我們談到人臉識別的迭代變化，2012年是一個分界點(diǎn)。在這之前，算法用的都是傳統(tǒng)的手工特征，過去傳統(tǒng)的機(jī)器學(xué)習(xí)，我們只能用這些。但是即使在正向的人臉識別里，比如LFW，都達(dá)不到90%。

今天的深度學(xué)習(xí)，一個小模型都可以拿到99%，所以這是兩個完全不一樣的概念。

2013年到2016年，我們看到特征的變化，以及有LFW數(shù)據(jù)庫的出現(xiàn)，超級大數(shù)據(jù)以及光線不均勻多姿態(tài)的動態(tài)測試集，帶動了新算法出現(xiàn)。我們也希望看到安防動態(tài)監(jiān)視視頻下真正的數(shù)據(jù)集，能夠開放給大家比賽。

當(dāng)然二維、三維人臉特征的識別和提取，以及人臉的防偽，都對將來FaceID這種功能提出要求。

大家知道無約束人臉的識別，面部姿態(tài)變化巨大，有很多遮擋、光線不均勻的情況，表情、像素也不一樣。從很遠(yuǎn)的地方拉近后，失真嚴(yán)重。而且還有靜態(tài)、動態(tài)等情況。

上圖是Nist IJB-A比賽的圖像，不同的角度、不同的光線，遮擋、戴眼鏡，有些字擋住嘴巴，還有不同像素相機(jī)拍攝的圖片。我們2017年3月團(tuán)隊代表松下參加比賽，拿到冠軍獎項。同年5月，松下也發(fā)表了這個成果。

這個挑戰(zhàn)賽也明確顯示了我們的算法在模板比賽下能做出很好的成績。

下圖是算法的總結(jié)，我們用了遷移算法，也用了異構(gòu)多模型的融合，和大家知道的雙代理對抗生成網(wǎng)絡(luò)。當(dāng)然在此當(dāng)中，數(shù)據(jù)怎么樣清理、預(yù)處理，也起著重要的作用。

這是我們比賽的Leaderboard，紅色框里面是我們的成績。

你可以看到傳統(tǒng)的人臉識別算法，以前可能還是第一名、第二名。但是在IJB-A無約束人臉測試集下面，它們的識別率僅僅是20%、50%、60%，這個變化是非常大的，技術(shù)在不斷發(fā)展，性能在不斷提高，我們拿到了98%。

從這個圖里也可以看到，越小的error越好。盡管那個時候傳統(tǒng)的算法都是名列前茅，比如在身份證上和護(hù)照測試級上，但是要在一個多姿態(tài)、不同光線的人臉測試集下，傳統(tǒng)算法的性能可能會下降很大。

再談一下大數(shù)據(jù)人臉識別。2017年7月，微軟組織的一個百萬名人識別大挑戰(zhàn)。7月份公布，我們的成績又拿到雙項冠軍。

在2018年2月份，松下已經(jīng)把這項成果應(yīng)用到產(chǎn)品里，并且在東京召開發(fā)布會。從下圖中可以看到，我們這種跨年齡、跨姿態(tài)以及有遮擋的情況都能檢測出來。而且松下的產(chǎn)品不光是人臉識別算法，在攝像頭、圖像增強(qiáng)方面還可以減低很多傳輸帶寬。也許大家知道，松下的安防產(chǎn)品在日本是第一。

剛才談到測試數(shù)據(jù)集，比如現(xiàn)在的LFW在2012年就出現(xiàn)，現(xiàn)在已經(jīng)飽和了。到今天的MegaFace、微軟以及IJB-A/B/C。所有的數(shù)據(jù)還是一個特點(diǎn)，都是基于網(wǎng)上收集的數(shù)據(jù)，不是動態(tài)監(jiān)控下采集的數(shù)據(jù)。所以希望有一天很快到來，我們可以測試這樣的數(shù)據(jù)。

剛才講到GAN的應(yīng)用，我分享一下這篇文章。

IJB中的多姿態(tài)識別，問題在于我們訓(xùn)練數(shù)據(jù)集很難拿到很平衡的數(shù)據(jù)。上圖左邊是告訴大家，這個訓(xùn)練集里面，左右角度的數(shù)據(jù)很多，但是角度偏一些數(shù)據(jù)就減少很大。我們用了這個GAN，右邊就產(chǎn)生了較多在側(cè)角度的數(shù)據(jù)。

我們也做了性能比較，大家可以看下我們自己做的b1、b2、DA-GAN的結(jié)果。b1是說我們不加任何多余的訓(xùn)練數(shù)據(jù)。b2是我們用之前的訓(xùn)練模型加額外的3D人臉合成訓(xùn)練數(shù)據(jù)。最后一個是我們用自己的DA-GAN來產(chǎn)生的一些平衡數(shù)據(jù)。我們的GAN相比之下帶來明顯的性能增加。所以我們GAN的工作也在NIPS-IJCAI-AAAI等學(xué)術(shù)會議上發(fā)表，也用GAN來生成不同年齡的人臉。

剛才講到動態(tài)監(jiān)控條件下捕捉的人臉，我們除了在人臉識別性能上提高外，我們也考慮別的方式。比如說在源端著手捕捉到更好的圖像，還有圖像增強(qiáng)的方法，我會在AI圖像增強(qiáng)、SoC方面做一些分享。

第一個分享的是去除運(yùn)動模糊的問題。大家都知道，左邊的圖像我們常?？床坏郊?xì)節(jié)。大家說都用HDR來恢復(fù)圖像的細(xì)節(jié)，這個方法是長短曝光多次，合成光線均勻的寬動態(tài)范圍圖像。有個問題是什么呢？在場景當(dāng)中有運(yùn)動的物體出現(xiàn)，就沒辦法做到所謂的普通HDR圖像，會很模糊。但是下面這張用我們的算法運(yùn)動補(bǔ)賞，可以很清晰地看到圖像的細(xì)節(jié)。我們拿到了最佳的Paper，也用在了公司的產(chǎn)品上面。

第二個是關(guān)于低光圖像增強(qiáng)方法，可以看到上面有兩組圖像。左邊黑漆漆的，但是用了圖像增強(qiáng)方法，就可以看到細(xì)節(jié)。尤其是對人臉來說，右邊的人臉就可以識別出來。傳統(tǒng)的圖像增強(qiáng)方法都有一些限制，今天人們結(jié)合深度學(xué)習(xí)可以做到更高的保真度。

去噪聲的方法，大家都知道BN3D是很出名的去噪聲方法，但是它總是根據(jù)相機(jī)的強(qiáng)度而做的，很難做好。我們這篇文章也獲得最佳論文，我們用了深度卷積CNN加了LSTM，能夠追蹤到噪聲的相關(guān)性，主觀和客觀質(zhì)量結(jié)構(gòu)表明，這種方法可以獲得很好的圖像質(zhì)量。