

對(duì)于一個(gè)1000 × 1000的輸入圖像而言,假設(shè)采用上一節(jié)所講述的每個(gè)神經(jīng)網(wǎng)絡(luò)都和前面一層的所有神經(jīng)元相連的前饋神經(jīng)網(wǎng)絡(luò)(全連接神經(jīng)網(wǎng)絡(luò)),如果下一個(gè)隱藏層的神經(jīng)元數(shù)目為10^6個(gè),則輸入層和隱含層之間的權(quán)值參數(shù)有1000 × 1000 × 10^6 = 10^12之多,如此數(shù)目巨大的參數(shù)幾乎難以訓(xùn)練。在卷積神經(jīng)網(wǎng)絡(luò)中,為了減少權(quán)值參數(shù)的個(gè)數(shù),提出了局部感受野(local field)這一概念。一般認(rèn)為,人對(duì)外界的認(rèn)知是從局部到全局的,圖像的空間聯(lián)系也是局部的像素聯(lián)系較為緊密,而距離較遠(yuǎn)的像素相關(guān)性則較弱。因而,每個(gè)神經(jīng)元其實(shí)沒有必要對(duì)全局圖像進(jìn)行感知,只需要對(duì)局部進(jìn)行感知(也就是說(shuō),神經(jīng)元沒有必要和下一層的所有神經(jīng)元相連,只需和下一層的部分神經(jīng)元相連),然后在更高層將局部的信息綜合得到全局信息。如果采用局部連接,假設(shè)隱藏層的每個(gè)神經(jīng)元僅與圖像中10 × 10的局部圖像相連接,那么此時(shí)輸入層和隱含層之間權(quán)值參數(shù)數(shù)量為10 × 10 × 10^6 = 10^8,與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)相比,參數(shù)個(gè)數(shù)直接減少4個(gè)數(shù)量級(jí)。
卷積操作可以看成是提取特征的方式,不同的卷積核能夠得到圖像的不同映射下的特征,稱之為特征映射(Feature Map)。如果把一個(gè)卷積核看成提取一種特征,那么我們可以通過(guò)使用多個(gè)不同的卷積核來(lái)達(dá)到提取多個(gè)特征的目的。如果有64個(gè)卷積核,那么就可以提取64種特征,兩層之間的權(quán)值參數(shù)也僅為100×64= 6400個(gè)。
圖像識(shí)別能夠解決的問題,也是從一開始只能識(shí)別一些簡(jiǎn)單的圖像,到現(xiàn)在能夠識(shí)別較復(fù)雜的場(chǎng)景,但是離人類對(duì)圖像內(nèi)容的全面理解還有很長(zhǎng)的一段距離。

