

近期,曠視科技南京研究院發(fā)布學(xué)術(shù)界內(nèi)目前最大的商品識別數(shù)據(jù)集——RPC,其圖像數(shù)量和類別數(shù)量皆是該領(lǐng)域之最。同時(shí),該數(shù)據(jù)集針對新零售場景定義了一個(gè)新問題,即視覺自動收銀(automatic check-out, ACO),模擬零售真實(shí)結(jié)算場景。此外,還針對 ACO 任務(wù)給出了一套完整的 Baseline Method,以及“整單準(zhǔn)確率”cAcc為代表的一系列評測指標(biāo),更有可以直接安裝的 Python 版本評測工具。同名 GitHub 項(xiàng)目主頁上有 Leaderboard,歡迎大家來刷榜!



零售業(yè)是人力密集型行業(yè),其中收銀結(jié)算占有相當(dāng)高的成本。隨著深度學(xué)習(xí)發(fā)展,借助圖像識別技術(shù)實(shí)現(xiàn)零售行業(yè)的降本增效已是大勢所趨。自動收銀結(jié)算(Automatic Check-Out/ACO)是其中的核心場景,旨在根據(jù)收銀場景圖像生成結(jié)算清單,并與計(jì)算機(jī)視覺技術(shù)的融合不斷加深。
CV 技術(shù)+場景,從來不是一條坦途。從圖像識別角度講,ACO 的落地布滿靳棘,其中既有來自數(shù)據(jù)本身的問題,也有模型訓(xùn)練的因素,最后可歸結(jié)為 4 個(gè)方面: 1)large-scale,2)fine-grained,3) few-shot 和 4)cross-domain。
盡管存在上述問題,ACO 還是有著潛在的研究與商業(yè)價(jià)值。如果有標(biāo)注精良的數(shù)據(jù)集,這一問題或可迎刃而解。為此,曠視科技南京研究院打造了一個(gè)目前最大的商品識別數(shù)據(jù)集——RPC(Retail Product Checkout),來推動新零售自動收銀場景的相關(guān)研究和技術(shù)進(jìn)步,它的商品種類高達(dá) 200,圖像總量達(dá) 83k,真實(shí)模擬零售場景,且逼真度超過現(xiàn)有同類數(shù)據(jù)集,同時(shí)充分體現(xiàn)出 ACO 問題的細(xì)粒度特性。

圖 2:RPC 數(shù)據(jù)集對比同類數(shù)據(jù)集。
RPC 數(shù)據(jù)集有兩種形態(tài)的圖像:1)單品圖(exemplar image),在受限環(huán)境下拍攝,只包含單一產(chǎn)品,對應(yīng)于網(wǎng)購商品圖;2)結(jié)算圖( checkout image),包含用戶購買場景下的多個(gè)商品,有助于研究者解決相關(guān)子問題,比如檢測或計(jì)數(shù)。
數(shù)據(jù)集的基準(zhǔn)還在進(jìn)行之中,目前最好的基線來自基于 Cycle-GAN 的數(shù)據(jù)合成方法。
ACO 任務(wù)
當(dāng)顧客走進(jìn)商店,把要購買的商品放在收銀臺上,一個(gè)理想的 ACO 系統(tǒng)可以自動識別每個(gè)商品,并一次性準(zhǔn)確給出購物清單,如圖 1 所示。

圖 1:ACO 圖示。
因此,ACO 本質(zhì)上是識別任意商品組合中每個(gè)商品的出現(xiàn)并計(jì)數(shù)的一個(gè)系統(tǒng)。
一般來講,為保證性能,訓(xùn)練 ACO 識別系統(tǒng)的圖像應(yīng)該和實(shí)際收銀場景一模一樣。但是由于海量的商品類別加之不斷更新,讓識別模型窮盡所有的商品組合是不現(xiàn)實(shí)的,因此一個(gè)可行的解決方案是在特定環(huán)境下采集一類單品圖像,并將其復(fù)用至實(shí)際結(jié)算中。
RPC 數(shù)據(jù)集特點(diǎn)
曠視提出的 RPC 數(shù)據(jù)集具有 6 個(gè)方面的特性。
量大:無論是從圖像數(shù)量還是商品種類(SKU)上來看,RPC 都是該領(lǐng)域之最:SKU 達(dá) 200 個(gè),圖像數(shù)量 83,739 張,其中單品圖 53,739 張,結(jié)算圖 30,000 張。
跨域:RPC 中圖像數(shù)據(jù)分為單品圖和結(jié)算圖兩種形態(tài)。模型需在單品圖上進(jìn)行訓(xùn)練,但真正測試環(huán)境則為結(jié)算圖。

圖 3:單品圖。

圖 4:結(jié)算圖。


