業(yè)界 | 讓機(jī)器人學(xué)會理解語義概念：谷歌提出深度視覺新技術(shù)

2017-07-23 11:17 性質(zhì)：轉(zhuǎn)載作者：機(jī)器之心來源：機(jī)器之心

免責(zé)聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn)，與本網(wǎng)無關(guān)。如有需要?jiǎng)h除，敬請來電商榷?。?/div>

近日，谷歌官方博客上發(fā)表了一篇題為《TeachingRobotstoUnderstandSemanticConcepts》的文章，探討了在機(jī)器人學(xué)習(xí)（roboticlearning）方面的一些最新進(jìn)展。機(jī)器人學(xué)習(xí)是指通過機(jī)...

　　近日，谷歌官方博客上發(fā)表了一篇題為《Teaching Robots to Understand Semantic Concepts》的文章，探討了在機(jī)器人學(xué)習(xí)（robotic learning）方面的一些最新進(jìn)展。機(jī)器人學(xué)習(xí)是指通過機(jī)器人自動(dòng)收集的數(shù)據(jù)（量很大，但是缺乏標(biāo)簽）與人類的標(biāo)注數(shù)據(jù)結(jié)合起來從而允許其理解語義概念。通過深度視覺特征（deep visual features），機(jī)器人在人類演示中借助其數(shù)據(jù)理解顯性事件，模仿人類的行動(dòng)，理解語義概念比如「玩具」和「鋼筆」從而根據(jù)用戶指令撿起物體。這次的實(shí)驗(yàn)可能為未來在自動(dòng)機(jī)器人系統(tǒng)中結(jié)合自監(jiān)督數(shù)據(jù)和人類標(biāo)注數(shù)據(jù)的工作指出了一條新的道路。

　　機(jī)器學(xué)習(xí)可以使機(jī)器人具備復(fù)雜技能，比如抓取和開門。但是，學(xué)習(xí)這些技能需手動(dòng)編程機(jī)器人試圖優(yōu)化的獎(jiǎng)勵(lì)函數(shù)。與之相反，人類可以通過觀察別人理解任務(wù)目標(biāo)，或者被簡單地告知目標(biāo)是什么。人類能夠做到這點(diǎn)是因?yàn)橛羞@個(gè)世界的背景知識：當(dāng)我們看到一個(gè)人切蘋果時(shí)，我們明白目標(biāo)是切成兩半，而不管蘋果是什么種類的，或者切蘋果的工具是什么樣的。相似地，如果我們被告知撿起蘋果，我們可以通過語境確定哪個(gè)物體是蘋果，因?yàn)槲覀冎捞O果的意義是什么。

　　這就是語義概念：切成兩半這種顯性事件（salient event）和單詞所指稱的物體概念比如蘋果。我們可以教會機(jī)器人理解語義概念、并使其遵循通過類別標(biāo)簽或用戶提供的實(shí)例指定的簡單命令嗎? 在本文中，我們探討了在機(jī)器人學(xué)習(xí)（robotic learning）方面的一些最新進(jìn)展，機(jī)器人學(xué)習(xí)把機(jī)器人自動(dòng)收集的數(shù)據(jù)（量很大，但是缺乏標(biāo)簽）與人類的標(biāo)注數(shù)據(jù)結(jié)合起來從而允許其理解語義概念。我們將會描述機(jī)器人如何在人類提供的演示中通過其數(shù)據(jù)理解顯性事件，模仿人類的行動(dòng)，理解語義概念比如「玩具」和「鋼筆」以根據(jù)用戶指令撿起物體。

　　通過深度視覺特征理解人類的演示

　　在第一組實(shí)驗(yàn)中，我們的目標(biāo)是幫助機(jī)器人通過僅僅觀看若干個(gè)無標(biāo)注的人類演示來理解一個(gè)任務(wù)，比如開門。通過分析這些演示，機(jī)器人必須先從語義上理解顯性事件，這對任務(wù)的成功很重要，接著運(yùn)用強(qiáng)化學(xué)習(xí)來執(zhí)行任務(wù)。

人類演示（左）與機(jī)器人模仿（右）

　　小數(shù)據(jù)集上的無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中最具挑戰(zhàn)性的場景之一。為了使之可行，我們使用了深度視覺特征（deep visual feature），它來自一個(gè)被訓(xùn)練用來參加 ImageNet 圖像識別競賽的大型網(wǎng)絡(luò)。深度視覺特征對語義概念非常敏感，同時(shí)保持對諸如外觀和光線的滋擾變量（nuisance variables）的不變性。我們使用這些功能闡釋用戶提供的演示，結(jié)果證明以非監(jiān)督的形式從少許演示中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)確實(shí)是可能的，并且無需再訓(xùn)練。

　　僅僅通過觀察開門任務(wù)來學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的實(shí)例。隨著任務(wù)的完成，獎(jiǎng)勵(lì)函數(shù)從零增加到最大值。

　　在僅通過觀察學(xué)習(xí)了獎(jiǎng)勵(lì)函數(shù)之后，我們使用它去指導(dǎo)機(jī)器人學(xué)習(xí)開門任務(wù)（僅通過圖像評估獎(jiǎng)勵(lì)函數(shù)）。借助于大約 10% 時(shí)間的初始動(dòng)作演示，機(jī)器人通過已學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)把精度提升到了 100%。

學(xué)習(xí)的進(jìn)程。

　　通過自監(jiān)督和模擬來趕超人類動(dòng)作

　　在《時(shí)間對比網(wǎng)絡(luò)：多視角觀察的自監(jiān)督學(xué)習(xí)》（Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation）（https://sermanet.github.io/tcn/）中，我們提出了一種通過觀察理解世界的全新方法，并借助自監(jiān)督姿態(tài)模仿對其進(jìn)行了演示。我們的方法主要依賴于監(jiān)督的時(shí)空同現(xiàn)：通過訓(xùn)練來區(qū)分來自視頻不同時(shí)段的幀，從而學(xué)習(xí)解開現(xiàn)實(shí)并將其組織為有用的抽象表征。

　　以姿態(tài)模仿任務(wù)為例，表征的不同維度也許編碼一個(gè)人類或機(jī)器人身體的不同關(guān)節(jié)。我們沒有手動(dòng)定義人與機(jī)器人關(guān)節(jié)之間的映射（由于生理差異這首先是含糊不清的），而是讓機(jī)器人以端到端的形式學(xué)習(xí)模仿。當(dāng)我們的模型同時(shí)在人與機(jī)器人的觀察中被訓(xùn)練，即使沒有提供對應(yīng)關(guān)系，它也自然地會發(fā)現(xiàn)兩者的這種關(guān)系。因此我們無須給出人與機(jī)器人之間的對應(yīng)就獲得了模仿人類姿態(tài)的機(jī)器人。

機(jī)器人的自監(jiān)督式人類姿態(tài)模擬。

　　端到端學(xué)習(xí)的好處的一個(gè)有力證據(jù)是上述的多對一和高度非線性節(jié)點(diǎn)映射。在這個(gè)實(shí)例中，上下的動(dòng)作需動(dòng)用人類的很多關(guān)節(jié)，而機(jī)器人只需動(dòng)用一個(gè)就夠了。我們表明機(jī)器人已經(jīng)自己發(fā)現(xiàn)了高度復(fù)雜的映射，而無須任何明確的人類姿態(tài)信息。

　　利用物體的語義類別進(jìn)行抓取

　　上述實(shí)驗(yàn)說明人如何通過實(shí)例演示使機(jī)器人理解任務(wù)的語義——顯性事件及動(dòng)作的相關(guān)特征，進(jìn)而給機(jī)器人設(shè)定具體目標(biāo)。如果人類不向機(jī)器人演示任務(wù)，僅僅告訴它怎么做，又會怎么樣呢？這仍然需要機(jī)器人理解語義，以識別用戶指定的語義類別所對應(yīng)的實(shí)物。在《語義抓取的端到端學(xué)習(xí)》（End-to-End Learning of Semantic Grasping）一文中，我們研究了如何使用人工標(biāo)注數(shù)據(jù)和自動(dòng)收集數(shù)據(jù)來執(zhí)行語義抓取任務(wù)，該任務(wù)中機(jī)器人必須從一個(gè)塞滿的箱子里抓取用戶指定類別標(biāo)簽的物體，如「橡皮」或「玩具」。

　　在我們的語義抓取實(shí)驗(yàn)設(shè)置中，機(jī)器臂的任務(wù)是抓取用戶指定語義類別的物體（如樂高玩具）。

　　為了學(xué)習(xí)如何執(zhí)行語義抓取任務(wù)，機(jī)器人首先通過自動(dòng)抓取多種物體來收集抓取數(shù)據(jù)集。這些數(shù)據(jù)可以使機(jī)器人抓取物體，但無法讓它理解如何將物體與語義標(biāo)簽對應(yīng)起來。為了使機(jī)器人理解語義，我們又進(jìn)行了少量的人類監(jiān)督。機(jī)器人每成功抓取到一個(gè)物體，都會以一個(gè)固定姿勢將物體放到攝像機(jī)前面，如下圖所示。

　　機(jī)器人在抓取成功后，將物體放置在攝像機(jī)前面。這些圖像可用于標(biāo)注抓取物體的類別。

　　人類將這些圖像的子集進(jìn)行標(biāo)注。由于這些圖像中機(jī)器人使用同一個(gè)姿勢呈現(xiàn)物體，因此在標(biāo)注樣本上訓(xùn)練分類器，進(jìn)而在剩余圖像上標(biāo)注標(biāo)簽就比較容易了。圖像標(biāo)注后，機(jī)器人可以從中了解實(shí)際抓取的物體，并將標(biāo)簽與物體抓取成功后觀察到的圖像聯(lián)系起來。

　　使用這個(gè)標(biāo)注后的數(shù)據(jù)集，我們可以訓(xùn)練一個(gè)雙流模型，該模型基于當(dāng)前圖像和機(jī)器人可能的行動(dòng)，可以預(yù)測即將抓取到的物體。該模型受到人類視覺皮質(zhì)中的背腹側(cè)流分解的啟發(fā)，人類視覺皮質(zhì)中腹側(cè)流負(fù)責(zé)對物體的語義類別進(jìn)行推理，背側(cè)流負(fù)責(zé)對抓取物的幾何形狀進(jìn)行推理。最重要的是，腹側(cè)流可以吸納包括標(biāo)注物體圖像在內(nèi)的輔助數(shù)據(jù)（未必來自機(jī)器人），背側(cè)流可以吸納包含不帶有語義標(biāo)簽的抓取物的輔助數(shù)據(jù)，這使得整個(gè)系統(tǒng)可通過大量復(fù)雜標(biāo)注數(shù)據(jù)進(jìn)行更高效的訓(xùn)練。通過這種方式，我們可以將有限的人類標(biāo)注數(shù)據(jù)和機(jī)器人自動(dòng)收集的數(shù)據(jù)結(jié)合起來，基于想要的語義類別抓取物體，如視頻中所示：

　　展望

　　我們的實(shí)驗(yàn)展示了如何將語義標(biāo)注數(shù)據(jù)和機(jī)器人自動(dòng)收集、自動(dòng)標(biāo)注的數(shù)據(jù)結(jié)合起來，進(jìn)而使機(jī)器人理解事件、物體類別以及用戶演示。未來，我們或許可以想象使用用戶標(biāo)注數(shù)據(jù)和不斷增加的自動(dòng)收集數(shù)據(jù)集來訓(xùn)練機(jī)器人系統(tǒng)，以提高機(jī)器人的能力、減輕設(shè)計(jì)自動(dòng)機(jī)器人的工程負(fù)擔(dān)。另外，隨著機(jī)器人系統(tǒng)從真實(shí)世界中自動(dòng)標(biāo)注的數(shù)據(jù)不斷增加，這些數(shù)據(jù)不僅可用于改善機(jī)器人系統(tǒng)，還可用于訓(xùn)練計(jì)算機(jī)視覺、語音識別和自然語言處理。

　　當(dāng)然，我們不是第一個(gè)思考將機(jī)器人和語義結(jié)合起來的人。自然語言理解、機(jī)器感知、抓取、模仿學(xué)習(xí)領(lǐng)域的大量研究已經(jīng)考慮如何在機(jī)器人系統(tǒng)中結(jié)合語義和機(jī)器人行為。但是，我們的實(shí)驗(yàn)可能為未來在自動(dòng)機(jī)器人系統(tǒng)中結(jié)合自監(jiān)督數(shù)據(jù)和人類標(biāo)注數(shù)據(jù)的工作指出了一條新的道路。