nm99热,好吊视频欧美,无码二区三区,久久久精品伦理一区,自拍三区四区,9热无码第一页,久久久日韩无码精品,日韩有码一区在线亚洲,亚洲色91

發(fā)布詢價(jià)單
您的位置:首頁 > 資訊 > 行業(yè)資訊 > 正文

業(yè)界 | 讓機(jī)器人學(xué)會理解語義概念:谷歌提出深度視覺新技術(shù)

2017-07-23 11:17 性質(zhì):轉(zhuǎn)載 作者:機(jī)器之心 來源:機(jī)器之心
免責(zé)聲明:AGV網(wǎng)(m.wnmc.org.cn)尊重合法版權(quán),反對侵權(quán)盜版。(凡是我網(wǎng)所轉(zhuǎn)載之文章,文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn),與本網(wǎng)無關(guān)。如有需要?jiǎng)h除,敬請來電商榷?。?/div>
近日,谷歌官方博客上發(fā)表了一篇題為《TeachingRobotstoUnderstandSemanticConcepts》的文章,探討了在機(jī)器人學(xué)習(xí)(roboticlearning)方面的一些最新進(jìn)展。機(jī)器人學(xué)習(xí)是指通過機(jī)...

  近日,谷歌官方博客上發(fā)表了一篇題為《Teaching Robots to Understand Semantic Concepts》的文章,探討了在機(jī)器人學(xué)習(xí)(robotic learning)方面的一些最新進(jìn)展。機(jī)器人學(xué)習(xí)是指通過機(jī)器人自動(dòng)收集的數(shù)據(jù)(量很大,但是缺乏標(biāo)簽)與人類的標(biāo)注數(shù)據(jù)結(jié)合起來從而允許其理解語義概念。通過深度視覺特征(deep visual features),機(jī)器人在人類演示中借助其數(shù)據(jù)理解顯性事件,模仿人類的行動(dòng),理解語義概念比如「玩具」和「鋼筆」從而根據(jù)用戶指令撿起物體。這次的實(shí)驗(yàn)可能為未來在自動(dòng)機(jī)器人系統(tǒng)中結(jié)合自監(jiān)督數(shù)據(jù)和人類標(biāo)注數(shù)據(jù)的工作指出了一條新的道路。

  機(jī)器學(xué)習(xí)可以使機(jī)器人具備復(fù)雜技能,比如抓取和開門。但是,學(xué)習(xí)這些技能需手動(dòng)編程機(jī)器人試圖優(yōu)化的獎(jiǎng)勵(lì)函數(shù)。與之相反,人類可以通過觀察別人理解任務(wù)目標(biāo),或者被簡單地告知目標(biāo)是什么。人類能夠做到這點(diǎn)是因?yàn)橛羞@個(gè)世界的背景知識:當(dāng)我們看到一個(gè)人切蘋果時(shí),我們明白目標(biāo)是切成兩半,而不管蘋果是什么種類的,或者切蘋果的工具是什么樣的。相似地,如果我們被告知撿起蘋果,我們可以通過語境確定哪個(gè)物體是蘋果,因?yàn)槲覀冎捞O果的意義是什么。

  這就是語義概念:切成兩半這種顯性事件(salient event)和單詞所指稱的物體概念比如蘋果。我們可以教會機(jī)器人理解語義概念、并使其遵循通過類別標(biāo)簽或用戶提供的實(shí)例指定的簡單命令嗎? 在本文中,我們探討了在機(jī)器人學(xué)習(xí)(robotic learning)方面的一些最新進(jìn)展,機(jī)器人學(xué)習(xí)把機(jī)器人自動(dòng)收集的數(shù)據(jù)(量很大,但是缺乏標(biāo)簽)與人類的標(biāo)注數(shù)據(jù)結(jié)合起來從而允許其理解語義概念。我們將會描述機(jī)器人如何在人類提供的演示中通過其數(shù)據(jù)理解顯性事件,模仿人類的行動(dòng),理解語義概念比如「玩具」和「鋼筆」以根據(jù)用戶指令撿起物體。

  通過深度視覺特征理解人類的演示

  在第一組實(shí)驗(yàn)中,我們的目標(biāo)是幫助機(jī)器人通過僅僅觀看若干個(gè)無標(biāo)注的人類演示來理解一個(gè)任務(wù),比如開門。通過分析這些演示,機(jī)器人必須先從語義上理解顯性事件,這對任務(wù)的成功很重要,接著運(yùn)用強(qiáng)化學(xué)習(xí)來執(zhí)行任務(wù)。


人類演示(左)與機(jī)器人模仿(右)

  小數(shù)據(jù)集上的無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中最具挑戰(zhàn)性的場景之一。為了使之可行,我們使用了深度視覺特征(deep visual feature),它來自一個(gè)被訓(xùn)練用來參加 ImageNet 圖像識別競賽的大型網(wǎng)絡(luò)。深度視覺特征對語義概念非常敏感,同時(shí)保持對諸如外觀和光線的滋擾變量(nuisance variables)的不變性。我們使用這些功能闡釋用戶提供的演示,結(jié)果證明以非監(jiān)督的形式從少許演示中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)確實(shí)是可能的,并且無需再訓(xùn)練。

  僅僅通過觀察開門任務(wù)來學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的實(shí)例。隨著任務(wù)的完成,獎(jiǎng)勵(lì)函數(shù)從零增加到最大值。

  在僅通過觀察學(xué)習(xí)了獎(jiǎng)勵(lì)函數(shù)之后,我們使用它去指導(dǎo)機(jī)器人學(xué)習(xí)開門任務(wù)(僅通過圖像評估獎(jiǎng)勵(lì)函數(shù))。借助于大約 10% 時(shí)間的初始動(dòng)作演示,機(jī)器人通過已學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)把精度提升到了 100%。


學(xué)習(xí)的進(jìn)程。

  通過自監(jiān)督和模擬來趕超人類動(dòng)作

  在《時(shí)間對比網(wǎng)絡(luò):多視角觀察的自監(jiān)督學(xué)習(xí)》(Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation)(https://sermanet.github.io/tcn/)中,我們提出了一種通過觀察理解世界的全新方法,并借助自監(jiān)督姿態(tài)模仿對其進(jìn)行了演示。我們的方法主要依賴于監(jiān)督的時(shí)空同現(xiàn):通過訓(xùn)練來區(qū)分來自視頻不同時(shí)段的幀,從而學(xué)習(xí)解開現(xiàn)實(shí)并將其組織為有用的抽象表征。

  以姿態(tài)模仿任務(wù)為例,表征的不同維度也許編碼一個(gè)人類或機(jī)器人身體的不同關(guān)節(jié)。我們沒有手動(dòng)定義人與機(jī)器人關(guān)節(jié)之間的映射(由于生理差異這首先是含糊不清的),而是讓機(jī)器人以端到端的形式學(xué)習(xí)模仿。當(dāng)我們的模型同時(shí)在人與機(jī)器人的觀察中被訓(xùn)練,即使沒有提供對應(yīng)關(guān)系,它也自然地會發(fā)現(xiàn)兩者的這種關(guān)系。因此我們無須給出人與機(jī)器人之間的對應(yīng)就獲得了模仿人類姿態(tài)的機(jī)器人。


機(jī)器人的自監(jiān)督式人類姿態(tài)模擬。

  端到端學(xué)習(xí)的好處的一個(gè)有力證據(jù)是上述的多對一和高度非線性節(jié)點(diǎn)映射。在這個(gè)實(shí)例中,上下的動(dòng)作需動(dòng)用人類的很多關(guān)節(jié),而機(jī)器人只需動(dòng)用一個(gè)就夠了。我們表明機(jī)器人已經(jīng)自己發(fā)現(xiàn)了高度復(fù)雜的映射,而無須任何明確的人類姿態(tài)信息。

  利用物體的語義類別進(jìn)行抓取

  上述實(shí)驗(yàn)說明人如何通過實(shí)例演示使機(jī)器人理解任務(wù)的語義——顯性事件及動(dòng)作的相關(guān)特征,進(jìn)而給機(jī)器人設(shè)定具體目標(biāo)。如果人類不向機(jī)器人演示任務(wù),僅僅告訴它怎么做,又會怎么樣呢?這仍然需要機(jī)器人理解語義,以識別用戶指定的語義類別所對應(yīng)的實(shí)物。在《語義抓取的端到端學(xué)習(xí)》(End-to-End Learning of Semantic Grasping)一文中,我們研究了如何使用人工標(biāo)注數(shù)據(jù)和自動(dòng)收集數(shù)據(jù)來執(zhí)行語義抓取任務(wù),該任務(wù)中機(jī)器人必須從一個(gè)塞滿的箱子里抓取用戶指定類別標(biāo)簽的物體,如「橡皮」或「玩具」。

  在我們的語義抓取實(shí)驗(yàn)設(shè)置中,機(jī)器臂的任務(wù)是抓取用戶指定語義類別的物體(如樂高玩具)。

  為了學(xué)習(xí)如何執(zhí)行語義抓取任務(wù),機(jī)器人首先通過自動(dòng)抓取多種物體來收集抓取數(shù)據(jù)集。這些數(shù)據(jù)可以使機(jī)器人抓取物體,但無法讓它理解如何將物體與語義標(biāo)簽對應(yīng)起來。為了使機(jī)器人理解語義,我們又進(jìn)行了少量的人類監(jiān)督。機(jī)器人每成功抓取到一個(gè)物體,都會以一個(gè)固定姿勢將物體放到攝像機(jī)前面,如下圖所示。

  機(jī)器人在抓取成功后,將物體放置在攝像機(jī)前面。這些圖像可用于標(biāo)注抓取物體的類別。

  人類將這些圖像的子集進(jìn)行標(biāo)注。由于這些圖像中機(jī)器人使用同一個(gè)姿勢呈現(xiàn)物體,因此在標(biāo)注樣本上訓(xùn)練分類器,進(jìn)而在剩余圖像上標(biāo)注標(biāo)簽就比較容易了。圖像標(biāo)注后,機(jī)器人可以從中了解實(shí)際抓取的物體,并將標(biāo)簽與物體抓取成功后觀察到的圖像聯(lián)系起來。

  使用這個(gè)標(biāo)注后的數(shù)據(jù)集,我們可以訓(xùn)練一個(gè)雙流模型,該模型基于當(dāng)前圖像和機(jī)器人可能的行動(dòng),可以預(yù)測即將抓取到的物體。該模型受到人類視覺皮質(zhì)中的背腹側(cè)流分解的啟發(fā),人類視覺皮質(zhì)中腹側(cè)流負(fù)責(zé)對物體的語義類別進(jìn)行推理,背側(cè)流負(fù)責(zé)對抓取物的幾何形狀進(jìn)行推理。最重要的是,腹側(cè)流可以吸納包括標(biāo)注物體圖像在內(nèi)的輔助數(shù)據(jù)(未必來自機(jī)器人),背側(cè)流可以吸納包含不帶有語義標(biāo)簽的抓取物的輔助數(shù)據(jù),這使得整個(gè)系統(tǒng)可通過大量復(fù)雜標(biāo)注數(shù)據(jù)進(jìn)行更高效的訓(xùn)練。通過這種方式,我們可以將有限的人類標(biāo)注數(shù)據(jù)和機(jī)器人自動(dòng)收集的數(shù)據(jù)結(jié)合起來,基于想要的語義類別抓取物體,如視頻中所示:

  展望

  我們的實(shí)驗(yàn)展示了如何將語義標(biāo)注數(shù)據(jù)和機(jī)器人自動(dòng)收集、自動(dòng)標(biāo)注的數(shù)據(jù)結(jié)合起來,進(jìn)而使機(jī)器人理解事件、物體類別以及用戶演示。未來,我們或許可以想象使用用戶標(biāo)注數(shù)據(jù)和不斷增加的自動(dòng)收集數(shù)據(jù)集來訓(xùn)練機(jī)器人系統(tǒng),以提高機(jī)器人的能力、減輕設(shè)計(jì)自動(dòng)機(jī)器人的工程負(fù)擔(dān)。另外,隨著機(jī)器人系統(tǒng)從真實(shí)世界中自動(dòng)標(biāo)注的數(shù)據(jù)不斷增加,這些數(shù)據(jù)不僅可用于改善機(jī)器人系統(tǒng),還可用于訓(xùn)練計(jì)算機(jī)視覺、語音識別和自然語言處理。

  當(dāng)然,我們不是第一個(gè)思考將機(jī)器人和語義結(jié)合起來的人。自然語言理解、機(jī)器感知、抓取、模仿學(xué)習(xí)領(lǐng)域的大量研究已經(jīng)考慮如何在機(jī)器人系統(tǒng)中結(jié)合語義和機(jī)器人行為。但是,我們的實(shí)驗(yàn)可能為未來在自動(dòng)機(jī)器人系統(tǒng)中結(jié)合自監(jiān)督數(shù)據(jù)和人類標(biāo)注數(shù)據(jù)的工作指出了一條新的道路。

關(guān)注官方微信

手機(jī)掃碼看新聞

巩留县| 沈阳市| 大丰市| 广水市| 石狮市| 敖汉旗| 华阴市| 蒲江县| 兰考县| 凌源市| 会宁县| 贵州省| 南部县| 夏津县| 阿鲁科尔沁旗| 陵川县| 宜宾县| 张家港市| 时尚| 米易县| 锡林浩特市| 客服| 平度市| 洛浦县| 徐汇区| 稻城县| 太仆寺旗| 阜康市| 浦城县| 剑阁县| 如东县| 三原县| 漠河县| 蓬溪县| 连山| 长丰县| 清丰县| 都江堰市| 盘锦市| 波密县| 竹北市|