

不同的機(jī)器人末端執(zhí)行器
機(jī)器人學(xué)家通常通過(guò)遠(yuǎn)程操作機(jī)器人執(zhí)行任務(wù)來(lái)教機(jī)器人新的任務(wù)。然后,機(jī)器人模仿演示,直到它能獨(dú)立完成任務(wù)。
雖然這種教授機(jī)器人的方法是有效的,但它將演示限制在實(shí)驗(yàn)室環(huán)境中,而且只有程序員和機(jī)器人專家可以做演示。谷歌公司機(jī)器人部門的一個(gè)研究小組一直在為機(jī)器人開發(fā)一種新的學(xué)習(xí)方法。
人類一直在通過(guò)觀察來(lái)學(xué)習(xí),但對(duì)機(jī)器人來(lái)說(shuō),這不是一個(gè)簡(jiǎn)單的任務(wù)。這對(duì)機(jī)器人來(lái)說(shuō)是很困難的,因?yàn)樗鼈兛雌饋?lái)與人類不同。例如,一個(gè)擁有雙指抓手的機(jī)器人不會(huì)從觀察一個(gè)擁有五指手的人類拿起一支筆的過(guò)程中獲得多少知識(shí)。
為了解決這個(gè)問(wèn)題,該團(tuán)隊(duì)引入了一種自我監(jiān)督的跨環(huán)境逆向強(qiáng)化學(xué)習(xí)(XIRL)方法。
這種教學(xué)方法的重點(diǎn)是機(jī)器人從視頻中學(xué)習(xí)高層次的任務(wù)目標(biāo)。因此,機(jī)器人不是試圖使單個(gè)人類行動(dòng)與機(jī)器人行動(dòng)相對(duì)應(yīng),而是弄清楚其最終目標(biāo)是什么。
然后,它以獎(jiǎng)勵(lì)函數(shù)的形式總結(jié)該信息,該函數(shù)對(duì)形狀、行動(dòng)和末端效應(yīng)器動(dòng)態(tài)等物理差異是不變的。通過(guò)利用學(xué)到的獎(jiǎng)勵(lì)和強(qiáng)化學(xué)習(xí),研究小組教機(jī)器人如何通過(guò)試驗(yàn)和錯(cuò)誤處理物體。
當(dāng)樣本視頻更加多樣化時(shí),機(jī)器人學(xué)得更多。實(shí)驗(yàn)表明,該團(tuán)隊(duì)的學(xué)習(xí)方法導(dǎo)致在新的體現(xiàn)上的樣本效率強(qiáng)化學(xué)習(xí)提高了2到4倍。
該團(tuán)隊(duì)已經(jīng)對(duì)其方法和X-MAGICAL(其模擬的跨實(shí)例模仿的基準(zhǔn))進(jìn)行了開源實(shí)施,以便讓其他人在他們的工作基礎(chǔ)上進(jìn)行擴(kuò)展和建設(shè)。
X-MAGICAL的創(chuàng)建是為了評(píng)估XIRL在一個(gè)一致的環(huán)境中的表現(xiàn)。該程序挑戰(zhàn)一組具有不同形狀和終端效應(yīng)器的代理體現(xiàn),以執(zhí)行一項(xiàng)任務(wù)。這些代理以不同的方式和速度執(zhí)行任務(wù)。
展示不同的形狀在X-MagICAL中執(zhí)行任務(wù)。|來(lái)源:谷歌
該團(tuán)隊(duì)還使用真實(shí)世界的人類示范任務(wù)進(jìn)行教學(xué)。他們用自己的方法來(lái)訓(xùn)練模擬的索耶爾手臂將冰球推入目標(biāo)區(qū)域。他們的教學(xué)方法也優(yōu)于基線方法。
該研究團(tuán)隊(duì)包括來(lái)自谷歌機(jī)器人技術(shù)的 Kevin Zakka、Andy Zeng、Pete Florence、Jonathan Tompson 和 Debidatta Dwibedi,以及來(lái)自斯坦福大學(xué)的 Jeannette Bohg。
Google正在成立一個(gè)名為 “Area 120” 的部門,該部門由公司高管 Don Harrison 和 Bradley Horowitz 直接負(fù)責(zé),用于支持員工進(jìn)行內(nèi)部創(chuàng)業(yè)。員工可提 BP申請(qǐng)加入,被批準(zhǔn)后其自發(fā)組織的團(tuán)隊(duì)便可全職為新想法而工作,如果成功的話可以單獨(dú)成立公司并獲得 Google 投資。有評(píng)論稱Google此舉是為了阻止員工跳槽創(chuàng)業(yè)公司。
Google成立新部門Area120支持員工內(nèi)部創(chuàng)業(yè)
這個(gè)名為“Area 120”的Google內(nèi)部創(chuàng)業(yè)孵化器由公司高管唐·哈里斯(Don Harrison)和布拉德利·霍洛維茨(Bradley Horowitz)掌管。在最近舉行的全員大會(huì)上,兩位高管對(duì)新組織做了介紹。
“Area 120”辦公地位于Google舊金山新辦公樓內(nèi)。Google高管希望Area 120可以讓富有企業(yè)家精神的員工在公司工作更長(zhǎng)時(shí)間,同時(shí)還可以物色大創(chuàng)意。孵化器主要面向員工,目的是保持創(chuàng)業(yè)氛圍,和一些熱門企業(yè)家建立聯(lián)系。孵化器的運(yùn)作細(xì)節(jié)尚未確定,目前大體框架如下:Google團(tuán)隊(duì)可以申請(qǐng)加入孵化器,全職工作幾個(gè)月,提交具體商業(yè)計(jì)劃;之后,他們有機(jī)會(huì)收到Google的投資意向書,建立一家新公司,Google是投資者。
Google有一個(gè)眾所周知的傳統(tǒng)就是鼓勵(lì)員工用20%的工作時(shí)間研究自己喜歡的項(xiàng)目,新孵化器之所以取名“Area 120”正是向該制度致敬。從理論上講,Area 120允許員工全職研究喜歡的項(xiàng)目。
目前Google已經(jīng)成立了Google風(fēng)投(Google Ventures)和Google資本(Google Capital)兩家公司,它們的目標(biāo)也是為創(chuàng)業(yè)公司提供資金支持,將一些富有企業(yè)家精神的前Google員工留在公司之內(nèi)。不清楚這些基金公司是否會(huì)與Area 120合作,照推測(cè)Area 120的資金應(yīng)該來(lái)自Google企業(yè)發(fā)展預(yù)算之外。


