想讓機器人更快更好的掌握抓取技術(shù)？給它們找個喜歡不停搗亂的陪練吧

2017-06-09 08:06 性質(zhì)：轉(zhuǎn)載作者：雷鋒網(wǎng) 來源：雷鋒網(wǎng)

免責(zé)聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機構(gòu)所有。文章內(nèi)容觀點，與本網(wǎng)無關(guān)。如有需要刪除，敬請來電商榷?。?/div>

為了提升機器人完成操作任務(wù)（如抓?。┑哪芰?，卡耐基梅隆大學(xué)（CMU）和谷歌的研究人員讓機器人通過對抗訓(xùn)練來不斷進步。在訓(xùn)練中，“敵方”機器人會試圖阻礙另一臺機器人抓取物品（就像...

　　為了提升機器人完成操作任務(wù)（如抓?。┑哪芰?，卡耐基梅隆大學(xué)（CMU）和谷歌的研究人員讓機器人通過對抗訓(xùn)練來不斷進步。在訓(xùn)練中，“敵方”機器人會試圖阻礙另一臺機器人抓取物品（就像功夫熊貓中阿寶和師傅用筷子搶包子）。當(dāng)然，研究人員還準(zhǔn)備了更高難度的訓(xùn)練項目，他們有時會讓同一個機器人的兩只機械臂直接玩“左右互搏”，讓一只機械臂阻止另一只抓取物品。

　　你知道在機器人研究中什么最無聊和乏味嗎？當(dāng)然是訓(xùn)練它們抓取不同的物品?，F(xiàn)在有了 AI，研究人員再也不用看著這些“傻孩子”學(xué)習(xí)了，在自監(jiān)督學(xué)習(xí)模式下，機器人會通過不同的方式不斷嘗試抓取物品。不過，這一過程可能要花費數(shù)千小時，而且即使機器人大致掌握了抓取的技巧，它也很難理解什么才是最棒的抓取方式。

　　這種訓(xùn)練方式的問題在于，大多數(shù)時間這些技術(shù)都在利用最基本的傳感器來看待抓取的動作，這樣的視角過于二元化，它們只在乎機器人是否拿起了目標(biāo)物體，只要拿起來就算成功。不過，在現(xiàn)實世界中抓取是否成功可不是這個標(biāo)準(zhǔn)，因為不穩(wěn)定的抓取會讓物體墜落的可能性增大。此外，如果讓機器人抓起一個盛了湯的碗，現(xiàn)有的粗暴抓取法肯定不可取，畢竟現(xiàn)實世界不是實驗室。

　　出于這一考慮，CMU 和谷歌的研究人員決定將博弈論和深度學(xué)習(xí)用在機器人的訓(xùn)練中，而他們用到的方法就是開頭提到的“搗亂法”，一臺機器人會想方設(shè)法讓對手無法抓起目標(biāo)物體。

　　上周，該項目參與者 Lerrel Pinto、James Davidson 和 Abhinav Gupta 在 ICRA 展示了他們的研究成果，研究人員將這種對抗的方法描述為“雙人零和重復(fù)博弈法”（零和博弈來自著名的博弈論）。在互相“拆臺”的戰(zhàn)斗中，雙方都用到了卷積神經(jīng)網(wǎng)絡(luò)，一方會專注于抓取物品，另一方則要阻止對方抓取物品。

　　在訓(xùn)練中，一心要抓取物品的機器人不但要躲過對方不斷襲來的“黑手”，還要處理重力、慣性和摩擦力等因素帶來的影響。如果想進一步提升機器人的抓取能力，還可設(shè)定抓到物品機械臂就會搖晃幾下的壞招（希望抓娃娃機老板不要學(xué)會這一招）。這樣一來，加上另一只不停搗亂想要搶奪物品的機械臂，機器人的抓取能力就能提升到新的境界。

　　如果搗亂的機械臂成功打掉或搶走負責(zé)抓取機械臂手中的物品，那么這次抓取任務(wù)就算失敗，在訓(xùn)練過程中抓取程序會不斷從失敗中吸取教訓(xùn)。與此同時，負責(zé)搗亂的程序則會從成功中找到新的法門，兩者會在“嬉戲打鬧”中共同進步。這也是該項目具有重大現(xiàn)實意義的原因，機器人要想走出實驗室，必須保證能在挑戰(zhàn)不斷的環(huán)境中不犯錯。

一臺機器人試圖從對手那里奪下抓取的物品

　　研究人員表示，他們的對抗策略確實能加快機器人的訓(xùn)練進程，這種方法培養(yǎng)的系統(tǒng)更加強大。經(jīng)過測試，三次迭代后，其抓取成功率從 43% 升到了 58%，而沒有采用對抗策略訓(xùn)練的機器人，抓取成功率僅為 47%。

　　該結(jié)果可以清楚的表明，有個給機器人“拆臺”的伙伴監(jiān)督和陪練，作用可比傻乎乎的搜集抓取數(shù)據(jù)大多了。雷鋒網(wǎng)注意到，研究人員公布的測試數(shù)據(jù)顯示，6 千次的陪練后，機器人的抓取成功率比機器人自己單練 1.6 萬次都要高。因此，對抗策略在機器人訓(xùn)練中明顯更有優(yōu)勢。

　　經(jīng)過一段時間的訓(xùn)練后，有陪練的機器人抓取成功率提升到了 82%，而沒有這個待遇的機器人成功率僅為 68%。更令人驚訝的是，即使降低抓取機器人的力量和抓手的摩擦力，其成功率依然有 65%，而采用單練策略的機器人則下滑至 47%。

　　在這一過程中，研究人員也使盡了自己“一肚子壞水”，他們專門觀摩了單練機器人容易失誤的地方，并將這些破綻編入了搗亂機器人的程序中。同時，在訓(xùn)練中搗亂機器人不斷的搶奪也是物品掉落的重要因素。當(dāng)然，只有經(jīng)歷了這樣的魔鬼訓(xùn)練，抓取機器人才能練出一身技藝。