


科幻小說中平行宇宙多是由與人類難以區(qū)分的機(jī)器人組成的。這些機(jī)器人通常比我們更聰明、更敏捷、更強(qiáng)壯。他們似乎有能力做任何可以想象到的工作,從駕駛星際飛船、對(duì)抗外星人入侵,到清理垃圾以及烹飪美食。
當(dāng)然,現(xiàn)實(shí)遠(yuǎn)非幻想。除了工業(yè)環(huán)境之外,機(jī)器人仍未達(dá)到《杰森一家》中機(jī)器人的程度。公眾所接觸到的機(jī)器人似乎不過是一些尺寸過大的塑料玩具,它們被事先設(shè)定好執(zhí)行一系列任務(wù)的程序,卻沒有能力與周圍的環(huán)境或他們的創(chuàng)造者進(jìn)行有意義的互動(dòng)。
套用PayPal聯(lián)合創(chuàng)始人、科技企業(yè)家PeterThiel的話來說就是“我們本想要酷酷的機(jī)器人,但我們只得到了有著140字輸入限制的漢堡機(jī)器人Flippy”。但是,科學(xué)家們正在逐步取得進(jìn)展,賦予機(jī)器人與人類一樣的能力,可以對(duì)周圍的環(huán)境進(jìn)行觀察并作出反應(yīng)。
本月該領(lǐng)域取得了一些最新進(jìn)展,在年度機(jī)器人大會(huì)暨馬薩諸塞州劍橋科學(xué)與系統(tǒng)會(huì)議上所提出來了關(guān)于機(jī)器人的新議題,深入探討了一些話題,包括如何讓機(jī)器人更健談,如何幫助機(jī)器人理解語言的模糊性,以及幫助機(jī)器人在復(fù)雜的空間中觀察和導(dǎo)航等。

優(yōu)化的視覺
杜克大學(xué)的研究生BenBurchfiel以及他的導(dǎo)師GeorgeKonidaris、布朗大學(xué)計(jì)算機(jī)科學(xué)助理教授,提出了一種新算法,可以讓機(jī)器能夠從更像人類的視角來看待這個(gè)世界。
在論文中,Burchfiel和Konidaris展示了他們?nèi)绾文芙虝?huì)機(jī)器人識(shí)別物體并盡可能操縱三維物體——即使物品可能被遮住或放置在陌生的位置上,比如被打翻的茶壺。
研究人員對(duì)機(jī)器人的算法進(jìn)行了訓(xùn)練,方式是對(duì)大約4,000種常見的家用物品進(jìn)行3D掃描,如床鋪、椅子、桌子、馬桶等。然后,他們測試了機(jī)器人以鳥類視角的視覺能力和分辨出900個(gè)新的3D物體的觀察能力。相對(duì)于其他計(jì)算機(jī)視覺技術(shù)只有50%的正確率而言,該算法的準(zhǔn)確率高達(dá)75%。
研究人員表示,他們并不是第一批研究并訓(xùn)練機(jī)器對(duì)3D物體進(jìn)行分類的。但和其他的研究不同的是,他們對(duì)機(jī)器人學(xué)習(xí)物體分類的空間進(jìn)行了限制。
“想象一下所有可能的物體存在的空間,”研究人員解釋道:“這就是說,假如你有微型樂高積木,我告訴你,你可以隨意將它們粘在一起來創(chuàng)造不同的東西。你可以創(chuàng)造出很多東西!”

這種無限的可能性最終可能會(huì)給人類或機(jī)器創(chuàng)造出識(shí)別不了的物體。
為了解決這個(gè)問題,研究人員讓他們的算法找到了一個(gè)更有限的空間,以容納它將要辨認(rèn)的物體。通過在這個(gè)有限空間中工作——從數(shù)學(xué)上說,我們稱之為子空間——極大地簡化了分類任務(wù)。正因?yàn)榘l(fā)現(xiàn)了這個(gè)空間才讓研究人員擁有了區(qū)別于以往的方法。
服從命令

與此同時(shí),布朗大學(xué)的兩名本科生找到了一種方法,可以讓機(jī)器人更好地理解方向概念,甚至在不同程度的抽象概念上也可以完成。
由DilipArumugam和SiddharthKaramcheti帶領(lǐng)的這項(xiàng)研究探討了如何訓(xùn)練機(jī)器人理解自然語言的細(xì)微差別,以及隨后如何正確有效地遵循指令。
“問題在于,命令可以有不同的抽象級(jí)別,這可能會(huì)導(dǎo)致機(jī)器人無法有效地規(guī)劃其行為或根本無法完成任務(wù)?!盇rumugam說。
在這個(gè)項(xiàng)目中,研究人員提供了將虛擬機(jī)器人移動(dòng)到在線域名的說明。該空間包括幾個(gè)房間和一把椅子,機(jī)器人被告知要從一個(gè)地方到另一個(gè)地方操縱。志愿者向機(jī)器人發(fā)出各種指令,這些指令既有較為概括的,比如“把椅子帶到藍(lán)色房間”,也有一步一步的具體指令。
然后,研究人員使用指令數(shù)據(jù)庫來教系統(tǒng)理解不同的表達(dá)方式。這臺(tái)機(jī)器不僅學(xué)會(huì)了遵循指令,還學(xué)會(huì)了識(shí)別不同抽象程度的話語。這是解決問題的能力,以最合適的方式解決這個(gè)問題的關(guān)鍵。
研究最終從虛擬環(huán)境進(jìn)入了真實(shí)世界,使用了一個(gè)和Roomba相似的機(jī)器人,90%的情況下,該機(jī)器人可以做到一秒內(nèi)對(duì)指令作出反應(yīng)。相反,當(dāng)無法識(shí)別任務(wù)的特異性時(shí),機(jī)器人需要20秒或更長的時(shí)間來完成或計(jì)劃。
論文中提到的這種新機(jī)器學(xué)習(xí)技術(shù)的一個(gè)應(yīng)用是在倉庫環(huán)境中工作的機(jī)器工人,但還有許多領(lǐng)域可以從更全能的機(jī)器中受益,這種機(jī)器能夠在具體操作和一般化任務(wù)之間無縫切換。
“其他可能受益于這樣系統(tǒng)的領(lǐng)域包括自動(dòng)駕駛汽車、輔助機(jī)器人技術(shù)以及醫(yī)療機(jī)器人等?!盨ingularityHub在回答一封郵件來信時(shí)這樣說。
還有更多值得期待

這些研究成果有助于幫助人們實(shí)現(xiàn)創(chuàng)造出可以像人類那樣看、聽和行動(dòng)的類人機(jī)器人的理想。不過,這距離真正創(chuàng)造出類人機(jī)器人還有很長的路要走。
“我們目前所采取的學(xué)習(xí)模式還不能達(dá)到這一點(diǎn),前面有很多障礙:從看似簡單的問題,比如如何處理從未見過的單詞,如何處理更困難、更復(fù)雜的問題,如何解決語言中固有的含糊性,例如習(xí)語或比喻表達(dá)等。”
即使相對(duì)“話多”的聊天機(jī)器人也可能會(huì)被問的無言以對(duì),因?yàn)槲磥砣藱C(jī)談話可能變得更加復(fù)雜。根據(jù)Burchfiel的說法,人類的視力也是如此。
雖然深度學(xué)習(xí)技術(shù)極大地改善了模式匹配——谷歌能找到任何一張貓的照片——但人類的視力具有的能力遠(yuǎn)不止于找東西。
“有兩大領(lǐng)域我認(rèn)為人工智能的認(rèn)知還有很長的路要走:歸納性偏見和形式推理,”Burchfiel說。他解釋道,前者本質(zhì)上是人們用來幫助他們推理的背景知識(shí)。他使用大街上的一個(gè)水坑作為例子。例如,人們習(xí)慣于認(rèn)為這是一灘水,而不是一塊玻璃。他說:“這種偏見可以解釋為什么當(dāng)人們看著云的時(shí)候我們會(huì)認(rèn)為看到了人臉,因?yàn)槲覀儗?duì)于人臉有很強(qiáng)的偏好?!彪m然乍一聽起來很簡單,但它卻為我們所做的大部分事情提供了動(dòng)力。人類對(duì)自己期望看到的東西有一種非常直觀的理解,這讓認(rèn)知變得更容易。
形式推理同樣重要。在Burchfiel的例子中,當(dāng)一臺(tái)機(jī)器學(xué)習(xí)了水向下流的原理后,它可以利用深度學(xué)習(xí)算法計(jì)算出所有河流的流向。但它還沒有擁有人類將此知識(shí)擴(kuò)展到其他事物上的能力,例如研究水在火星的管道系統(tǒng)里是如何運(yùn)動(dòng)的。
“在過去的幾十年里,我們做了很多這樣的形式推理……但我們還沒有找到如何將它與標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)方法結(jié)合起來以創(chuàng)造出一個(gè)在現(xiàn)實(shí)世界中有益的無縫化系統(tǒng)?!盉urchfiel表示。機(jī)器人在人類身上還有很多東西需要學(xué)習(xí),這應(yīng)該會(huì)讓我們感覺良好,因?yàn)檫@證明人類才是地球上最復(fù)雜的。

