



通過對(duì)人類司機(jī)駕駛軌跡的觀察,可以推斷出司機(jī)的駕駛風(fēng)格:比較激進(jìn)或者比較保守,并采取正確的策略,如判斷對(duì)方是一個(gè)保守型的司機(jī)的時(shí)候,在其前面變道超車對(duì)方通常會(huì)避讓。

像這種情況的激進(jìn)型司機(jī),無人車只能放棄變道。

而在十字路口的例子中,無人車需要判斷這個(gè)司機(jī)是否注意其他車輛的動(dòng)作。

在優(yōu)化之外的緊急場(chǎng)景的系統(tǒng)協(xié)調(diào)策略又是怎樣的呢?


當(dāng)僅和最終用戶交互的時(shí)候,無需考慮兩個(gè)效用函數(shù),只需要和人類站一邊考慮UH最大化即可。

上述討論的很多都是機(jī)器人如何估計(jì)人類隱藏參數(shù)的研究,另一種方式則是人如何思考與機(jī)器人互動(dòng)中的參數(shù)的推斷,這方面的研究一直在進(jìn)行,而且需要機(jī)器人有更多的表現(xiàn)力。對(duì)于不同人,機(jī)器人同樣的動(dòng)作也會(huì)產(chǎn)生不同的后果,即便人類無法正確推斷機(jī)器人行為的時(shí)候,至少要讓他們知道發(fā)生了什么事,你想做的是什么,為什么交互沒有取得更好的結(jié)果等等。機(jī)器人需要注意這個(gè)更微妙的影響,因?yàn)樗鼪Q定了人們是否了解機(jī)器人正在做什么,是否有信心在執(zhí)行任務(wù)等。

然而我們(設(shè)計(jì)者)在為機(jī)器人指定效用函數(shù)的時(shí)候做的不怎么樣,機(jī)器人的獎(jiǎng)勵(lì)值通常具有不確定性,這往往會(huì)帶來出人意料的結(jié)果。

例如在OpenAI的一篇論文中,白色小船的目標(biāo)是在游戲中獲得盡可能多的分,但在這里白色小船卻偏離了賽道打起圈子(因?yàn)槟懿粩喑缘綄毾洌?
另一個(gè)例子,如果設(shè)定一個(gè)吸塵機(jī)器人的獎(jiǎng)勵(lì)函數(shù)是吸盡量多的灰塵,那么機(jī)器人會(huì)不會(huì)在吸完灰塵后把手機(jī)起來的灰塵倒出來,然后繼續(xù)吸塵以達(dá)到最大的獎(jiǎng)勵(lì)值?

又或者,像迪士尼動(dòng)畫片米奇用魔法教一把掃把幫其挑水,最后這把掃把不斷挑水(獲得最大獎(jiǎng)勵(lì)值)把整個(gè)屋子給淹了一樣;

讓我們來分析一下這是如何產(chǎn)生的。例如小船游戲的例子,當(dāng)設(shè)置得分為獎(jiǎng)勵(lì)值,當(dāng)機(jī)器發(fā)現(xiàn)有兩個(gè)策略:1)排名第一但僅獲得20分;2)排名靠后但能獲得50分,機(jī)器人選擇的是后者。


這樣,設(shè)計(jì)者需要改變獎(jiǎng)勵(lì)值(找到真正的獎(jiǎng)勵(lì)值)以使得機(jī)器人按預(yù)定目標(biāo)進(jìn)行決策,或者讓機(jī)器人能夠推測(cè)到設(shè)計(jì)者的真正意圖。但二者均有不足之處。


另一個(gè)包含草地、灰塵、熔巖和最終目標(biāo)的導(dǎo)航場(chǎng)景的例子。

假設(shè)訓(xùn)練時(shí)的狀態(tài),獎(jiǎng)勵(lì)函數(shù)是盡可能少走草地得分越高的話,結(jié)果會(huì)如上圖所示(此時(shí)沒有出現(xiàn)熔巖)。


策略1:設(shè)計(jì)師有基于指標(biāo)的指示器,并建立從原始觀察值到指標(biāo)的分類器,此時(shí)將訓(xùn)練的模型放到有巖漿的例子中時(shí),機(jī)器人往往會(huì)越過巖漿到達(dá)終點(diǎn)(并非想要的結(jié)果)


策略2:而如果設(shè)定反向激勵(lì),機(jī)器人會(huì)對(duì)訓(xùn)練時(shí)未出現(xiàn)的元素敬而遠(yuǎn)之,機(jī)器人不知道巖漿是好雞還是懷,也可能如上圖所示錯(cuò)過“金礦”。


通過以上例子,說明需要在訓(xùn)練環(huán)境的背景下對(duì)特定的獎(jiǎng)勵(lì)進(jìn)行觀察找到真正的獎(jiǎng)勵(lì),而在執(zhí)行中人類的指導(dǎo)則是找到真正獎(jiǎng)勵(lì)的關(guān)鍵(如迪士尼動(dòng)畫片中,米奇讓掃把停止打水)。

這樣,機(jī)器人可以從從豐富的指導(dǎo)模式中學(xué)習(xí)。
簡(jiǎn)單來說,如果機(jī)器人能夠理解它可能對(duì)人類情緒造成的影響,就可以更好地進(jìn)行決策,并在更廣泛的領(lǐng)域于人類更有效進(jìn)行協(xié)作,給我們生活帶來更多便利與驚喜。

