nm99热,好吊视频欧美,无码二区三区,久久久精品伦理一区,自拍三区四区,9热无码第一页,久久久日韩无码精品,日韩有码一区在线亚洲,亚洲色91

發(fā)布詢價(jià)單
您的位置:首頁(yè) > 資訊 > 行業(yè)資訊 > 正文

Anca Dragan CoRL 演講解讀:機(jī)器人與人類如何相互影響及更好協(xié)作?

2017-11-19 07:38 性質(zhì):轉(zhuǎn)載 作者:雷鋒網(wǎng) 來源:雷鋒網(wǎng)
免責(zé)聲明:AGV網(wǎng)(m.wnmc.org.cn)尊重合法版權(quán),反對(duì)侵權(quán)盜版。(凡是我網(wǎng)所轉(zhuǎn)載之文章,文中所有文字內(nèi)容和圖片視頻之知識(shí)產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn),與本網(wǎng)無關(guān)。如有需要?jiǎng)h除,敬請(qǐng)來電商榷?。?/div>

而且我們不能用一些線下訓(xùn)練的模型來用來套到實(shí)際的駕駛中,萬一遇到之前那個(gè)不肯避讓的二愣子卡車司機(jī)就麻煩了。所以需要對(duì)每個(gè)司機(jī)的行為進(jìn)行具體的估計(jì)。

通過對(duì)人類司機(jī)駕駛軌跡的觀察,可以推斷出司機(jī)的駕駛風(fēng)格:比較激進(jìn)或者比較保守,并采取正確的策略,如判斷對(duì)方是一個(gè)保守型的司機(jī)的時(shí)候,在其前面變道超車對(duì)方通常會(huì)避讓。

像這種情況的激進(jìn)型司機(jī),無人車只能放棄變道。

而在十字路口的例子中,無人車需要判斷這個(gè)司機(jī)是否注意其他車輛的動(dòng)作。

在優(yōu)化之外的緊急場(chǎng)景的系統(tǒng)協(xié)調(diào)策略又是怎樣的呢?

當(dāng)僅和最終用戶交互的時(shí)候,無需考慮兩個(gè)效用函數(shù),只需要和人類站一邊考慮UH最大化即可。

上述討論的很多都是機(jī)器人如何估計(jì)人類隱藏參數(shù)的研究,另一種方式則是人如何思考與機(jī)器人互動(dòng)中的參數(shù)的推斷,這方面的研究一直在進(jìn)行,而且需要機(jī)器人有更多的表現(xiàn)力。對(duì)于不同人,機(jī)器人同樣的動(dòng)作也會(huì)產(chǎn)生不同的后果,即便人類無法正確推斷機(jī)器人行為的時(shí)候,至少要讓他們知道發(fā)生了什么事,你想做的是什么,為什么交互沒有取得更好的結(jié)果等等。機(jī)器人需要注意這個(gè)更微妙的影響,因?yàn)樗鼪Q定了人們是否了解機(jī)器人正在做什么,是否有信心在執(zhí)行任務(wù)等。

然而我們(設(shè)計(jì)者)在為機(jī)器人指定效用函數(shù)的時(shí)候做的不怎么樣,機(jī)器人的獎(jiǎng)勵(lì)值通常具有不確定性,這往往會(huì)帶來出人意料的結(jié)果。

例如在OpenAI的一篇論文中,白色小船的目標(biāo)是在游戲中獲得盡可能多的分,但在這里白色小船卻偏離了賽道打起圈子(因?yàn)槟懿粩喑缘綄毾洌?

另一個(gè)例子,如果設(shè)定一個(gè)吸塵機(jī)器人的獎(jiǎng)勵(lì)函數(shù)是吸盡量多的灰塵,那么機(jī)器人會(huì)不會(huì)在吸完灰塵后把手機(jī)起來的灰塵倒出來,然后繼續(xù)吸塵以達(dá)到最大的獎(jiǎng)勵(lì)值?

又或者,像迪士尼動(dòng)畫片米奇用魔法教一把掃把幫其挑水,最后這把掃把不斷挑水(獲得最大獎(jiǎng)勵(lì)值)把整個(gè)屋子給淹了一樣;

讓我們來分析一下這是如何產(chǎn)生的。例如小船游戲的例子,當(dāng)設(shè)置得分為獎(jiǎng)勵(lì)值,當(dāng)機(jī)器發(fā)現(xiàn)有兩個(gè)策略:1)排名第一但僅獲得20分;2)排名靠后但能獲得50分,機(jī)器人選擇的是后者。

這樣,設(shè)計(jì)者需要改變獎(jiǎng)勵(lì)值(找到真正的獎(jiǎng)勵(lì)值)以使得機(jī)器人按預(yù)定目標(biāo)進(jìn)行決策,或者讓機(jī)器人能夠推測(cè)到設(shè)計(jì)者的真正意圖。但二者均有不足之處。

另一個(gè)包含草地、灰塵、熔巖和最終目標(biāo)的導(dǎo)航場(chǎng)景的例子。

假設(shè)訓(xùn)練時(shí)的狀態(tài),獎(jiǎng)勵(lì)函數(shù)是盡可能少走草地得分越高的話,結(jié)果會(huì)如上圖所示(此時(shí)沒有出現(xiàn)熔巖)。

策略1:設(shè)計(jì)師有基于指標(biāo)的指示器,并建立從原始觀察值到指標(biāo)的分類器,此時(shí)將訓(xùn)練的模型放到有巖漿的例子中時(shí),機(jī)器人往往會(huì)越過巖漿到達(dá)終點(diǎn)(并非想要的結(jié)果)

策略2:而如果設(shè)定反向激勵(lì),機(jī)器人會(huì)對(duì)訓(xùn)練時(shí)未出現(xiàn)的元素敬而遠(yuǎn)之,機(jī)器人不知道巖漿是好雞還是懷,也可能如上圖所示錯(cuò)過“金礦”。

通過以上例子,說明需要在訓(xùn)練環(huán)境的背景下對(duì)特定的獎(jiǎng)勵(lì)進(jìn)行觀察找到真正的獎(jiǎng)勵(lì),而在執(zhí)行中人類的指導(dǎo)則是找到真正獎(jiǎng)勵(lì)的關(guān)鍵(如迪士尼動(dòng)畫片中,米奇讓掃把停止打水)。

這樣,機(jī)器人可以從從豐富的指導(dǎo)模式中學(xué)習(xí)。

簡(jiǎn)單來說,如果機(jī)器人能夠理解它可能對(duì)人類情緒造成的影響,就可以更好地進(jìn)行決策,并在更廣泛的領(lǐng)域于人類更有效進(jìn)行協(xié)作,給我們生活帶來更多便利與驚喜。

12下一頁(yè)

關(guān)注官方微信

手機(jī)掃碼看新聞

仁化县| 宁河县| 靖西县| 柳江县| 昂仁县| 乐业县| 长丰县| 临城县| 格尔木市| 尚义县| 玛纳斯县| 鹤庆县| 石首市| 扬中市| 顺义区| 清镇市| 桐庐县| 白朗县| 开封市| 乌兰察布市| 邵武市| 共和县| 宿州市| 林周县| 安达市| 普安县| 平定县| 麻城市| 平利县| 丹阳市| 柳州市| 丰宁| 安福县| 达日县| 集安市| 海丰县| 定兴县| 樟树市| 镇远县| 白河县| 二手房|