蘇黎世聯(lián)邦理工學(xué)院提出了一種能夠自我改進其語義感知能力的機器人系統(tǒng)

2021-05-12 10:12 性質(zhì)：翻譯作者：秋明來源：中國AGV網(wǎng)

免責(zé)聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機構(gòu)所有。文章內(nèi)容觀點，與本網(wǎng)無關(guān)。如有需要刪除，敬請來電商榷?。?/div>

移動智能機器人正在越來越多的非結(jié)構(gòu)化環(huán)境中部署，它們有望在其中執(zhí)行復(fù)雜的動態(tài)任務(wù)，例如自主移動和移動操縱。這種基于學(xué)習(xí)的機器人不僅需要獲取有關(guān)其環(huán)境的基本信息，而且還必須針對諸如對象...

移動智能機器人正在越來越多的非結(jié)構(gòu)化環(huán)境中部署，它們有望在其中執(zhí)行復(fù)雜的動態(tài)任務(wù)，例如自主移動和移動操縱。這種基于學(xué)習(xí)的機器人不僅需要獲取有關(guān)其環(huán)境的基本信息，而且還必須針對諸如對象檢測和語義分類之類的因素建立這種理解。

通常，在各種基于數(shù)據(jù)的預(yù)訓(xùn)練靜態(tài)模型會部署在特定的基于學(xué)習(xí)的機器人系統(tǒng)中。因此，期望了解語義（即場景中發(fā)生的事情）的機器人將在其預(yù)訓(xùn)練階段學(xué)習(xí)如何做到這一點。這種方法帶來了三個主要挑戰(zhàn)：可能需要對模型進行重新訓(xùn)練以合并新數(shù)據(jù)；在適應(yīng)新的任務(wù)和環(huán)境的同時，應(yīng)保留獲得的知識；部署期間需要環(huán)境的訓(xùn)練信號。

蘇黎世聯(lián)邦理工學(xué)院的研究團隊對建筑機器人的自我改進語義感知提出了一種新方法，該方法將持續(xù)學(xué)習(xí)和自我監(jiān)督結(jié)合在一個新穎的機器人系統(tǒng)中，以實現(xiàn)對語義場景理解的在線終身自我監(jiān)督學(xué)習(xí)。

在先前的工作中，已經(jīng)在兩個框架（強化學(xué)習(xí)（RL）和用于模型預(yù)測控制的在線參數(shù)優(yōu)化）下探索了自我改進學(xué)習(xí)型機器人代理的想法。在RL的情況下，機器人可以學(xué)習(xí)執(zhí)行其所需的任務(wù)，例如行走、抓物體、飛行等。但一旦掌握了這些技能，學(xué)習(xí)的模型便會固定，這樣的機器人因此缺乏任何終身學(xué)習(xí)能力。用于模型預(yù)測控制框架的在線參數(shù)優(yōu)化使機器人可以從在職學(xué)習(xí)中受益，但不會解決另一個問題：遺忘。

以前關(guān)于自我監(jiān)督學(xué)習(xí)的許多研究都集中在學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)中有用的圖像特征上。缺點是這些方法需要監(jiān)督才能將學(xué)習(xí)到的功能與任何含義相關(guān)聯(lián)。其他方法旨在產(chǎn)生用于圖像分割的偽標(biāo)簽，例如為圖像生成稀疏區(qū)域注釋的圖像分類器的類激活圖（CAM）。新論文通過使用環(huán)境的可觀察特征來生成用于目標(biāo)任務(wù)的學(xué)習(xí)信號，同時利用相關(guān)任務(wù)中的現(xiàn)有注釋數(shù)據(jù)作為先驗知識來完善后一種方法。在后續(xù)學(xué)習(xí)中，從各種任務(wù)和領(lǐng)域的非平穩(wěn)數(shù)據(jù)分布中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，目的是優(yōu)化每個任務(wù)的性能，以及在將知識從先前任務(wù)轉(zhuǎn)移到當(dāng)前任務(wù)時保持性能。一種方法是存儲來自先前任務(wù)的所有數(shù)據(jù)，并為每個新任務(wù)從頭開始重新訓(xùn)練網(wǎng)絡(luò)。但是，由于內(nèi)存有限，這個方法不切實際，因為需要同時更新和部署模型。為了解決這個問題，研究人員提出了“重播緩沖區(qū)”，通過記憶功能來補充每個新環(huán)境中的訓(xùn)練數(shù)據(jù)，該記憶功能可保留來自先前環(huán)境的有限數(shù)量的樣本。先前關(guān)于在語義分割的上下文中應(yīng)用持續(xù)學(xué)習(xí)的研究通常假定源域和目標(biāo)域在訓(xùn)練時都是已知的，并且模型并未設(shè)計為在線更新。相反，蘇黎世聯(lián)邦理工學(xué)院的方法假定部署域事先未知，并且代理必須連續(xù)更新當(dāng)前環(huán)境中的語義知識，而不會忘記以前看到的環(huán)境。

將這些部分放在一起，提出的自我改進感知系統(tǒng)將地圖內(nèi)的本地化與場景的語義分段互連起來。研究人員基于地圖本地化創(chuàng)建偽標(biāo)簽，以訓(xùn)練語義分割，并使用此前景和背景分割來告知本地化，從而創(chuàng)建一個反饋環(huán)，從而對這兩個部分都進行改進。該團隊在增加復(fù)雜性的不同步驟和三種不同環(huán)境（建筑工地，停車場和辦公室）中評估了所提議框架的性能。為了進行自我改進能力測試，將機器人部署在不同的未知環(huán)境中，并對獲得的改進進行了測量。為了忘記和知識轉(zhuǎn)移效果評估，在不同環(huán)境之間切換了部署。他們還進行了一項實驗，以測試機器人的在線學(xué)習(xí)能力。