

移動智能機器人正在越來越多的非結(jié)構(gòu)化環(huán)境中部署,它們有望在其中執(zhí)行復(fù)雜的動態(tài)任務(wù),例如自主移動和移動操縱。這種基于學(xué)習(xí)的機器人不僅需要獲取有關(guān)其環(huán)境的基本信息,而且還必須針對諸如對象檢測和語義分類之類的因素建立這種理解。
通常,在各種基于數(shù)據(jù)的預(yù)訓(xùn)練靜態(tài)模型會部署在特定的基于學(xué)習(xí)的機器人系統(tǒng)中。因此,期望了解語義(即場景中發(fā)生的事情)的機器人將在其預(yù)訓(xùn)練階段學(xué)習(xí)如何做到這一點。這種方法帶來了三個主要挑戰(zhàn):可能需要對模型進行重新訓(xùn)練以合并新數(shù)據(jù);在適應(yīng)新的任務(wù)和環(huán)境的同時,應(yīng)保留獲得的知識;部署期間需要環(huán)境的訓(xùn)練信號。
蘇黎世聯(lián)邦理工學(xué)院的研究團隊對建筑機器人的自我改進語義感知提出了一種新方法,該方法將持續(xù)學(xué)習(xí)和自我監(jiān)督結(jié)合在一個新穎的機器人系統(tǒng)中,以實現(xiàn)對語義場景理解的在線終身自我監(jiān)督學(xué)習(xí)。
在先前的工作中,已經(jīng)在兩個框架(強化學(xué)習(xí)(RL)和用于模型預(yù)測控制的在線參數(shù)優(yōu)化)下探索了自我改進學(xué)習(xí)型機器人代理的想法。在RL的情況下,機器人可以學(xué)習(xí)執(zhí)行其所需的任務(wù),例如行走、抓物體、飛行等。但一旦掌握了這些技能,學(xué)習(xí)的模型便會固定,這樣的機器人因此缺乏任何終身學(xué)習(xí)能力。用于模型預(yù)測控制框架的在線參數(shù)優(yōu)化使機器人可以從在職學(xué)習(xí)中受益,但不會解決另一個問題:遺忘。
以前關(guān)于自我監(jiān)督學(xué)習(xí)的許多研究都集中在學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)中有用的圖像特征上。缺點是這些方法需要監(jiān)督才能將學(xué)習(xí)到的功能與任何含義相關(guān)聯(lián)。其他方法旨在產(chǎn)生用于圖像分割的偽標(biāo)簽,例如為圖像生成稀疏區(qū)域注釋的圖像分類器的類激活圖(CAM)。新論文通過使用環(huán)境的可觀察特征來生成用于目標(biāo)任務(wù)的學(xué)習(xí)信號,同時利用相關(guān)任務(wù)中的現(xiàn)有注釋數(shù)據(jù)作為先驗知識來完善后一種方法。在后續(xù)學(xué)習(xí)中,從各種任務(wù)和領(lǐng)域的非平穩(wěn)數(shù)據(jù)分布中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,目的是優(yōu)化每個任務(wù)的性能,以及在將知識從先前任務(wù)轉(zhuǎn)移到當(dāng)前任務(wù)時保持性能。一種方法是存儲來自先前任務(wù)的所有數(shù)據(jù),并為每個新任務(wù)從頭開始重新訓(xùn)練網(wǎng)絡(luò)。但是,由于內(nèi)存有限,這個方法不切實際,因為需要同時更新和部署模型。為了解決這個問題,研究人員提出了“重播緩沖區(qū)”,通過記憶功能來補充每個新環(huán)境中的訓(xùn)練數(shù)據(jù),該記憶功能可保留來自先前環(huán)境的有限數(shù)量的樣本。先前關(guān)于在語義分割的上下文中應(yīng)用持續(xù)學(xué)習(xí)的研究通常假定源域和目標(biāo)域在訓(xùn)練時都是已知的,并且模型并未設(shè)計為在線更新。相反,蘇黎世聯(lián)邦理工學(xué)院的方法假定部署域事先未知,并且代理必須連續(xù)更新當(dāng)前環(huán)境中的語義知識,而不會忘記以前看到的環(huán)境。
將這些部分放在一起,提出的自我改進感知系統(tǒng)將地圖內(nèi)的本地化與場景的語義分段互連起來。研究人員基于地圖本地化創(chuàng)建偽標(biāo)簽,以訓(xùn)練語義分割,并使用此前景和背景分割來告知本地化,從而創(chuàng)建一個反饋環(huán),從而對這兩個部分都進行改進。該團隊在增加復(fù)雜性的不同步驟和三種不同環(huán)境(建筑工地,停車場和辦公室)中評估了所提議框架的性能。為了進行自我改進能力測試,將機器人部署在不同的未知環(huán)境中,并對獲得的改進進行了測量。為了忘記和知識轉(zhuǎn)移效果評估,在不同環(huán)境之間切換了部署。他們還進行了一項實驗,以測試機器人的在線學(xué)習(xí)能力。
實驗結(jié)果驗證了該系統(tǒng)在多種環(huán)境下具有自我完善的能力,并且所提出的內(nèi)存重放技術(shù)是緩解遺忘的有效解決方案,證明了該方法可以賦予機器人系統(tǒng)自我完善,持續(xù)不斷的在線學(xué)習(xí)能力。
文中圖片均來源于網(wǎng)絡(luò)

