

想象一個(gè)看似簡(jiǎn)單的任務(wù):把充電頭插進(jìn)插座。對(duì)人類(lèi)來(lái)說(shuō),我們不僅用眼睛看,還會(huì)用手感受阻力——插歪了會(huì)卡住,插到位會(huì)有“咔噠”感。這種力覺(jué)反饋是完成精細(xì)操作的關(guān)鍵。
但在當(dāng)前主流的視覺(jué)-語(yǔ)言-動(dòng)作(Vision-Language-Action, VLA)模型中,機(jī)器人只依賴(lài)攝像頭和指令,完全忽略了來(lái)自關(guān)節(jié)的扭矩信號(hào)。這就導(dǎo)致它們?cè)诿鎸?duì)“接觸密集型”任務(wù)(如按按鈕、擰門(mén)把手、插拔接口)時(shí),常常失敗卻不知為何。
論文鏈接:https://arxiv.org/pdf/2509.07962v1
論文作者:Zongzheng Zhang, Haobo Xu, Zhuo Yang, Chenghao Yue, Zehao Lin, Huan-ang Gao, Ziwei Wang, Hao Zhao
項(xiàng)目主頁(yè):https://zzongzheng0918.github.io/Torque-Aware-VLA.github.io/(論文收錄至CoRL 2025)
01
讓扭矩成為機(jī)器人的“第六感”
傳統(tǒng)VLA模型(如 π0、RDT、Octo)主要依賴(lài)視覺(jué)+語(yǔ)言+關(guān)節(jié)位置進(jìn)行決策。但這些信號(hào)在接觸發(fā)生時(shí)往往變化微弱,難以判斷操作是否成功。
而關(guān)節(jié)扭矩(joint torque)——即電機(jī)輸出的力矩——能直接反映末端執(zhí)行器與環(huán)境的物理交互狀態(tài)。例如,在“接充電頭”任務(wù)中(見(jiàn)下圖):
未接觸:扭矩平穩(wěn);
接觸但未接入(插歪):小幅波動(dòng);
成功接入:出現(xiàn)明顯、尖銳的扭矩峰值。
研究團(tuán)隊(duì)發(fā)現(xiàn):僅靠視覺(jué),模型無(wú)法區(qū)分“接歪”和“接好”;但加入扭矩信號(hào)后,判別變得清晰可靠。
02
三大關(guān)鍵設(shè)計(jì)發(fā)現(xiàn)
該工作不僅提出方法,更系統(tǒng)探索了扭矩信號(hào)如何有效融入VLA模型的設(shè)計(jì)空間,得出三條重要原則:
扭矩應(yīng)注入解碼器,而非編碼器
原因:扭矩與關(guān)節(jié)角度同屬本體感知信號(hào)(proprioception),在動(dòng)作生成階段(即解碼器)融合,能更好利用其與動(dòng)作的強(qiáng)相關(guān)性。
驗(yàn)證:通過(guò)HSIC(希爾伯特-施密特獨(dú)立性準(zhǔn)則)分析,發(fā)現(xiàn)扭矩特征與關(guān)節(jié)角度高度對(duì)齊,遠(yuǎn)超與圖像或文本的關(guān)聯(lián)。
歷史扭矩比單幀更重要,但需壓縮為單個(gè)Token
真實(shí)數(shù)據(jù)的紋理、光照、視角等維度多樣性有限,導(dǎo)致模型在新環(huán)境中易失效;
預(yù)測(cè)未來(lái)扭矩,可構(gòu)建物理感知的內(nèi)部表征
受自動(dòng)駕駛中“聯(lián)合預(yù)測(cè)軌跡與意圖”啟發(fā),團(tuán)隊(duì)提出動(dòng)作-扭矩聯(lián)合擴(kuò)散模型:
模型不僅預(yù)測(cè)未來(lái)動(dòng)作序列,同時(shí)預(yù)測(cè)對(duì)應(yīng)的扭矩序列;
通過(guò)輔助損失監(jiān)督扭矩預(yù)測(cè),迫使模型理解“動(dòng)作→力反饋”的因果關(guān)系;
實(shí)驗(yàn)顯示,模型能準(zhǔn)確預(yù)測(cè)未來(lái)50步的扭矩變化(見(jiàn)下圖),顯著提升接觸任務(wù)成功率。
03
實(shí)驗(yàn)結(jié)果:全面超越現(xiàn)有VLA模型
團(tuán)隊(duì)使用AgileX PiPER Arm在10個(gè)真實(shí)世界任務(wù)(5個(gè)接觸密集型 + 5個(gè)常規(guī)任務(wù))上進(jìn)行了測(cè)試,包括:
充電器/USB插拔
按鈕按壓
門(mén)把手旋轉(zhuǎn)
瓶子抓取、倒水、疊積木等
以當(dāng)前最強(qiáng)VLA模型 π0為基線,TA-VLA(即 π0+obs+obj)在接觸任務(wù)上的平均成功率從不足5% 提升至超80%!
| 方法 | 按鈕按壓 | 接充電器 | 接USB | 開(kāi)門(mén)把手 |
| π0 | 5/20 | 0/20 | 0/20 | 2/20 |
| TA-VLA | 18/12 | 17/20 | 17/20 | 15/20 |
更令人驚喜的是,即使在非接觸任務(wù)中(如倒水、開(kāi)抽屜),引入扭矩信號(hào)也能帶來(lái)小幅提升,說(shuō)明物理感知具有泛化價(jià)值。
此外,該方法在 RDT、ACT 等其他VLA架構(gòu)上同樣有效,并成功遷移到不同品牌機(jī)械臂(如ROKAE SR),展現(xiàn)出強(qiáng)大的跨模型、跨本體泛化能力。
03
意義與展望
TA-VLA 的工作標(biāo)志著VLA模型從“純感知-決策”邁向“感知-力覺(jué)-決策”的新階段。它證明了:
無(wú)需昂貴外置傳感器,僅利用機(jī)器人自帶的關(guān)節(jié)扭矩即可實(shí)現(xiàn)高精度接觸感知;
預(yù)訓(xùn)練VLA模型具備良好擴(kuò)展性,可高效融合新模態(tài);
物理信號(hào)不僅是輸入,更是學(xué)習(xí)目標(biāo)——通過(guò)預(yù)測(cè)扭矩,模型能內(nèi)化物理規(guī)律。
松靈機(jī)器人成立于2016年,是全球領(lǐng)先的機(jī)器人底盤(pán)制造商和移動(dòng)機(jī)器人系統(tǒng)解決方案服務(wù)商。目前,松靈機(jī)器人已經(jīng)擁有多款適用于不同地形的室內(nèi)外移動(dòng)機(jī)器人底盤(pán),在載重、續(xù)航、速度、運(yùn)動(dòng)模式等不同需求場(chǎng)景下實(shí)現(xiàn)全矩陣覆蓋。同時(shí),松靈機(jī)器人還推出了自動(dòng)駕駛解決方案,平行駕駛解決方案,機(jī)器人科研教育套件等移動(dòng)機(jī)器人底盤(pán)配套產(chǎn)品,幫助客戶在自動(dòng)駕駛、機(jī)械控制、計(jì)算機(jī)、車(chē)輛等領(lǐng)域完成實(shí)驗(yàn)驗(yàn)證。
憑借領(lǐng)先的研發(fā)技術(shù),松靈機(jī)器人已經(jīng)與包括阿里巴巴、華為、本田、中建三局在內(nèi)的30多家行業(yè)領(lǐng)軍企業(yè),以及中科院、清華大學(xué)、南方科技大學(xué)、北京理工大學(xué)、新加坡國(guó)立大學(xué)、紐約大學(xué)等國(guó)內(nèi)外50多所頂尖學(xué)府開(kāi)展了深度合作。


