您的位置：首頁(yè) > 資訊 > 企業(yè)動(dòng)態(tài) > 正文

CoRL 2025新作：從“看”到“觸”，TA-VLA實(shí)現(xiàn)機(jī)器人觸覺(jué)智能躍遷

2025-12-19 09:52 性質(zhì)：轉(zhuǎn)載作者：松靈機(jī)器人來(lái)源：松靈機(jī)器人

免責(zé)聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對(duì)侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識(shí)產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn)，與本網(wǎng)無(wú)關(guān)。如有需要?jiǎng)h除，敬請(qǐng)來(lái)電商榷！）

想象一個(gè)看似簡(jiǎn)單的任務(wù)：把充電頭插進(jìn)插座。對(duì)人類(lèi)來(lái)說(shuō)，我們不僅用眼睛看，還會(huì)用手感受阻力——插歪了會(huì)卡住，插到位會(huì)有“咔噠”感。這種力覺(jué)反饋是完成精細(xì)操作的關(guān)鍵。但在當(dāng)前主流的視覺(jué)-語(yǔ)...

想象一個(gè)看似簡(jiǎn)單的任務(wù)：把充電頭插進(jìn)插座。對(duì)人類(lèi)來(lái)說(shuō)，我們不僅用眼睛看，還會(huì)用手感受阻力——插歪了會(huì)卡住，插到位會(huì)有“咔噠”感。這種力覺(jué)反饋是完成精細(xì)操作的關(guān)鍵。

但在當(dāng)前主流的視覺(jué)-語(yǔ)言-動(dòng)作（Vision-Language-Action, VLA）模型中，機(jī)器人只依賴(lài)攝像頭和指令，完全忽略了來(lái)自關(guān)節(jié)的扭矩信號(hào)。這就導(dǎo)致它們?cè)诿鎸?duì)“接觸密集型”任務(wù)（如按按鈕、擰門(mén)把手、插拔接口）時(shí)，常常失敗卻不知為何。

使用產(chǎn)品：松靈PiPER六軸機(jī)械臂

論文鏈接：https://arxiv.org/pdf/2509.07962v1

論文作者：Zongzheng Zhang, Haobo Xu, Zhuo Yang, Chenghao Yue, Zehao Lin, Huan-ang Gao, Ziwei Wang, Hao Zhao

項(xiàng)目主頁(yè)：https://zzongzheng0918.github.io/Torque-Aware-VLA.github.io/（論文收錄至CoRL 2025）

01

讓扭矩成為機(jī)器人的“第六感”

傳統(tǒng)VLA模型（如 π0、RDT、Octo）主要依賴(lài)視覺(jué)+語(yǔ)言+關(guān)節(jié)位置進(jìn)行決策。但這些信號(hào)在接觸發(fā)生時(shí)往往變化微弱，難以判斷操作是否成功。

而關(guān)節(jié)扭矩（joint torque）——即電機(jī)輸出的力矩——能直接反映末端執(zhí)行器與環(huán)境的物理交互狀態(tài)。例如，在“接充電頭”任務(wù)中（見(jiàn)下圖）：

未接觸：扭矩平穩(wěn)；
接觸但未接入（插歪）：小幅波動(dòng)；
成功接入：出現(xiàn)明顯、尖銳的扭矩峰值。

研究團(tuán)隊(duì)發(fā)現(xiàn)：僅靠視覺(jué)，模型無(wú)法區(qū)分“接歪”和“接好”；但加入扭矩信號(hào)后，判別變得清晰可靠。

02

三大關(guān)鍵設(shè)計(jì)發(fā)現(xiàn)

該工作不僅提出方法，更系統(tǒng)探索了扭矩信號(hào)如何有效融入VLA模型的設(shè)計(jì)空間，得出三條重要原則：

扭矩應(yīng)注入解碼器，而非編碼器

原因：扭矩與關(guān)節(jié)角度同屬本體感知信號(hào)（proprioception），在動(dòng)作生成階段（即解碼器）融合，能更好利用其與動(dòng)作的強(qiáng)相關(guān)性。

驗(yàn)證：通過(guò)HSIC（希爾伯特-施密特獨(dú)立性準(zhǔn)則）分析，發(fā)現(xiàn)扭矩特征與關(guān)節(jié)角度高度對(duì)齊，遠(yuǎn)超與圖像或文本的關(guān)聯(lián)。

歷史扭矩比單幀更重要，但需壓縮為單個(gè)Token

真實(shí)數(shù)據(jù)的紋理、光照、視角等維度多樣性有限，導(dǎo)致模型在新環(huán)境中易失效；

預(yù)測(cè)未來(lái)扭矩，可構(gòu)建物理感知的內(nèi)部表征

受自動(dòng)駕駛中“聯(lián)合預(yù)測(cè)軌跡與意圖”啟發(fā)，團(tuán)隊(duì)提出動(dòng)作-扭矩聯(lián)合擴(kuò)散模型：

模型不僅預(yù)測(cè)未來(lái)動(dòng)作序列，同時(shí)預(yù)測(cè)對(duì)應(yīng)的扭矩序列；

通過(guò)輔助損失監(jiān)督扭矩預(yù)測(cè)，迫使模型理解“動(dòng)作→力反饋”的因果關(guān)系；

實(shí)驗(yàn)顯示，模型能準(zhǔn)確預(yù)測(cè)未來(lái)50步的扭矩變化（見(jiàn)下圖），顯著提升接觸任務(wù)成功率。

03

實(shí)驗(yàn)結(jié)果：全面超越現(xiàn)有VLA模型

團(tuán)隊(duì)使用AgileX PiPER Arm在10個(gè)真實(shí)世界任務(wù)（5個(gè)接觸密集型 + 5個(gè)常規(guī)任務(wù)）上進(jìn)行了測(cè)試，包括：

充電器/USB插拔
按鈕按壓
門(mén)把手旋轉(zhuǎn)
瓶子抓取、倒水、疊積木等

以當(dāng)前最強(qiáng)VLA模型 π0為基線，TA-VLA（即 π0+obs+obj）在接觸任務(wù)上的平均成功率從不足5% 提升至超80%！

方法	按鈕按壓	接充電器	接USB	開(kāi)門(mén)把手
π0	5/20	0/20	0/20	2/20
TA-VLA	18/12	17/20	17/20	15/20

更令人驚喜的是，即使在非接觸任務(wù)中（如倒水、開(kāi)抽屜），引入扭矩信號(hào)也能帶來(lái)小幅提升，說(shuō)明物理感知具有泛化價(jià)值。

此外，該方法在 RDT、ACT 等其他VLA架構(gòu)上同樣有效，并成功遷移到不同品牌機(jī)械臂（如ROKAE SR），展現(xiàn)出強(qiáng)大的跨模型、跨本體泛化能力。

03

意義與展望

TA-VLA 的工作標(biāo)志著VLA模型從“純感知-決策”邁向“感知-力覺(jué)-決策”的新階段。它證明了：

無(wú)需昂貴外置傳感器，僅利用機(jī)器人自帶的關(guān)節(jié)扭矩即可實(shí)現(xiàn)高精度接觸感知；
預(yù)訓(xùn)練VLA模型具備良好擴(kuò)展性，可高效融合新模態(tài)；
物理信號(hào)不僅是輸入，更是學(xué)習(xí)目標(biāo)——通過(guò)預(yù)測(cè)扭矩，模型能內(nèi)化物理規(guī)律。

關(guān)于松靈機(jī)器人（東莞）有限公司進(jìn)入企業(yè)商鋪

松靈機(jī)器人成立于2016年，是全球領(lǐng)先的機(jī)器人底盤(pán)制造商和移動(dòng)機(jī)器人系統(tǒng)解決方案服務(wù)商。目前，松靈機(jī)器人已經(jīng)擁有多款適用于不同地形的室內(nèi)外移動(dòng)機(jī)器人底盤(pán)，在載重、續(xù)航、速度、運(yùn)動(dòng)模式等不同需求場(chǎng)景下實(shí)現(xiàn)全矩陣覆蓋。同時(shí)，松靈機(jī)器人還推出了自動(dòng)駕駛解決方案，平行駕駛解決方案，機(jī)器人科研教育套件等移動(dòng)機(jī)器人底盤(pán)配套產(chǎn)品，幫助客戶在自動(dòng)駕駛、機(jī)械控制、計(jì)算機(jī)、車(chē)輛等領(lǐng)域完成實(shí)驗(yàn)驗(yàn)證。

憑借領(lǐng)先的研發(fā)技術(shù)，松靈機(jī)器人已經(jīng)與包括阿里巴巴、華為、本田、中建三局在內(nèi)的30多家行業(yè)領(lǐng)軍企業(yè)，以及中科院、清華大學(xué)、南方科技大學(xué)、北京理工大學(xué)、新加坡國(guó)立大學(xué)、紐約大學(xué)等國(guó)內(nèi)外50多所頂尖學(xué)府開(kāi)展了深度合作。