

在具身人工智能(Embodied AI)研究中,獲取大規(guī)模、高質(zhì)量的真實(shí)交互數(shù)據(jù)始終是制約算法泛化能力的關(guān)鍵瓶頸。近期,極佳視界(GigaAI)團(tuán)隊(duì)提出的 GigaWorld-0框架,為這一挑戰(zhàn)提供了創(chuàng)新性解決方案——通過構(gòu)建一個(gè)統(tǒng)一的世界模型,自動(dòng)生成物理合理、語(yǔ)義豐富且多視角一致的合成操作數(shù)據(jù),并用于訓(xùn)練端到端的視覺-語(yǔ)言-動(dòng)作(VLA)策略。
本案例聚焦該工作的真機(jī)驗(yàn)證環(huán)節(jié):研究團(tuán)隊(duì)將完全基于 GigaWorld-0 合成數(shù)據(jù)訓(xùn)練的 VLA 模型(GigaBrain-0),部署至一個(gè)通用雙臂靈巧操作平臺(tái)(如松靈COBOT MAGIC)進(jìn)行零樣本遷移測(cè)試,整個(gè)訓(xùn)練過程未使用任何真實(shí)機(jī)器人交互數(shù)據(jù)。
項(xiàng)目主頁(yè):https://giga-world-0.github.io/
論文鏈接:https://arxiv.org/abs/2511.19861
使用產(chǎn)品:松靈PiPER六軸機(jī)械臂、COBOT MAGIC雙臂平臺(tái)
01
核心痛點(diǎn):具身智能的 “數(shù)據(jù)枷鎖”
傳統(tǒng)具身智能模型高度依賴真實(shí)世界交互數(shù)據(jù),但這類數(shù)據(jù)的采集面臨諸多難題。
成本高昂
需要專業(yè)硬件平臺(tái)、人工操控與場(chǎng)景搭建,且覆蓋多場(chǎng)景、多任務(wù)的數(shù)據(jù)集投入呈指數(shù)級(jí)增長(zhǎng);
泛化不足
真實(shí)數(shù)據(jù)的紋理、光照、視角等維度多樣性有限,導(dǎo)致模型在新環(huán)境中易失效;
物理限制
部分高危、復(fù)雜任務(wù)難以在真實(shí)場(chǎng)景中開展數(shù)據(jù)采集,存在安全與實(shí)操壁壘。
世界模型作為連接虛擬與現(xiàn)實(shí)的高保真模擬器,被視為破解這一困境的關(guān)鍵,但如何兼顧視覺真實(shí)感、幾何一致性與物理合理性,成為技術(shù)攻關(guān)的核心。
02
GigaWorld-0:雙模塊協(xié)同的統(tǒng)一數(shù)據(jù)引擎
GigaWorld-0 構(gòu)建了GigaWorld-0-Video與GigaWorld-0-3D兩大核心模塊,實(shí)現(xiàn)了 2D 視覺生成與 3D 物理仿真的深度融合,可產(chǎn)出 “紋理豐富、空間一致、物理可信、指令對(duì)齊” 的具身交互數(shù)據(jù)。
GigaWorld-0-Video:可控的高保真視頻生成
該模塊以視頻生成技術(shù)為核心,能合成時(shí)序連貫、視覺逼真的具身交互序列,且支持多維度精細(xì)控制,包含 4 個(gè)核心子模型:
Video-Dreamer:作為基礎(chǔ)視頻生成模型,采用混合專家(MoE)架構(gòu)與稀疏注意力機(jī)制,支持圖 - 文到視頻(IT2V)生成,可基于相同初始幀和不同文本指令,生成折疊布料、放置蔬果等多樣化任務(wù)軌跡;
AppearanceTransfer:通過文本指令實(shí)現(xiàn)外觀遷移,既能修改真實(shí)視頻的紋理、材質(zhì)與光照,也能縮小仿真到真實(shí)的視覺差距,無需額外采集即可擴(kuò)充數(shù)據(jù)的視覺多樣性;
ViewTransfer:解決單視角數(shù)據(jù)的泛化難題,可將單視角機(jī)器人交互視頻轉(zhuǎn)化為任意新視角畫面,并同步適配機(jī)械臂動(dòng)作,保障任務(wù)語(yǔ)義一致性;
MimicTransfer:打通人機(jī)交互數(shù)據(jù)壁壘,能將第一人稱人類操作視頻轉(zhuǎn)化為機(jī)器人可執(zhí)行軌跡,大幅降低機(jī)器人示范數(shù)據(jù)的采集成本。
同時(shí),該模塊引入 FP8 精度訓(xùn)練、去噪步驟蒸餾等技術(shù),實(shí)現(xiàn)了 50 倍以上的生成加速,還搭建了多維度質(zhì)量評(píng)估體系,確保生成數(shù)據(jù)的可用性。
GigaWorld-0-3D:物理可信的 3D 場(chǎng)景構(gòu)建
為彌補(bǔ)純視頻生成的幾何與物理缺陷,該模塊基于 3D 高斯濺射技術(shù),構(gòu)建了空間一致、可交互的 3D 場(chǎng)景,包含 4 個(gè)關(guān)鍵組件:
3D-FG:從單張圖片或文本生成高保真前景可操作物體,通過多輪質(zhì)量校驗(yàn)確保模型輸出符合真實(shí)尺度與幾何邏輯
3D-BG:針對(duì)稀疏視角輸入,先通過視圖修復(fù)補(bǔ)充中間視角,再完成背景的高精度 3D 重建,輸出可用于碰撞檢測(cè)與仿真的網(wǎng)格模型;
3D-Phys:為機(jī)器人與物體賦予真實(shí)物理屬性,通過可微物理框架精準(zhǔn)估計(jì)機(jī)械臂關(guān)節(jié)摩擦、剛度等參數(shù),還能基于多模態(tài)信息推斷物體質(zhì)量、摩擦系數(shù)等;
3D-Act:針對(duì)不同復(fù)雜度任務(wù)生成可執(zhí)行動(dòng)作,簡(jiǎn)單場(chǎng)景通過 MimicGen 擴(kuò)展基礎(chǔ)示范軌跡,復(fù)雜場(chǎng)景則結(jié)合強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)高精度操作序列合成。
兩大模塊協(xié)同,可輸出兼具視覺真實(shí)感與物理合理性的完整具身交互數(shù)據(jù),為 VLA 模型訓(xùn)練提供了優(yōu)質(zhì) “養(yǎng)料”。
03
高效訓(xùn)練:GigaTrain 框架降低算力門檻
針對(duì)大模型訓(xùn)練的算力難題,GigaWorld-0 配套了GigaTrain分布式訓(xùn)練框架,支持 DeepSpeed ZeRO、FSDP 等分布式策略,集成 FP8/FP16/BF16 混合精度訓(xùn)練、梯度檢查點(diǎn)等技術(shù),大幅降低內(nèi)存與計(jì)算開銷。
實(shí)驗(yàn)數(shù)據(jù)顯示,F(xiàn)SDP-2 分布式框架結(jié)合 FP8 精度,在 8 卡 H20 GPU、批量大小 32 的配置下,可實(shí)現(xiàn)高效訓(xùn)練,且稀疏注意力機(jī)制的引入進(jìn)一步提升了訓(xùn)練與推理效率,讓大模型訓(xùn)練不再依賴超大規(guī)模算力集群。
04
實(shí)戰(zhàn)驗(yàn)證:虛擬數(shù)據(jù)賦能真實(shí)場(chǎng)景落地
在 PBench、DreamGen 等權(quán)威具身任務(wù)基準(zhǔn)測(cè)試中,GigaWorld-0 表現(xiàn)亮眼:僅 2B 激活參數(shù)的 Video-Dreamer 模型,在 PBench 機(jī)器人任務(wù)集上斬獲 82.07的綜合得分,超越多款大參數(shù)量競(jìng)品。
更關(guān)鍵的是,基于其生成數(shù)據(jù)訓(xùn)練的 GigaBrain-0 VLA 模型,在無真實(shí)場(chǎng)景訓(xùn)練的情況下,成功在真實(shí)環(huán)境中完成了衣物折疊、紙巾制備、果汁調(diào)制、餐桌清理等多類任務(wù),不僅任務(wù)成功率大幅提升,還具備了更強(qiáng)的場(chǎng)景泛化能力,充分驗(yàn)證了 GigaWorld-0 生成數(shù)據(jù)的實(shí)用價(jià)值。
松靈機(jī)器人成立于2016年,是全球領(lǐng)先的機(jī)器人底盤制造商和移動(dòng)機(jī)器人系統(tǒng)解決方案服務(wù)商。目前,松靈機(jī)器人已經(jīng)擁有多款適用于不同地形的室內(nèi)外移動(dòng)機(jī)器人底盤,在載重、續(xù)航、速度、運(yùn)動(dòng)模式等不同需求場(chǎng)景下實(shí)現(xiàn)全矩陣覆蓋。同時(shí),松靈機(jī)器人還推出了自動(dòng)駕駛解決方案,平行駕駛解決方案,機(jī)器人科研教育套件等移動(dòng)機(jī)器人底盤配套產(chǎn)品,幫助客戶在自動(dòng)駕駛、機(jī)械控制、計(jì)算機(jī)、車輛等領(lǐng)域完成實(shí)驗(yàn)驗(yàn)證。
憑借領(lǐng)先的研發(fā)技術(shù),松靈機(jī)器人已經(jīng)與包括阿里巴巴、華為、本田、中建三局在內(nèi)的30多家行業(yè)領(lǐng)軍企業(yè),以及中科院、清華大學(xué)、南方科技大學(xué)、北京理工大學(xué)、新加坡國(guó)立大學(xué)、紐約大學(xué)等國(guó)內(nèi)外50多所頂尖學(xué)府開展了深度合作。


