您的位置：首頁(yè) > 資訊 > 企業(yè)動(dòng)態(tài) > 正文

科研案例 | GigaWorld-0：用世界模型破解具身智能數(shù)據(jù)難題

2025-12-05 10:04 性質(zhì)：轉(zhuǎn)載作者：松靈機(jī)器人來源：松靈機(jī)器人

免責(zé)聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對(duì)侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識(shí)產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn)，與本網(wǎng)無關(guān)。如有需要?jiǎng)h除，敬請(qǐng)來電商榷?。?/div>

在具身人工智能（Embodied AI）研究中，獲取大規(guī)模、高質(zhì)量的真實(shí)交互數(shù)據(jù)始終是制約算法泛化能力的關(guān)鍵瓶頸。近期，極佳視界（GigaAI）團(tuán)隊(duì)提出的 GigaWorld-0框架，為這一挑戰(zhàn)提供了創(chuàng)新性解決...

在具身人工智能（Embodied AI）研究中，獲取大規(guī)模、高質(zhì)量的真實(shí)交互數(shù)據(jù)始終是制約算法泛化能力的關(guān)鍵瓶頸。近期，極佳視界（GigaAI）團(tuán)隊(duì)提出的 GigaWorld-0框架，為這一挑戰(zhàn)提供了創(chuàng)新性解決方案——通過構(gòu)建一個(gè)統(tǒng)一的世界模型，自動(dòng)生成物理合理、語(yǔ)義豐富且多視角一致的合成操作數(shù)據(jù)，并用于訓(xùn)練端到端的視覺-語(yǔ)言-動(dòng)作（VLA）策略。

本案例聚焦該工作的真機(jī)驗(yàn)證環(huán)節(jié)：研究團(tuán)隊(duì)將完全基于 GigaWorld-0 合成數(shù)據(jù)訓(xùn)練的 VLA 模型（GigaBrain-0），部署至一個(gè)通用雙臂靈巧操作平臺(tái)（如松靈COBOT MAGIC）進(jìn)行零樣本遷移測(cè)試，整個(gè)訓(xùn)練過程未使用任何真實(shí)機(jī)器人交互數(shù)據(jù)。

項(xiàng)目主頁(yè)：https://giga-world-0.github.io/

論文鏈接：https://arxiv.org/abs/2511.19861

使用產(chǎn)品：松靈PiPER六軸機(jī)械臂、COBOT MAGIC雙臂平臺(tái)

01

核心痛點(diǎn)：具身智能的 “數(shù)據(jù)枷鎖”

傳統(tǒng)具身智能模型高度依賴真實(shí)世界交互數(shù)據(jù)，但這類數(shù)據(jù)的采集面臨諸多難題。

成本高昂

需要專業(yè)硬件平臺(tái)、人工操控與場(chǎng)景搭建，且覆蓋多場(chǎng)景、多任務(wù)的數(shù)據(jù)集投入呈指數(shù)級(jí)增長(zhǎng)；

泛化不足

真實(shí)數(shù)據(jù)的紋理、光照、視角等維度多樣性有限，導(dǎo)致模型在新環(huán)境中易失效；

物理限制

部分高危、復(fù)雜任務(wù)難以在真實(shí)場(chǎng)景中開展數(shù)據(jù)采集，存在安全與實(shí)操壁壘。

世界模型作為連接虛擬與現(xiàn)實(shí)的高保真模擬器，被視為破解這一困境的關(guān)鍵，但如何兼顧視覺真實(shí)感、幾何一致性與物理合理性，成為技術(shù)攻關(guān)的核心。

02

GigaWorld-0：雙模塊協(xié)同的統(tǒng)一數(shù)據(jù)引擎

GigaWorld-0 構(gòu)建了GigaWorld-0-Video與GigaWorld-0-3D兩大核心模塊，實(shí)現(xiàn)了 2D 視覺生成與 3D 物理仿真的深度融合，可產(chǎn)出 “紋理豐富、空間一致、物理可信、指令對(duì)齊” 的具身交互數(shù)據(jù)。

GigaWorld-0-Video：可控的高保真視頻生成

該模塊以視頻生成技術(shù)為核心，能合成時(shí)序連貫、視覺逼真的具身交互序列，且支持多維度精細(xì)控制，包含 4 個(gè)核心子模型：

Video-Dreamer：作為基礎(chǔ)視頻生成模型，采用混合專家（MoE）架構(gòu)與稀疏注意力機(jī)制，支持圖 - 文到視頻（IT2V）生成，可基于相同初始幀和不同文本指令，生成折疊布料、放置蔬果等多樣化任務(wù)軌跡；

AppearanceTransfer：通過文本指令實(shí)現(xiàn)外觀遷移，既能修改真實(shí)視頻的紋理、材質(zhì)與光照，也能縮小仿真到真實(shí)的視覺差距，無需額外采集即可擴(kuò)充數(shù)據(jù)的視覺多樣性；

ViewTransfer：解決單視角數(shù)據(jù)的泛化難題，可將單視角機(jī)器人交互視頻轉(zhuǎn)化為任意新視角畫面，并同步適配機(jī)械臂動(dòng)作，保障任務(wù)語(yǔ)義一致性；
MimicTransfer：打通人機(jī)交互數(shù)據(jù)壁壘，能將第一人稱人類操作視頻轉(zhuǎn)化為機(jī)器人可執(zhí)行軌跡，大幅降低機(jī)器人示范數(shù)據(jù)的采集成本。

同時(shí)，該模塊引入 FP8 精度訓(xùn)練、去噪步驟蒸餾等技術(shù)，實(shí)現(xiàn)了 50 倍以上的生成加速，還搭建了多維度質(zhì)量評(píng)估體系，確保生成數(shù)據(jù)的可用性。

GigaWorld-0-3D：物理可信的 3D 場(chǎng)景構(gòu)建

為彌補(bǔ)純視頻生成的幾何與物理缺陷，該模塊基于 3D 高斯濺射技術(shù)，構(gòu)建了空間一致、可交互的 3D 場(chǎng)景，包含 4 個(gè)關(guān)鍵組件：

3D-FG：從單張圖片或文本生成高保真前景可操作物體，通過多輪質(zhì)量校驗(yàn)確保模型輸出符合真實(shí)尺度與幾何邏輯
3D-BG：針對(duì)稀疏視角輸入，先通過視圖修復(fù)補(bǔ)充中間視角，再完成背景的高精度 3D 重建，輸出可用于碰撞檢測(cè)與仿真的網(wǎng)格模型；
3D-Phys：為機(jī)器人與物體賦予真實(shí)物理屬性，通過可微物理框架精準(zhǔn)估計(jì)機(jī)械臂關(guān)節(jié)摩擦、剛度等參數(shù)，還能基于多模態(tài)信息推斷物體質(zhì)量、摩擦系數(shù)等；
3D-Act：針對(duì)不同復(fù)雜度任務(wù)生成可執(zhí)行動(dòng)作，簡(jiǎn)單場(chǎng)景通過 MimicGen 擴(kuò)展基礎(chǔ)示范軌跡，復(fù)雜場(chǎng)景則結(jié)合強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)高精度操作序列合成。

兩大模塊協(xié)同，可輸出兼具視覺真實(shí)感與物理合理性的完整具身交互數(shù)據(jù)，為 VLA 模型訓(xùn)練提供了優(yōu)質(zhì) “養(yǎng)料”。

03

高效訓(xùn)練：GigaTrain 框架降低算力門檻

針對(duì)大模型訓(xùn)練的算力難題，GigaWorld-0 配套了GigaTrain分布式訓(xùn)練框架，支持 DeepSpeed ZeRO、FSDP 等分布式策略，集成 FP8/FP16/BF16 混合精度訓(xùn)練、梯度檢查點(diǎn)等技術(shù)，大幅降低內(nèi)存與計(jì)算開銷。

實(shí)驗(yàn)數(shù)據(jù)顯示，F(xiàn)SDP-2 分布式框架結(jié)合 FP8 精度，在 8 卡 H20 GPU、批量大小 32 的配置下，可實(shí)現(xiàn)高效訓(xùn)練，且稀疏注意力機(jī)制的引入進(jìn)一步提升了訓(xùn)練與推理效率，讓大模型訓(xùn)練不再依賴超大規(guī)模算力集群。

04

實(shí)戰(zhàn)驗(yàn)證：虛擬數(shù)據(jù)賦能真實(shí)場(chǎng)景落地

在 PBench、DreamGen 等權(quán)威具身任務(wù)基準(zhǔn)測(cè)試中，GigaWorld-0 表現(xiàn)亮眼：僅 2B 激活參數(shù)的 Video-Dreamer 模型，在 PBench 機(jī)器人任務(wù)集上斬獲 82.07的綜合得分，超越多款大參數(shù)量競(jìng)品。

更關(guān)鍵的是，基于其生成數(shù)據(jù)訓(xùn)練的 GigaBrain-0 VLA 模型，在無真實(shí)場(chǎng)景訓(xùn)練的情況下，成功在真實(shí)環(huán)境中完成了衣物折疊、紙巾制備、果汁調(diào)制、餐桌清理等多類任務(wù)，不僅任務(wù)成功率大幅提升，還具備了更強(qiáng)的場(chǎng)景泛化能力，充分驗(yàn)證了 GigaWorld-0 生成數(shù)據(jù)的實(shí)用價(jià)值。

關(guān)于松靈機(jī)器人（東莞）有限公司進(jìn)入企業(yè)商鋪

松靈機(jī)器人成立于2016年，是全球領(lǐng)先的機(jī)器人底盤制造商和移動(dòng)機(jī)器人系統(tǒng)解決方案服務(wù)商。目前，松靈機(jī)器人已經(jīng)擁有多款適用于不同地形的室內(nèi)外移動(dòng)機(jī)器人底盤，在載重、續(xù)航、速度、運(yùn)動(dòng)模式等不同需求場(chǎng)景下實(shí)現(xiàn)全矩陣覆蓋。同時(shí)，松靈機(jī)器人還推出了自動(dòng)駕駛解決方案，平行駕駛解決方案，機(jī)器人科研教育套件等移動(dòng)機(jī)器人底盤配套產(chǎn)品，幫助客戶在自動(dòng)駕駛、機(jī)械控制、計(jì)算機(jī)、車輛等領(lǐng)域完成實(shí)驗(yàn)驗(yàn)證。

憑借領(lǐng)先的研發(fā)技術(shù)，松靈機(jī)器人已經(jīng)與包括阿里巴巴、華為、本田、中建三局在內(nèi)的30多家行業(yè)領(lǐng)軍企業(yè)，以及中科院、清華大學(xué)、南方科技大學(xué)、北京理工大學(xué)、新加坡國(guó)立大學(xué)、紐約大學(xué)等國(guó)內(nèi)外50多所頂尖學(xué)府開展了深度合作。