nm99热,好吊视频欧美,无码二区三区,久久久精品伦理一区,自拍三区四区,9热无码第一页,久久久日韩无码精品,日韩有码一区在线亚洲,亚洲色91

發(fā)布詢價單
您的位置:首頁 > 資訊 > 企業(yè)動態(tài) > 正文

普渡機(jī)器人正式發(fā)布具身智能大模型PuduFM 1.0

2026-05-14 10:40 性質(zhì):轉(zhuǎn)載 作者:普渡機(jī)器人 來源:普渡機(jī)器人
免責(zé)聲明:AGV網(wǎng)(m.wnmc.org.cn)尊重合法版權(quán),反對侵權(quán)盜版。(凡是我網(wǎng)所轉(zhuǎn)載之文章,文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點,與本網(wǎng)無關(guān)。如有需要刪除,敬請來電商榷?。?/div>
2026年5月11日,普渡機(jī)器人正式發(fā)布具身智能大模型Pudu Foundation Model(PuduFM 1.0)。該模型構(gòu)建了三大核心技術(shù)維度,實現(xiàn)了從“簡單執(zhí)行”向“物理認(rèn)知”的跨越:對三維空間的深度感知與推...

2026年5月11日,普渡機(jī)器人正式發(fā)布具身智能大模型Pudu Foundation Model(PuduFM 1.0)。該模型構(gòu)建了三大核心技術(shù)維度,實現(xiàn)了從“簡單執(zhí)行”向“物理認(rèn)知”的跨越:對三維空間的深度感知與推理、面向未來的物理狀態(tài)預(yù)測,在真實交互中持續(xù)進(jìn)化的學(xué)習(xí)機(jī)制,基于對物理世界的理解,從而支持異構(gòu)機(jī)器統(tǒng)一運行。

全文導(dǎo)覽目錄

1. 具身智能落地困境

2. 讓機(jī)器人理解世界

3. 三階段訓(xùn)練法

4. 真實世界數(shù)據(jù)飛輪

5. 打造General Physical Agent

普渡機(jī)器人立足真實應(yīng)用場景,致力于研發(fā)能夠勝任超長程任務(wù)、深度融合導(dǎo)航與操作能力,并兼具空間理解與物理直覺的具身大模型。普渡機(jī)器人通過廣泛的真實場景覆蓋和數(shù)據(jù)閉環(huán)持續(xù)驅(qū)動模型迭代和世界仿真引擎的演進(jìn)。在此過程中,具身大模型在仿真與現(xiàn)實環(huán)境的深度交互中不斷進(jìn)化,賦能千行百業(yè),走進(jìn)千家萬戶。

1. 具身智能落地困境

1.1 協(xié)作斷層:導(dǎo)航與操作的割裂

在落地的上萬個真實場景中,深刻認(rèn)識到機(jī)器人需要頻繁的移動和操作,兩者無法割裂。當(dāng)前大部分具身大模型為了簡化任務(wù),往往將基座固定,僅僅訓(xùn)練雙臂去執(zhí)行任務(wù)。業(yè)界為了解決這一問題,普遍是將移動與操作拆分成兩個獨立模塊,導(dǎo)航負(fù)責(zé)“到達(dá)”,操作負(fù)責(zé)“執(zhí)行”,二者缺乏統(tǒng)一的決策中樞與反饋閉環(huán)。這種“架構(gòu)性分離”導(dǎo)致機(jī)器人在復(fù)雜任務(wù)中出現(xiàn)顯著的行為斷層,難以規(guī)避“到達(dá)后無法銜接動作”或“作業(yè)執(zhí)行過程邏輯中斷”等協(xié)同困局。

1.2 操作困境:物理直覺缺失

現(xiàn)有的具身大模型在執(zhí)行任務(wù)時,常因缺乏對三維環(huán)境結(jié)構(gòu)的深度認(rèn)知,導(dǎo)致機(jī)械臂出現(xiàn)脫離目標(biāo)的無效執(zhí)行。表明當(dāng)前的范式尚未建立對三維環(huán)境結(jié)構(gòu)的認(rèn)知,無法理解“可達(dá)性”、“可操作性”等物理約束關(guān)系。更不理解,接觸物體會帶來怎樣的狀態(tài)變化,例如“杯子傾斜45度水會灑出”(重力與流體規(guī)律)、“濕滑的陶瓷盤需要更大夾持力”(摩擦系數(shù)感知)、“海綿受壓形變后重心已偏移”(材料特性理解)。讓機(jī)器人在復(fù)雜環(huán)境中淪為“高度近視的操作員”:看得見物體,卻看不懂物理因果;動得了關(guān)節(jié),卻算不準(zhǔn)接觸后果。在毫米級精度、柔順控制與接觸動態(tài)場景下,上述問題被無限放大。

1.3 構(gòu)型鴻溝:異構(gòu)數(shù)據(jù)難復(fù)用

在當(dāng)前豐富的跨業(yè)務(wù)的產(chǎn)品矩陣下,當(dāng)前行業(yè)“一機(jī)一模”的研發(fā)范式正成為協(xié)同效能的最大桎梏。不同構(gòu)型的機(jī)器人各自訓(xùn)練專用模型,模型能力無法跨形態(tài)遷移,知識經(jīng)驗更難以在異構(gòu)本體間共享流通。更深層的危機(jī)在于,各場景產(chǎn)生的海量真實數(shù)據(jù)彼此割裂,形成“數(shù)據(jù)孤島”,無法匯聚合力。這種范式不僅造成研發(fā)資源的重復(fù)投入,更從根本上制約了模型泛化能力的躍遷,數(shù)據(jù)無法協(xié)同,模型便難以進(jìn)化。

2. 讓機(jī)器人理解世界:重塑具身智能新范式

針對上述行業(yè)困境,為提升機(jī)器人在復(fù)雜現(xiàn)實場景中的核心價值,普渡機(jī)器人正式發(fā)布具身智能大模型Pudu Foundation Model(PuduFM 1.0)。該模型構(gòu)建了三大核心技術(shù)維度,實現(xiàn)了從“簡單執(zhí)行”向“深度認(rèn)知”的跨越:對三維空間的深度感知與推理面向未來的物理狀態(tài)預(yù)測,在真實交互中持續(xù)進(jìn)化的學(xué)習(xí)機(jī)制,基于對物理世界的理解,從而支持異構(gòu)機(jī)器統(tǒng)一運行。為此,PuduFM1.0采用了分層解耦、協(xié)同進(jìn)化系統(tǒng)架構(gòu)。通過模擬生物神經(jīng)系統(tǒng)的“大腦”高層邏輯規(guī)劃與“小腦”底層精細(xì)控制的清晰分工,賦予了機(jī)器人應(yīng)對復(fù)雜、不確定性場景的卓越魯棒性。

  • 面向未來的物理狀態(tài)預(yù)測:Physical Intuition Model(PIM),專精于物理規(guī)律的隱式表征與建模。PIM 接收規(guī)劃指令及機(jī)器人的實時狀態(tài),通過類世界模型架構(gòu)預(yù)演狀態(tài)變化,輸出物理直覺特征(Future Feature)與價值評估(Value)。該模型為動作生成提供“物理直覺”約束,能夠預(yù)判受力后的運動軌跡并評估抓取穩(wěn)定性,使決策具備科學(xué)的前瞻性。

  • 對三維空間的深度感知與執(zhí)行:Vision Language Action(VLA),承擔(dān)實時感知與精細(xì)控制。其Visual Language Model處理機(jī)器人本體的視覺和語言輸入,并結(jié)合PIM注入的物物理直覺特征(Future Feature)與價值評估(Value),指導(dǎo)Action Expert生成去噪后的精確動作用于最終的執(zhí)行。語言理解、視覺感知與動作控制在同一潛空間對齊,確保"看到即理解,理解即執(zhí)行"。

  • 虛實雙空間的持續(xù)進(jìn)化World Model負(fù)責(zé)構(gòu)建高保真的數(shù)字仿真環(huán)境(Simulation World),與真實商業(yè)現(xiàn)場(Real World)形成虛實雙數(shù)據(jù)閉環(huán)。在仿真端,千萬級對抗性軌跡預(yù)演生成合成數(shù)據(jù);在現(xiàn)實端,人在環(huán)(Human-in-Loop)機(jī)制捕獲修正數(shù)據(jù)。雙源數(shù)據(jù)協(xié)同驅(qū)動 PIM,VLA 的三體進(jìn)化,推動物理直覺在虛實迭代中實現(xiàn)精度躍遷。

  • 2.1 通用具身基座大模型:Pudu Foundation Model

    當(dāng)前世界模型(World Model)和VLA的結(jié)合主要有兩種方式:利用世界模型輸出中間值(操作軌跡),或者使用世界模型預(yù)測狀態(tài)和價值,指導(dǎo)VLA進(jìn)行后續(xù)動作。但前者丟掉了大量隱式表達(dá)的物理信息,后者直接耦合世界模型過于臃腫,真實操作不需要稠密的預(yù)測。為解決這些問題,構(gòu)建了業(yè)內(nèi)首創(chuàng)輕量級的物理直覺驅(qū)動的基座模型Pudu Foundation Model 1.0(PuduFM 1.0),PIMVLA深度耦合而成。這并非簡單的模塊化疊加,而是認(rèn)知層與執(zhí)行層在神經(jīng)層級的表征協(xié)同。PuduFM 1.0 既保留了對復(fù)雜物理因果的深刻洞察,又確保了底層控制的實時性與輕量化,實現(xiàn)了物理理解與精準(zhǔn)執(zhí)行的完美閉環(huán)。

    PIM是系統(tǒng)的"物理預(yù)言家":隱式、稀疏、具備對未來狀態(tài)的精準(zhǔn)推演能力。它不沉迷于像素級的表象復(fù)刻,而是在潛空間(Latent Space)中捕捉物體運動的動力學(xué)本質(zhì)——"杯子傾斜會灑"、"重心偏移會倒"、"摩擦不足會滑"這些物理常識,被編碼為可計算的未來狀態(tài)表征。

    VLA則是系統(tǒng)的"多模態(tài)軀干":首次實現(xiàn)語言、視覺、動作三大模態(tài)在統(tǒng)一特征空間內(nèi)的深度對齊。它不再讓機(jī)器人"看得見卻聽不懂"或"聽得懂卻動不了",而是讓自然語言指令、視覺場景理解與機(jī)器人控制指令在同一語義框架下自由轉(zhuǎn)換。

    這套架構(gòu)徹底打通了導(dǎo)航與操作的認(rèn)知壁壘。無論是穿越酒店長廊的路徑規(guī)劃,還是抓取異形包裹的力控執(zhí)行,背后都是同一套物理規(guī)律在起作用。PIM輸出的稀疏未來預(yù)測,為長達(dá)數(shù)小時的導(dǎo)航任務(wù)提供"前瞻視野";VLA則在此基礎(chǔ)上,統(tǒng)一輸出底盤移動與末端操作的融合控制量,讓"走到哪"與"怎么做"無縫銜接。

    與此同時,更好的支持了“一腦形”。無論是配送機(jī)器人,清潔機(jī)器人,工業(yè)機(jī)器人還是具身智能機(jī)器人,不同構(gòu)型不再是模型能力的邊界,而是同一大腦在不同物理載體上的具身投射。PIM與VLA的協(xié)同機(jī)制,天然具備對異構(gòu)本體的泛化能力,可無縫遷移至各類形態(tài)的機(jī)器人。更重要的是,所有機(jī)器人在真實場景中產(chǎn)生的海量交互數(shù)據(jù),將匯聚至統(tǒng)一架構(gòu)下形成正向循環(huán):數(shù)據(jù)協(xié)同反哺模型進(jìn)化,模型進(jìn)化賦能更多形態(tài),最終實現(xiàn)“一腦多形”的規(guī)?;涞?。

    2.1.1 直覺引擎:Physical Intuition Model

    具身智能需要的模型不是對數(shù)據(jù)的擬合,而是對三維空間的理解,對未來的預(yù)測,構(gòu)建物理直覺。為什么物理直覺如此關(guān)鍵?因為它賦予機(jī)器人"預(yù)測未來"的能力。這種直覺不是隨機(jī)猜測,而是在潛空間中習(xí)得的動力學(xué)隱性地包含了對空間結(jié)構(gòu)、物理定律的深刻理解。當(dāng)模型能夠基于當(dāng)前狀態(tài)與擬執(zhí)行動作,精準(zhǔn)預(yù)測"下一秒物理世界會如何變化",它就不再是簡單模仿訓(xùn)練數(shù)據(jù)的"復(fù)讀機(jī)",而是具備"牽引動作執(zhí)行"能力的智能體。這種對物理因果的理解,正是突破泛化瓶頸的關(guān)鍵,面對從未見過的物體形態(tài),只要理解其物理屬性,就能預(yù)判交互后果。

    為此,我們開發(fā)了PIM框架。采用因果注意力Transformer(Causal-Attention Transformer)架構(gòu),精準(zhǔn)建?,F(xiàn)實空間的時序因果特性。通過在編碼器中融入槽注意力(Slot Attention)與圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN),PIM能夠聚焦關(guān)鍵物體,顯式建模物體間的物理交互關(guān)系。

    當(dāng)前業(yè)界許多方案直接復(fù)制World Model的像素級未來預(yù)測試圖生成下一幀的每一個RGB值。這不僅是對算力的巨大浪費,更是對控制任務(wù)的無關(guān)信息過載。PIM堅決摒棄這種"暴力美學(xué)",轉(zhuǎn)而進(jìn)行稀疏狀態(tài)預(yù)測,在技術(shù)層面實現(xiàn)了三大核心突破:

  • 算力效能優(yōu)化:通過規(guī)避逐像素的冗余計算,大幅降低了端側(cè)算力負(fù)擔(dān),從而支撐更高頻次的實時推理,確保系統(tǒng)響應(yīng)的敏捷性。

  • 控制導(dǎo)向?qū)R:預(yù)測的是狀態(tài)表征而非視覺像素,與控制決策直接相關(guān),避免"看得清卻控不準(zhǔn)"的脫節(jié)。

  • 認(rèn)知本質(zhì)提取:在潛空間(Latent Space)內(nèi)剝離視覺紋理等表象干擾,精準(zhǔn)捕捉物理動力學(xué)本質(zhì),使預(yù)測機(jī)制真正服務(wù)于高層決策邏輯。

  • 更重要的是,PIM不僅是"預(yù)言家",更是"評估師"。它輸出的優(yōu)勢評估值(Advantage Value),實時指導(dǎo)VLA生成最優(yōu)動作軌跡當(dāng)預(yù)測模型識別到預(yù)設(shè)路徑存在碰撞沖突或失穩(wěn)滑脫風(fēng)險時,系統(tǒng)將主動觸發(fā)策略修正,驅(qū)動 VLA 擇優(yōu)選取物理魯棒性更高、更符合動力學(xué)約束的動作方案,從而確保作業(yè)執(zhí)行的高效性與絕對安全性。

    2.1.2 多模態(tài)VLA:統(tǒng)一語言–視覺–動作三模態(tài)

    當(dāng)前主流VLA架構(gòu)存在一個結(jié)構(gòu)性缺陷:語言、視覺、動作三大模態(tài)在獨立的特征空間中處理,導(dǎo)致機(jī)器人在推理時出現(xiàn)"模態(tài)錯位",理解指令時停留在語義抽象層,感知環(huán)境時局限于像素特征層,執(zhí)行動作時又落入低維控制層,三者難以形成統(tǒng)一的物理決策流。

    鑒于上述問題的分析,我們采用了分層注入機(jī)制漸進(jìn)式融合機(jī)制,讓語言-視覺-動作在統(tǒng)一的潛空間(Latent Space)中實現(xiàn)深度對齊。確保了高層語義意圖能夠無損地轉(zhuǎn)化為底層動力學(xué)指令,使機(jī)器人在復(fù)雜交互中具備了“感知即語義、語義即執(zhí)行”的全局一致性。

  • 物理直覺引導(dǎo)

  • 作為執(zhí)行層的核心約束,PIM 將物理直覺未來特征(Future Feature)與價值評估(Value)轉(zhuǎn)化為高維先驗知識。通過分層注入機(jī)制,這些物理先驗深度融入 VLA 的決策流,為動作生成提供底層的物理合理性約束,確保每一個動作指令均符合動力學(xué)邏輯。

  • 語言-視覺的層級編碼

  • VLM對視覺、語言及機(jī)器人狀態(tài)輸入進(jìn)行多尺度編碼,其中低層特征捕捉紋理與幾何細(xì)節(jié),高層特征提取任務(wù)語義與意圖理解。更具突破性的是,VLM建立了統(tǒng)一的注意力表征空間:通過交叉注意力機(jī)制,模型將PIM的輸出作為關(guān)鍵特征向量,與視覺、語言特征深度融合。這一機(jī)制確保模型生成輸出特征時,能夠協(xié)同整合物理先驗與實時感知信息,顯著提升決策魯棒性與物理一致性。

  • 動作的漸進(jìn)生成

  • VLM的輸出特征通過漸進(jìn)式融合的形式逐步融合到動作生成模型(Action Expert)中。帶有噪聲的動作經(jīng)歷了一個從粗到細(xì)的去噪過程:高層語義特征先確立動作的意圖框架,低層視覺特征再精化末端執(zhí)行器軌跡,物理直覺特征則持續(xù)監(jiān)督動作的物理可行性。同時,在訓(xùn)練階段我們保留離散的動作輸出,用于約束多模態(tài)潛空間的一致性。

    這種"語義定方向、視覺控細(xì)節(jié)、物理守約束"的層級化信息流動,使生成的動作不再是模態(tài)間的生硬拼接,而是在統(tǒng)一潛空間中涌現(xiàn)的合理決策。機(jī)器人真正實現(xiàn)了"看懂"場景上下文、"理解"任務(wù)意圖、"生成"符合物理直覺的流暢動作。

    2.2 進(jìn)化飛輪:基于強(qiáng)化學(xué)習(xí)的策略提升

    具身智能的本質(zhì)并非海量數(shù)據(jù)的機(jī)械擬合,而是在“預(yù)見—驗證—糾錯”的循環(huán)迭代中,構(gòu)建雙閉環(huán)數(shù)據(jù)飛輪:

  • 數(shù)字孿生閉環(huán):利用基于Diffusion Transformer 架構(gòu)的 World Simulator進(jìn)行高保真環(huán)境模擬與多概率路徑預(yù)演,為模型提供大規(guī)模、高多樣性的仿真環(huán)境。

  • 物理交互閉環(huán):通過真實場景的部署反饋與人在環(huán)(Human-in-Loop)機(jī)制,精準(zhǔn)捕捉并修正現(xiàn)實作業(yè)中的邏輯偏差。

  • 兩個閉環(huán)深度耦合,共享同一套策略網(wǎng)絡(luò)PuduFM 1.0,實現(xiàn)了仿真數(shù)據(jù)與真機(jī)數(shù)據(jù)在特征空間的無縫對齊。這一架構(gòu)使PuduFM 1.0擺脫了對海量真機(jī)數(shù)據(jù)的過度依賴,在持續(xù)迭代中實現(xiàn)了物理直覺的精細(xì)化與認(rèn)知能力的快速躍遷。

    2.2.1 虛擬淬煉:在構(gòu)建的世界模擬器中預(yù)演未來

    普渡機(jī)器人突破傳統(tǒng)具身智能對實體硬件的強(qiáng)依賴。基于橫跨工業(yè)、倉儲、商超、餐飲、酒店等20余類行業(yè)積累的多模態(tài)數(shù)據(jù)資產(chǎn),我們將World Simulator演進(jìn)為高保真物理推演引擎。在純數(shù)字隱空間(Latent Space)內(nèi),系統(tǒng)以歷史觀測序列與動作/文本條件為輸入,運用Diffusion Transformer精確預(yù)測未來狀態(tài);通過獎勵評估頭(Reward Head)對生成向量實時打分,自主篩選并保留高成功率的執(zhí)行軌跡。

    針對數(shù)小時級別的長程任務(wù),World Simulator在時序維度進(jìn)行了深度優(yōu)化。面對復(fù)雜的巡檢或配送場景,模型能夠精準(zhǔn)預(yù)判關(guān)鍵決策點的物理狀態(tài)變遷——無論是貨架轉(zhuǎn)角的動力學(xué)約束,還是高密度客流下的動態(tài)避障策略。推演軌跡匯入仿真采樣數(shù)據(jù)緩沖池(Simulation Rollout Data Buffer),系統(tǒng)主動生成“接觸失效”、“突發(fā)障礙”等對抗性極端的場景,持續(xù)產(chǎn)出具有高商業(yè)價值的合成數(shù)據(jù)流。

    這種以仿真替代實體采集的訓(xùn)練模式,不僅顯著降低了研發(fā)成本,更憑借對20多個行業(yè)深度場景邏輯的精準(zhǔn)建模,讓機(jī)器人在部署前完成數(shù)百萬次虛擬演練與邏輯淬煉,確保算法在真實場景中的極速適配與穩(wěn)定落地。

    2.2.2 真實校準(zhǔn):“人在環(huán)”極速進(jìn)化

    仿真是預(yù)演,而非終局。當(dāng)機(jī)器人進(jìn)入全球化渠道覆蓋的真實商業(yè)現(xiàn)場,系統(tǒng)將激活延遲低于100ms的人在環(huán)進(jìn)化機(jī)制。在復(fù)雜物理環(huán)境中,機(jī)器人持續(xù)采集多模態(tài)觸覺反饋與軌跡偏差數(shù)據(jù)。

    針對長尾場景中的非預(yù)期工況,無論是異形包裹的抓取失穩(wěn),還是極端動態(tài)障礙的規(guī)避挑戰(zhàn),人類專家可通過低延遲遙操作通道即時接管。專家在毫秒級響應(yīng)中完成毫米級位姿修正,而每一次人工介入均會被真實場景數(shù)據(jù)緩沖池(Real World Rollout Data Buffer)完整記錄。這些數(shù)據(jù)被結(jié)構(gòu)化存儲為“狀態(tài)-動作-修正”三元組,進(jìn)而轉(zhuǎn)化為極具價值的負(fù)樣本與專家示范數(shù)據(jù)。

    這些源自一線商業(yè)實況的真實交互數(shù)據(jù)實時回流至訓(xùn)練資源池,不僅持續(xù)優(yōu)化World Simulator的物理模擬精度,更推動PGAFM架構(gòu)向高成功率快速收斂。通過這種“現(xiàn)場即訓(xùn)練場”的閉環(huán)設(shè)計,普渡機(jī)器人已成功驗證:僅需不足50條專家軌跡,即可實現(xiàn)新任務(wù)的高效適配,顯著提升了具身智能的商業(yè)化落地速度。

    3. 三階段訓(xùn)練法

    為了真正實現(xiàn)可泛化的通用動作專家,我們提出了獨特的三段式訓(xùn)練法,如下圖所示,雪花(??)代表凍結(jié),火(??)代表可訓(xùn)練。

    3.1 預(yù)訓(xùn)練:海量數(shù)據(jù)中構(gòu)建物理常識與多模態(tài)基礎(chǔ)

    第一階段,大部分模塊均處于訓(xùn)練更新狀態(tài),包括PIM、VLM、World Simulator。訓(xùn)練的目標(biāo)是利用海量、跨模態(tài)的互聯(lián)網(wǎng)數(shù)據(jù),第一人稱操作數(shù)據(jù),為模型注入物理常識和多模態(tài)理解能力。具體而言,在大規(guī)模圖文對上學(xué)習(xí)視覺與語言的聯(lián)合表征;PIM通過分析海量視頻數(shù)據(jù),以自監(jiān)督方式內(nèi)化物體運動規(guī)律、物理交互等“世界常識”;這一階段的數(shù)據(jù)主要是無標(biāo)注的圖文對和視頻數(shù)據(jù),規(guī)模龐大,讓模型成為一個擁有廣泛知識的“通才,為后續(xù)的動作學(xué)習(xí)奠定認(rèn)知基礎(chǔ)。

    3.2 基于World Simulator的強(qiáng)化學(xué)習(xí):在虛擬世界中打磨決策能力

    進(jìn)入第二階段,模型被放置在一個高度仿真的World Simulator中進(jìn)行強(qiáng)化學(xué)習(xí)。此時,為了保留預(yù)訓(xùn)練階段習(xí)得的通用知識并專注于策略優(yōu)化,我們采用模塊化凍結(jié)策略:PIM,VLM均被凍結(jié),不再更新;而僅更新Action Expert模塊。通過強(qiáng)化學(xué)習(xí),模型在與模擬器的交互中不斷試錯,學(xué)習(xí)如何根據(jù)指令完成具體動作任務(wù)(如抓取、導(dǎo)航)。此階段依賴的數(shù)據(jù)來自可交互的物理仿真環(huán)境,它提供了無限且安全的練習(xí)場景,使模型快速成長為某一領(lǐng)域的“動作專家”。

    3.3 基于Real World交互的迭代學(xué)習(xí):在人類反饋中持續(xù)進(jìn)化與校準(zhǔn)

    第三階段將模型部署到真實物理世界,并引入人在環(huán)的反饋機(jī)制。為了適應(yīng)真實世界與模擬環(huán)境之間的差異,我們利用真實反饋的數(shù)據(jù)更新PIM和World Simulator。這樣設(shè)計的目的是讓模型的核心物理預(yù)測能力根據(jù)真實交互數(shù)據(jù)進(jìn)行調(diào)整,從而校準(zhǔn)對重力、摩擦、材料特性等真實物理規(guī)律的認(rèn)知,同時避免其他模塊的災(zāi)難性遺忘?;谖⒄{(diào)后的PIM可以進(jìn)一步提升Action Expert。整個過程形成了“模擬預(yù)訓(xùn)練—真實微調(diào)—人類反饋”的閉環(huán),讓模型從一個紙上談兵的專家進(jìn)化成能夠適應(yīng)復(fù)雜真實環(huán)境的實戰(zhàn)派”。最后基于更新的World Simulator又可以進(jìn)一步在階段2中進(jìn)行仿真優(yōu)化,在“虛實結(jié)合”的框架下持續(xù)學(xué)習(xí)。

    4. 真實世界數(shù)據(jù)飛輪:構(gòu)筑物理智能的護(hù)城河

    具身智能模型能力的上限,取決于數(shù)據(jù)的規(guī)模和質(zhì)量。因此數(shù)據(jù)質(zhì)量與獲取效率,決定了迭代的速度。普渡機(jī)器人依托全球化的商業(yè)布局與深厚的場景滲透,構(gòu)建起業(yè)內(nèi)最龐大的真實世界數(shù)據(jù)資產(chǎn),這不僅是數(shù)量的堆砌,是獲取效率,質(zhì)量的碾壓。

    · 3650萬小時導(dǎo)航數(shù)據(jù)

    作為全球范圍內(nèi)擁有最多機(jī)器人導(dǎo)航數(shù)據(jù)資產(chǎn)的具身智能公司。公司數(shù)據(jù)版圖橫跨全球80多個國家,覆蓋工業(yè)、倉儲、商超、餐廳、酒店等20多個行業(yè)的3D場景,沉淀了100余種不同任務(wù)類型復(fù)雜環(huán)境交互數(shù)據(jù)。

    依托部署在全球的13萬臺商用機(jī)器人,每年累計生產(chǎn)達(dá)3650萬小時真實的,有效的,多樣的導(dǎo)航數(shù)據(jù)。這不僅是數(shù)字的累積,更是真實物理世界的不同人機(jī)交互,不同空間結(jié)構(gòu)下的密集采樣。與此同時,普渡機(jī)器人每年以60%的速度增長,深入更多細(xì)分行業(yè)。每年新增的機(jī)器預(yù)計可以增加842萬小時的數(shù)據(jù)。這不簡單是數(shù)據(jù)規(guī)模的擴(kuò)大,是更復(fù)雜業(yè)務(wù)場景,更復(fù)雜的人機(jī)交互,更豐富的空間結(jié)構(gòu)和動態(tài)場景帶來的數(shù)據(jù)多樣性的極大增加。

    自動駕駛行業(yè)作為對比,最新行業(yè)公開的自動駕駛數(shù)據(jù)集NVIDIA Physical AV Dataset,大概真實駕駛時長1727小時,我們每年真實環(huán)境中產(chǎn)生的數(shù)據(jù)相當(dāng)于公開數(shù)據(jù)集的20000倍以上。Tesla有數(shù)十億公里的駕駛數(shù)據(jù),我們根據(jù)機(jī)器人平均運行時速0.8m/s(2.88km/h),單年生產(chǎn)大概1億公里的數(shù)據(jù)。這在具身智能機(jī)器人公司里面遙遙領(lǐng)先。

    盡管導(dǎo)航數(shù)據(jù)不能直接遷移至操作技能訓(xùn)練,但其戰(zhàn)略價值無可替代:這些數(shù)據(jù)源于真實場景采集、機(jī)器人第一視角、真實傳感器的原始信號,相較于互聯(lián)網(wǎng)視頻數(shù)據(jù),具有極小的領(lǐng)域鴻溝(Domain Gap)?;ヂ?lián)網(wǎng)視頻是人類視角的“旁觀者記錄”,而導(dǎo)航數(shù)據(jù)是機(jī)器人本體的“親歷者記憶”——包含真實的深度信息、運動畸變、光照變化與空間尺度感。這種原生機(jī)器人視角的數(shù)據(jù),對于訓(xùn)練具備物理一致性的世界模型而言,是不可替代的黃金資產(chǎn)。

    · 1580萬小時操作數(shù)據(jù)

    在操作數(shù)據(jù)層面,我們堅信“規(guī)?;?/span>與“低成本”是數(shù)據(jù)飛輪轉(zhuǎn)動的關(guān)鍵,而真正讓機(jī)器人建立物理直覺的,并不是刻意設(shè)計的數(shù)據(jù),而是“人無感操作”的真實交互數(shù)據(jù)。

    當(dāng)前數(shù)據(jù)主要來源:

    第一層:互聯(lián)網(wǎng)數(shù)據(jù)缺乏物理交互細(xì)節(jié),無法支撐精細(xì)操作,適合作為冷啟動,幫助模型快速建立基礎(chǔ)概念。需要量級大概在數(shù)百萬到數(shù)千萬視頻。

    第二層:仿真數(shù)據(jù)。數(shù)據(jù)量大,但受限于仿真與現(xiàn)實的鴻溝,導(dǎo)致復(fù)雜任務(wù)真實世界效果不佳,但伴隨World Simulator迭代,主要用于強(qiáng)化學(xué)習(xí)(RL的“虛擬練兵”。

    第三層:無感采集。需要對數(shù)據(jù)進(jìn)行映射到機(jī)器人上,但動作都是來自真實工作流程中的自然操作,這類數(shù)據(jù)天然內(nèi)涵了豐富的物理規(guī)律信息。

    第四層:手持采集。數(shù)據(jù)后處理難度低,但存在嚴(yán)重缺陷:由于末端執(zhí)行器構(gòu)型與人手差異,操作者會下意識改變動作習(xí)慣以適應(yīng)設(shè)備,導(dǎo)致依賴人類物理直覺的“自然操作”數(shù)據(jù)變形失真。

    第五層:遙操數(shù)據(jù)。行業(yè)目前主流方案,但成本高昂、效率低下。采集員一天工作8小時,僅能獲得約4小時有效數(shù)據(jù),且人力成本極高,只適合單任務(wù)微調(diào)的“精修階段”。

    通過對行業(yè)的深入洞察以及對技術(shù)的深刻剖析,普渡機(jī)器人提出了以人類視頻和機(jī)器人視頻數(shù)據(jù)為根基的數(shù)據(jù)金字塔體系。

    其中“無感采集”,我們認(rèn)為是數(shù)據(jù)破局之道。依托在20多個行業(yè)的深厚落地優(yōu)勢,我們聯(lián)合全球渠道伙伴與客戶,部署無感化的數(shù)據(jù)采集設(shè)備。操作人員無需改變?nèi)粘9ぷ髁?xí)慣,在日常作業(yè)中即可完成數(shù)據(jù)收集——每人每天可產(chǎn)生6小時有效數(shù)據(jù),單人年產(chǎn)1580小時。通過生態(tài)協(xié)作,將快速聚合1000個合作伙伴,每個伙伴10名操作員,即可形成每年1580萬小時的操作數(shù)據(jù)洪流。同時,合作伙伴每年30%的增加,每年新增474萬小時的真實操作數(shù)據(jù)。目前已知的最大數(shù)據(jù)規(guī)模,是Gen-1公布的在一個50萬小時的真實世界操作軌跡上訓(xùn)練。普渡機(jī)器人每年數(shù)據(jù)獲取規(guī)模是當(dāng)前公布的最大的機(jī)器人操作數(shù)據(jù)規(guī)模的58倍。

    這種“場景即采集、工作即數(shù)據(jù)”的模式,不僅將數(shù)據(jù)采集成本降低一個數(shù)量級,更確保了數(shù)據(jù)的物理真實性與動作自然度,讓機(jī)器人在海量真實交互中,真正習(xí)得人類的物理直覺。依賴大量的無感采集數(shù)據(jù),PuduFM會學(xué)習(xí)到大量的先驗知識和操作概念。在此基礎(chǔ)上,通過共建數(shù)據(jù)采集工廠的方式,快速積累起數(shù)萬小時的高質(zhì)量真機(jī)數(shù)據(jù),為垂類應(yīng)用奠定了基礎(chǔ)。此外,為了解決落地最后一公里的問題,普渡機(jī)器人提出了利用糾正數(shù)據(jù)和故障數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)的學(xué)習(xí)范式,支持大規(guī)模機(jī)器人在線分布式策略更新和持續(xù)進(jìn)化。

    5. 打造General Physical Agent,服務(wù)行業(yè),走進(jìn)生活

    普渡機(jī)器人具身智能的目標(biāo),不是單點能力的提升,而是讓機(jī)器開始理解物理世界的運行方式通過創(chuàng)新性的PIM,VLA的深度協(xié)同統(tǒng)一框架,以及虛實雙空間的數(shù)據(jù)閉環(huán),打通了“規(guī)劃—預(yù)測—執(zhí)行”的完整鏈路,讓機(jī)器人能夠在真實環(huán)境中完成跨小時的復(fù)雜任務(wù),在變化中持續(xù)修正,在不確定中穩(wěn)定運行。

    更重要的是,依托全球真實場景的持續(xù)沉淀與高速增長的數(shù)據(jù)飛輪,PuduFM1.0并不是一次性的能力釋放,而是一個不斷進(jìn)化的系統(tǒng)。在每一次真實交互中變得更穩(wěn)、更準(zhǔn)、更懂世界。當(dāng)機(jī)器人開始理解空間、預(yù)見物理結(jié)果并主動修正行為,它就不再只是執(zhí)行工具,而成為長期協(xié)作,持續(xù)創(chuàng)造價值的通用物理智能體(General Physical Agent)。

    普渡機(jī)器人將以領(lǐng)先的技術(shù)能力與真實世界數(shù)據(jù)壁壘,將持續(xù)推進(jìn)具身基座大模型的創(chuàng)新和產(chǎn)業(yè)生態(tài)合作,打造面向廣泛場景的General Physical Agent。既深入千行百業(yè),推動規(guī)?;涞?;也走進(jìn)大眾生活, 融入日常場景與人協(xié)作。

普渡科技成立于2016年,總部位于硬件創(chuàng)新之都深圳,是一家集機(jī)器人研發(fā)、制造和銷售為一體的行業(yè)領(lǐng)先的智能配送機(jī)器人及低速無人駕駛解決方案商。公司目前有員工百余名,包括深圳總部及成都分公司,研發(fā)占比超過50%,從創(chuàng)立至今,普渡一直堅守“發(fā)明家精神”,始終踐行企業(yè)文化,以用戶為中心,展現(xiàn)機(jī)器人帶給人類生產(chǎn)生活的無限可能。

企業(yè)文化

發(fā)明家精神 | 以用戶為中心 | 用第一原理思考 | 追求極致 | 快速發(fā)展 開放 | 擁抱變化,致力于用機(jī)器人提升人類生產(chǎn)生活效率,在機(jī)器人研發(fā)、室內(nèi)無人駕駛解決方案、智慧餐飲賦能等領(lǐng)域成為領(lǐng)先的品牌,用最極致的技術(shù)追求和充滿想象力的產(chǎn)品證明我們的價值。

關(guān)注官方微信

手機(jī)掃碼看新聞

炎陵县| 康定县| 黄浦区| 滨州市| 吉安市| 灯塔市| 白沙| 子洲县| 巫溪县| 洛宁县| 勃利县| 皮山县| 平舆县| 宁城县| 鹤庆县| 繁昌县| 普兰县| 尉氏县| 阜新| 江永县| 莫力| 汉川市| 乐东| 肥城市| 祁连县| 长兴县| 稻城县| 图片| 寿宁县| 长寿区| 屏东市| 双鸭山市| 渭南市| 太原市| 乐安县| 马山县| 宜川县| 平遥县| 德惠市| 方城县| 东兰县|