普渡機(jī)器人正式發(fā)布具身智能大模型PuduFM 1.0

2026-05-14 10:40 性質(zhì)：轉(zhuǎn)載作者：普渡機(jī)器人來源：普渡機(jī)器人

免責(zé)聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點，與本網(wǎng)無關(guān)。如有需要刪除，敬請來電商榷?。?/div>

2026年5月11日，普渡機(jī)器人正式發(fā)布具身智能大模型Pudu Foundation Model（PuduFM 1.0）。該模型構(gòu)建了三大核心技術(shù)維度，實現(xiàn)了從“簡單執(zhí)行”向“物理認(rèn)知”的跨越：對三維空間的深度感知與推...

2026年5月11日，普渡機(jī)器人正式發(fā)布具身智能大模型Pudu Foundation Model（PuduFM 1.0）。該模型構(gòu)建了三大核心技術(shù)維度，實現(xiàn)了從“簡單執(zhí)行”向“物理認(rèn)知”的跨越：對三維空間的深度感知與推理、面向未來的物理狀態(tài)預(yù)測，在真實交互中持續(xù)進(jìn)化的學(xué)習(xí)機(jī)制，基于對物理世界的理解，從而支持異構(gòu)機(jī)器統(tǒng)一運行。

全文導(dǎo)覽目錄

1. 具身智能落地困境

2. 讓機(jī)器人理解世界

3. 三階段訓(xùn)練法

4. 真實世界數(shù)據(jù)飛輪

5. 打造General Physical Agent

普渡機(jī)器人立足真實應(yīng)用場景，致力于研發(fā)能夠勝任超長程任務(wù)、深度融合導(dǎo)航與操作能力，并兼具空間理解與物理直覺的具身大模型。普渡機(jī)器人通過廣泛的真實場景覆蓋和數(shù)據(jù)閉環(huán)持續(xù)驅(qū)動模型迭代和世界仿真引擎的演進(jìn)。在此過程中，具身大模型在仿真與現(xiàn)實環(huán)境的深度交互中不斷進(jìn)化，賦能千行百業(yè)，走進(jìn)千家萬戶。

1. 具身智能落地困境

1.1 協(xié)作斷層：導(dǎo)航與操作的割裂

在落地的上萬個真實場景中，深刻認(rèn)識到機(jī)器人需要頻繁的移動和操作，兩者無法割裂。當(dāng)前大部分具身大模型為了簡化任務(wù)，往往將基座固定，僅僅訓(xùn)練雙臂去執(zhí)行任務(wù)。業(yè)界為了解決這一問題，普遍是將移動與操作拆分成兩個獨立模塊，導(dǎo)航負(fù)責(zé)“到達(dá)”，操作負(fù)責(zé)“執(zhí)行”，二者缺乏統(tǒng)一的決策中樞與反饋閉環(huán)。這種“架構(gòu)性分離”導(dǎo)致機(jī)器人在復(fù)雜任務(wù)中出現(xiàn)顯著的行為斷層，難以規(guī)避“到達(dá)后無法銜接動作”或“作業(yè)執(zhí)行過程邏輯中斷”等協(xié)同困局。

1.2 操作困境：物理直覺缺失

現(xiàn)有的具身大模型在執(zhí)行任務(wù)時，常因缺乏對三維環(huán)境結(jié)構(gòu)的深度認(rèn)知，導(dǎo)致機(jī)械臂出現(xiàn)脫離目標(biāo)的無效執(zhí)行。表明當(dāng)前的范式尚未建立對三維環(huán)境結(jié)構(gòu)的認(rèn)知，無法理解“可達(dá)性”、“可操作性”等物理約束關(guān)系。更不理解，接觸物體會帶來怎樣的狀態(tài)變化，例如“杯子傾斜45度水會灑出”（重力與流體規(guī)律）、“濕滑的陶瓷盤需要更大夾持力”（摩擦系數(shù)感知）、“海綿受壓形變后重心已偏移”（材料特性理解）。讓機(jī)器人在復(fù)雜環(huán)境中淪為“高度近視的操作員”：看得見物體，卻看不懂物理因果；動得了關(guān)節(jié)，卻算不準(zhǔn)接觸后果。在毫米級精度、柔順控制與接觸動態(tài)場景下，上述問題被無限放大。

1.3 構(gòu)型鴻溝：異構(gòu)數(shù)據(jù)難復(fù)用

在當(dāng)前豐富的跨業(yè)務(wù)的產(chǎn)品矩陣下，當(dāng)前行業(yè)“一機(jī)一模”的研發(fā)范式正成為協(xié)同效能的最大桎梏。不同構(gòu)型的機(jī)器人各自訓(xùn)練專用模型，模型能力無法跨形態(tài)遷移，知識經(jīng)驗更難以在異構(gòu)本體間共享流通。更深層的危機(jī)在于，各場景產(chǎn)生的海量真實數(shù)據(jù)彼此割裂，形成“數(shù)據(jù)孤島”，無法匯聚成合力。這種范式不僅造成研發(fā)資源的重復(fù)投入，更從根本上制約了模型泛化能力的躍遷，數(shù)據(jù)無法協(xié)同，模型便難以進(jìn)化。

2. 讓機(jī)器人理解世界：重塑具身智能新范式

針對上述行業(yè)困境，為提升機(jī)器人在復(fù)雜現(xiàn)實場景中的核心價值，普渡機(jī)器人正式發(fā)布具身智能大模型Pudu Foundation Model（PuduFM 1.0）。該模型構(gòu)建了三大核心技術(shù)維度，實現(xiàn)了從“簡單執(zhí)行”向“深度認(rèn)知”的跨越：對三維空間的深度感知與推理、面向未來的物理狀態(tài)預(yù)測，在真實交互中持續(xù)進(jìn)化的學(xué)習(xí)機(jī)制，基于對物理世界的理解，從而支持異構(gòu)機(jī)器統(tǒng)一運行。為此，PuduFM1.0采用了分層解耦、協(xié)同進(jìn)化的系統(tǒng)架構(gòu)。通過模擬生物神經(jīng)系統(tǒng)的“大腦”高層邏輯規(guī)劃與“小腦”底層精細(xì)控制的清晰分工，賦予了機(jī)器人應(yīng)對復(fù)雜、不確定性場景的卓越魯棒性。

面向未來的物理狀態(tài)預(yù)測：Physical Intuition Model（PIM），專精于物理規(guī)律的隱式表征與建模。PIM 接收規(guī)劃指令及機(jī)器人的實時狀態(tài)，通過類世界模型架構(gòu)預(yù)演狀態(tài)變化，輸出物理直覺特征（Future Feature）與價值評估（Value）。該模型為動作生成提供“物理直覺”約束，能夠預(yù)判受力后的運動軌跡并評估抓取穩(wěn)定性，使決策具備科學(xué)的前瞻性。
對三維空間的深度感知與執(zhí)行：Vision Language Action（VLA），承擔(dān)實時感知與精細(xì)控制。其Visual Language Model處理機(jī)器人本體的視覺和語言輸入，并結(jié)合PIM注入的物物理直覺特征（Future Feature）與價值評估（Value），指導(dǎo)Action Expert生成去噪后的精確動作用于最終的執(zhí)行。語言理解、視覺感知與動作控制在同一潛空間對齊，確保"看到即理解，理解即執(zhí)行"。
虛實雙空間的持續(xù)進(jìn)化：World Model負(fù)責(zé)構(gòu)建高保真的數(shù)字仿真環(huán)境（Simulation World），與真實商業(yè)現(xiàn)場（Real World）形成虛實雙數(shù)據(jù)閉環(huán)。在仿真端，千萬級對抗性軌跡預(yù)演生成合成數(shù)據(jù)；在現(xiàn)實端，人在環(huán)（Human-in-Loop）機(jī)制捕獲修正數(shù)據(jù)。雙源數(shù)據(jù)協(xié)同驅(qū)動 PIM，VLA 的三體進(jìn)化，推動物理直覺在虛實迭代中實現(xiàn)精度躍遷。

2.1 通用具身基座大模型：Pudu Foundation Model

當(dāng)前世界模型（World Model）和VLA的結(jié)合主要有兩種方式：利用世界模型輸出中間值（操作軌跡），或者使用世界模型預(yù)測狀態(tài)和價值，指導(dǎo)VLA進(jìn)行后續(xù)動作。但前者丟掉了大量隱式表達(dá)的物理信息，后者直接耦合世界模型過于臃腫，真實操作不需要稠密的預(yù)測。為解決這些問題，構(gòu)建了業(yè)內(nèi)首創(chuàng)輕量級的物理直覺驅(qū)動的基座模型Pudu Foundation Model 1.0（PuduFM 1.0），由PIM與VLA深度耦合而成。這并非簡單的模塊化疊加，而是認(rèn)知層與執(zhí)行層在神經(jīng)層級的表征協(xié)同。PuduFM 1.0 既保留了對復(fù)雜物理因果的深刻洞察，又確保了底層控制的實時性與輕量化，實現(xiàn)了物理理解與精準(zhǔn)執(zhí)行的完美閉環(huán)。

PIM是系統(tǒng)的"物理預(yù)言家"：隱式、稀疏、具備對未來狀態(tài)的精準(zhǔn)推演能力。它不沉迷于像素級的表象復(fù)刻，而是在潛空間（Latent Space）中捕捉物體運動的動力學(xué)本質(zhì)——"杯子傾斜會灑"、"重心偏移會倒"、"摩擦不足會滑"這些物理常識，被編碼為可計算的未來狀態(tài)表征。

VLA則是系統(tǒng)的"多模態(tài)軀干"：首次實現(xiàn)語言、視覺、動作三大模態(tài)在統(tǒng)一特征空間內(nèi)的深度對齊。它不再讓機(jī)器人"看得見卻聽不懂"或"聽得懂卻動不了"，而是讓自然語言指令、視覺場景理解與機(jī)器人控制指令在同一語義框架下自由轉(zhuǎn)換。

這套架構(gòu)徹底打通了導(dǎo)航與操作的認(rèn)知壁壘。無論是穿越酒店長廊的路徑規(guī)劃，還是抓取異形包裹的力控執(zhí)行，背后都是同一套物理規(guī)律在起作用。PIM輸出的稀疏未來預(yù)測，為長達(dá)數(shù)小時的導(dǎo)航任務(wù)提供"前瞻視野"；VLA則在此基礎(chǔ)上，統(tǒng)一輸出底盤移動與末端操作的融合控制量，讓"走到哪"與"怎么做"無縫銜接。

與此同時，更好的支持了“一腦多形”。無論是配送機(jī)器人，清潔機(jī)器人，工業(yè)機(jī)器人還是具身智能機(jī)器人，不同構(gòu)型不再是模型能力的邊界，而是同一大腦在不同物理載體上的具身投射。PIM與VLA的協(xié)同機(jī)制，天然具備對異構(gòu)本體的泛化能力，可無縫遷移至各類形態(tài)的機(jī)器人。更重要的是，所有機(jī)器人在真實場景中產(chǎn)生的海量交互數(shù)據(jù)，將匯聚至統(tǒng)一架構(gòu)下形成正向循環(huán)：數(shù)據(jù)協(xié)同反哺模型進(jìn)化，模型進(jìn)化賦能更多形態(tài)，最終實現(xiàn)“一腦多形”的規(guī)?；涞?。

2.1.1 直覺引擎：Physical Intuition Model

具身智能需要的模型不是對數(shù)據(jù)的擬合，而是對三維空間的理解，對未來的預(yù)測，構(gòu)建物理直覺。為什么物理直覺如此關(guān)鍵？因為它賦予機(jī)器人"預(yù)測未來"的能力。這種直覺不是隨機(jī)猜測，而是在潛空間中習(xí)得的動力學(xué)，隱性地包含了對空間結(jié)構(gòu)、物理定律的深刻理解。當(dāng)模型能夠基于當(dāng)前狀態(tài)與擬執(zhí)行動作，精準(zhǔn)預(yù)測"下一秒物理世界會如何變化"，它就不再是簡單模仿訓(xùn)練數(shù)據(jù)的"復(fù)讀機(jī)"，而是具備"牽引動作執(zhí)行"能力的智能體。這種對物理因果的理解，正是突破泛化瓶頸的關(guān)鍵，面對從未見過的物體形態(tài)，只要理解其物理屬性，就能預(yù)判交互后果。

為此，我們開發(fā)了PIM框架。采用因果注意力Transformer（Causal-Attention Transformer）架構(gòu)，精準(zhǔn)建?，F(xiàn)實空間的時序因果特性。通過在編碼器中融入槽注意力（Slot Attention）與圖神經(jīng)網(wǎng)絡(luò)（Graph Neural Network，GNN），PIM能夠聚焦關(guān)鍵物體，顯式建模物體間的物理交互關(guān)系。

當(dāng)前業(yè)界許多方案直接復(fù)制World Model的像素級未來預(yù)測，試圖生成下一幀的每一個RGB值。這不僅是對算力的巨大浪費，更是對控制任務(wù)的無關(guān)信息過載。PIM堅決摒棄這種"暴力美學(xué)"，轉(zhuǎn)而進(jìn)行稀疏狀態(tài)預(yù)測，在技術(shù)層面實現(xiàn)了三大核心突破：

算力效能優(yōu)化：通過規(guī)避逐像素的冗余計算，大幅降低了端側(cè)算力負(fù)擔(dān)，從而支撐更高頻次的實時推理，確保系統(tǒng)響應(yīng)的敏捷性。
控制導(dǎo)向?qū)R：預(yù)測的是狀態(tài)表征而非視覺像素，與控制決策直接相關(guān)，避免"看得清卻控不準(zhǔn)"的脫節(jié)。
認(rèn)知本質(zhì)提取：在潛空間（Latent Space）內(nèi)剝離視覺紋理等表象干擾，精準(zhǔn)捕捉物理動力學(xué)本質(zhì)，使預(yù)測機(jī)制真正服務(wù)于高層決策邏輯。

更重要的是，PIM不僅是"預(yù)言家"，更是"評估師"。它輸出的優(yōu)勢評估值（Advantage Value），實時指導(dǎo)VLA生成最優(yōu)動作軌跡。當(dāng)預(yù)測模型識別到預(yù)設(shè)路徑存在碰撞沖突或失穩(wěn)滑脫風(fēng)險時，系統(tǒng)將主動觸發(fā)策略修正，驅(qū)動 VLA 擇優(yōu)選取物理魯棒性更高、更符合動力學(xué)約束的動作方案，從而確保作業(yè)執(zhí)行的高效性與絕對安全性。

2.1.2 多模態(tài)VLA：統(tǒng)一語言–視覺–動作三模態(tài)

當(dāng)前主流VLA架構(gòu)存在一個結(jié)構(gòu)性缺陷：語言、視覺、動作三大模態(tài)在獨立的特征空間中處理，導(dǎo)致機(jī)器人在推理時出現(xiàn)"模態(tài)錯位"，理解指令時停留在語義抽象層，感知環(huán)境時局限于像素特征層，執(zhí)行動作時又落入低維控制層，三者難以形成統(tǒng)一的物理決策流。

鑒于上述問題的分析，我們采用了分層注入機(jī)制和漸進(jìn)式融合機(jī)制，讓語言-視覺-動作在統(tǒng)一的潛空間（Latent Space）中實現(xiàn)深度對齊。確保了高層語義意圖能夠無損地轉(zhuǎn)化為底層動力學(xué)指令，使機(jī)器人在復(fù)雜交互中具備了“感知即語義、語義即執(zhí)行”的全局一致性。

物理直覺引導(dǎo)

作為執(zhí)行層的核心約束，PIM 將物理直覺未來特征（Future Feature）與價值評估（Value）轉(zhuǎn)化為高維先驗知識。通過分層注入機(jī)制，這些物理先驗深度融入 VLA 的決策流，為動作生成提供底層的物理合理性約束，確保每一個動作指令均符合動力學(xué)邏輯。

語言-視覺的層級編碼

VLM對視覺、語言及機(jī)器人狀態(tài)輸入進(jìn)行多尺度編碼，其中低層特征捕捉紋理與幾何細(xì)節(jié)，高層特征提取任務(wù)語義與意圖理解。更具突破性的是，VLM建立了統(tǒng)一的注意力表征空間：通過交叉注意力機(jī)制，模型將PIM的輸出作為關(guān)鍵特征向量，與視覺、語言特征深度融合。這一機(jī)制確保模型生成輸出特征時，能夠協(xié)同整合物理先驗與實時感知信息，顯著提升決策魯棒性與物理一致性。

動作的漸進(jìn)生成

VLM的輸出特征通過漸進(jìn)式融合的形式逐步融合到動作生成模型（Action Expert）中。帶有噪聲的動作經(jīng)歷了一個從粗到細(xì)的去噪過程：高層語義特征先確立動作的意圖框架，低層視覺特征再精化末端執(zhí)行器軌跡，物理直覺特征則持續(xù)監(jiān)督動作的物理可行性。同時，在訓(xùn)練階段我們保留離散的動作輸出，用于約束多模態(tài)潛空間的一致性。

這種"語義定方向、視覺控細(xì)節(jié)、物理守約束"的層級化信息流動，使生成的動作不再是模態(tài)間的生硬拼接，而是在統(tǒng)一潛空間中涌現(xiàn)的合理決策。機(jī)器人真正實現(xiàn)了"看懂"場景上下文、"理解"任務(wù)意圖、"生成"符合物理直覺的流暢動作。

2.2 進(jìn)化飛輪：基于強(qiáng)化學(xué)習(xí)的策略提升

具身智能的本質(zhì)并非海量數(shù)據(jù)的機(jī)械擬合，而是在“預(yù)見—驗證—糾錯”的循環(huán)迭代中，構(gòu)建雙閉環(huán)數(shù)據(jù)飛輪：

數(shù)字孿生閉環(huán)：利用基于Diffusion Transformer 架構(gòu)的 World Simulator進(jìn)行高保真環(huán)境模擬與多概率路徑預(yù)演，為模型提供大規(guī)模、高多樣性的仿真環(huán)境。
物理交互閉環(huán)：通過真實場景的部署反饋與人在環(huán)（Human-in-Loop）機(jī)制，精準(zhǔn)捕捉并修正現(xiàn)實作業(yè)中的邏輯偏差。

兩個閉環(huán)深度耦合，共享同一套策略網(wǎng)絡(luò)PuduFM 1.0，實現(xiàn)了仿真數(shù)據(jù)與真機(jī)數(shù)據(jù)在特征空間的無縫對齊。這一架構(gòu)使PuduFM 1.0擺脫了對海量真機(jī)數(shù)據(jù)的過度依賴，在持續(xù)迭代中實現(xiàn)了物理直覺的精細(xì)化與認(rèn)知能力的快速躍遷。

2.2.1 虛擬淬煉：在構(gòu)建的世界模擬器中預(yù)演未來

普渡機(jī)器人突破傳統(tǒng)具身智能對實體硬件的強(qiáng)依賴。基于橫跨工業(yè)、倉儲、商超、餐飲、酒店等20余類行業(yè)積累的多模態(tài)數(shù)據(jù)資產(chǎn)，我們將World Simulator演進(jìn)為高保真物理推演引擎。在純數(shù)字隱空間（Latent Space）內(nèi)，系統(tǒng)以歷史觀測序列與動作/文本條件為輸入，運用Diffusion Transformer精確預(yù)測未來狀態(tài)；通過獎勵評估頭（Reward Head）對生成向量實時打分，自主篩選并保留高成功率的執(zhí)行軌跡。

針對數(shù)小時級別的長程任務(wù)，World Simulator在時序維度進(jìn)行了深度優(yōu)化。面對復(fù)雜的巡檢或配送場景，模型能夠精準(zhǔn)預(yù)判關(guān)鍵決策點的物理狀態(tài)變遷——無論是貨架轉(zhuǎn)角的動力學(xué)約束，還是高密度客流下的動態(tài)避障策略。推演軌跡匯入仿真采樣數(shù)據(jù)緩沖池（Simulation Rollout Data Buffer），系統(tǒng)主動生成“接觸失效”、“突發(fā)障礙”等對抗性極端的場景，持續(xù)產(chǎn)出具有高商業(yè)價值的合成數(shù)據(jù)流。

這種以仿真替代實體采集的訓(xùn)練模式，不僅顯著降低了研發(fā)成本，更憑借對20多個行業(yè)深度場景邏輯的精準(zhǔn)建模，讓機(jī)器人在部署前完成數(shù)百萬次虛擬演練與邏輯淬煉，確保算法在真實場景中的極速適配與穩(wěn)定落地。

2.2.2 真實校準(zhǔn)：“人在環(huán)”極速進(jìn)化

仿真是預(yù)演，而非終局。當(dāng)機(jī)器人進(jìn)入全球化渠道覆蓋的真實商業(yè)現(xiàn)場，系統(tǒng)將激活延遲低于100ms的人在環(huán)進(jìn)化機(jī)制。在復(fù)雜物理環(huán)境中，機(jī)器人持續(xù)采集多模態(tài)觸覺反饋與軌跡偏差數(shù)據(jù)。

針對長尾場景中的非預(yù)期工況，無論是異形包裹的抓取失穩(wěn)，還是極端動態(tài)障礙的規(guī)避挑戰(zhàn)，人類專家可通過低延遲遙操作通道即時接管。專家在毫秒級響應(yīng)中完成毫米級位姿修正，而每一次人工介入均會被真實場景數(shù)據(jù)緩沖池（Real World Rollout Data Buffer）完整記錄。這些數(shù)據(jù)被結(jié)構(gòu)化存儲為“狀態(tài)-動作-修正”三元組，進(jìn)而轉(zhuǎn)化為極具價值的負(fù)樣本與專家示范數(shù)據(jù)。

這些源自一線商業(yè)實況的真實交互數(shù)據(jù)實時回流至訓(xùn)練資源池，不僅持續(xù)優(yōu)化World Simulator的物理模擬精度，更推動PGAFM架構(gòu)向高成功率快速收斂。通過這種“現(xiàn)場即訓(xùn)練場”的閉環(huán)設(shè)計，普渡機(jī)器人已成功驗證：僅需不足50條專家軌跡，即可實現(xiàn)新任務(wù)的高效適配，顯著提升了具身智能的商業(yè)化落地速度。

3. 三階段訓(xùn)練法

為了真正實現(xiàn)可泛化的通用動作專家，我們提出了獨特的三段式訓(xùn)練法，如下圖所示，雪花（??）代表凍結(jié)，火（??）代表可訓(xùn)練。

3.1 預(yù)訓(xùn)練：海量數(shù)據(jù)中構(gòu)建物理常識與多模態(tài)基礎(chǔ)

第一階段，大部分模塊均處于訓(xùn)練更新狀態(tài)，包括PIM、VLM、World Simulator。訓(xùn)練的目標(biāo)是利用海量、跨模態(tài)的互聯(lián)網(wǎng)數(shù)據(jù)，第一人稱操作數(shù)據(jù)，為模型注入物理常識和多模態(tài)理解能力。具體而言，在大規(guī)模圖文對上學(xué)習(xí)視覺與語言的聯(lián)合表征；PIM通過分析海量視頻數(shù)據(jù)，以自監(jiān)督方式內(nèi)化物體運動規(guī)律、物理交互等“世界常識”；這一階段的數(shù)據(jù)主要是無標(biāo)注的圖文對和視頻數(shù)據(jù)，規(guī)模龐大，讓模型成為一個擁有廣泛知識的“通才”，為后續(xù)的動作學(xué)習(xí)奠定認(rèn)知基礎(chǔ)。

3.2 基于World Simulator的強(qiáng)化學(xué)習(xí)：在虛擬世界中打磨決策能力

進(jìn)入第二階段，模型被放置在一個高度仿真的World Simulator中進(jìn)行強(qiáng)化學(xué)習(xí)。此時，為了保留預(yù)訓(xùn)練階段習(xí)得的通用知識并專注于策略優(yōu)化，我們采用模塊化凍結(jié)策略：PIM，VLM均被凍結(jié)，不再更新；而僅更新Action Expert模塊。通過強(qiáng)化學(xué)習(xí)，模型在與模擬器的交互中不斷試錯，學(xué)習(xí)如何根據(jù)指令完成具體動作任務(wù)（如抓取、導(dǎo)航）。此階段依賴的數(shù)據(jù)來自可交互的物理仿真環(huán)境，它提供了無限且安全的練習(xí)場景，使模型快速成長為某一領(lǐng)域的“動作專家”。

3.3 基于Real World交互的迭代學(xué)習(xí)：在人類反饋中持續(xù)進(jìn)化與校準(zhǔn)

第三階段將模型部署到真實物理世界，并引入人在環(huán)的反饋機(jī)制。為了適應(yīng)真實世界與模擬環(huán)境之間的差異，我們利用真實反饋的數(shù)據(jù)更新PIM和World Simulator。這樣設(shè)計的目的是讓模型的核心物理預(yù)測能力根據(jù)真實交互數(shù)據(jù)進(jìn)行調(diào)整，從而校準(zhǔn)對重力、摩擦、材料特性等真實物理規(guī)律的認(rèn)知，同時避免其他模塊的災(zāi)難性遺忘?；谖⒄{(diào)后的PIM可以進(jìn)一步提升Action Expert。整個過程形成了“模擬預(yù)訓(xùn)練—真實微調(diào)—人類反饋”的閉環(huán)，讓模型從一個“紙上談兵”的專家進(jìn)化成能夠適應(yīng)復(fù)雜真實環(huán)境的“實戰(zhàn)派”。最后基于更新的World Simulator又可以進(jìn)一步在階段2中進(jìn)行仿真優(yōu)化，在“虛實結(jié)合”的框架下持續(xù)學(xué)習(xí)。

4. 真實世界數(shù)據(jù)飛輪：構(gòu)筑物理智能的護(hù)城河

具身智能模型能力的上限，取決于數(shù)據(jù)的規(guī)模和質(zhì)量。因此數(shù)據(jù)質(zhì)量與獲取效率，決定了迭代的速度。普渡機(jī)器人依托全球化的商業(yè)布局與深厚的場景滲透，構(gòu)建起業(yè)內(nèi)最龐大的真實世界數(shù)據(jù)資產(chǎn)，這不僅是數(shù)量的堆砌，是獲取效率，質(zhì)量的碾壓。

· 3650萬小時導(dǎo)航數(shù)據(jù)

作為全球范圍內(nèi)擁有最多機(jī)器人導(dǎo)航數(shù)據(jù)資產(chǎn)的具身智能公司。公司數(shù)據(jù)版圖橫跨全球80多個國家，覆蓋工業(yè)、倉儲、商超、餐廳、酒店等20多個行業(yè)的3D場景，沉淀了100余種不同任務(wù)類型的復(fù)雜環(huán)境交互數(shù)據(jù)。

依托部署在全球的13萬臺商用機(jī)器人，每年累計生產(chǎn)達(dá)3650萬小時真實的，有效的，多樣的導(dǎo)航數(shù)據(jù)。這不僅是數(shù)字的累積，更是真實物理世界的不同人機(jī)交互，不同空間結(jié)構(gòu)下的密集采樣。與此同時，普渡機(jī)器人每年以60%的速度增長，深入更多細(xì)分行業(yè)。每年新增的機(jī)器預(yù)計可以增加842萬小時的數(shù)據(jù)。這不簡單是數(shù)據(jù)規(guī)模的擴(kuò)大，是更復(fù)雜業(yè)務(wù)場景，更復(fù)雜的人機(jī)交互，更豐富的空間結(jié)構(gòu)和動態(tài)場景帶來的數(shù)據(jù)多樣性的極大增加。

以自動駕駛行業(yè)作為對比，最新行業(yè)公開的自動駕駛數(shù)據(jù)集NVIDIA Physical AV Dataset，大概真實駕駛時長1727小時，我們每年真實環(huán)境中產(chǎn)生的數(shù)據(jù)相當(dāng)于公開數(shù)據(jù)集的20000倍以上。Tesla有數(shù)十億公里的駕駛數(shù)據(jù)，我們根據(jù)機(jī)器人平均運行時速0.8m/s（2.88km/h）,單年生產(chǎn)大概1億公里的數(shù)據(jù)。這在具身智能機(jī)器人公司里面遙遙領(lǐng)先。

盡管導(dǎo)航數(shù)據(jù)不能直接遷移至操作技能訓(xùn)練，但其戰(zhàn)略價值無可替代：這些數(shù)據(jù)源于真實場景采集、機(jī)器人第一視角、真實傳感器的原始信號，相較于互聯(lián)網(wǎng)視頻數(shù)據(jù)，具有極小的領(lǐng)域鴻溝（Domain Gap）?；ヂ?lián)網(wǎng)視頻是人類視角的“旁觀者記錄”，而導(dǎo)航數(shù)據(jù)是機(jī)器人本體的“親歷者記憶”——包含真實的深度信息、運動畸變、光照變化與空間尺度感。這種“原生機(jī)器人視角”的數(shù)據(jù)，對于訓(xùn)練具備物理一致性的世界模型而言，是不可替代的黃金資產(chǎn)。

· 1580萬小時操作數(shù)據(jù)

在操作數(shù)據(jù)層面，我們堅信“規(guī)?；?/span>與“低成本”是數(shù)據(jù)飛輪轉(zhuǎn)動的關(guān)鍵，而真正讓機(jī)器人建立物理直覺的，并不是刻意設(shè)計的數(shù)據(jù)，而是“人無感操作”的真實交互數(shù)據(jù)。

當(dāng)前數(shù)據(jù)主要來源：

第一層：互聯(lián)網(wǎng)數(shù)據(jù)。缺乏物理交互細(xì)節(jié)，無法支撐精細(xì)操作，適合作為冷啟動，幫助模型快速建立基礎(chǔ)概念。需要量級大概在數(shù)百萬到數(shù)千萬視頻。

第二層：仿真數(shù)據(jù)。數(shù)據(jù)量大，但受限于仿真與現(xiàn)實的鴻溝，導(dǎo)致復(fù)雜任務(wù)真實世界效果不佳，但伴隨World Simulator迭代，主要用于強(qiáng)化學(xué)習(xí)（RL）的“虛擬練兵”。

第三層：無感采集。需要對數(shù)據(jù)進(jìn)行映射到機(jī)器人上，但動作都是來自真實工作流程中的自然操作，這類數(shù)據(jù)天然內(nèi)涵了豐富的物理規(guī)律信息。

第四層：手持采集。數(shù)據(jù)后處理難度低，但存在嚴(yán)重缺陷：由于末端執(zhí)行器構(gòu)型與人手差異，操作者會下意識改變動作習(xí)慣以適應(yīng)設(shè)備，導(dǎo)致依賴人類物理直覺的“自然操作”數(shù)據(jù)變形失真。

第五層：遙操數(shù)據(jù)。行業(yè)目前主流方案，但成本高昂、效率低下。采集員一天工作8小時，僅能獲得約4小時有效數(shù)據(jù)，且人力成本極高，只適合單任務(wù)微調(diào)的“精修階段”。

通過對行業(yè)的深入洞察以及對技術(shù)的深刻剖析，普渡機(jī)器人提出了以人類視頻和機(jī)器人視頻數(shù)據(jù)為根基的數(shù)據(jù)金字塔體系。

其中“無感采集”，我們認(rèn)為是數(shù)據(jù)破局之道。依托在20多個行業(yè)的深厚落地優(yōu)勢，我們聯(lián)合全球渠道伙伴與客戶，部署無感化的數(shù)據(jù)采集設(shè)備。操作人員無需改變?nèi)粘９ぷ髁?xí)慣，在日常作業(yè)中即可完成數(shù)據(jù)收集——每人每天可產(chǎn)生6小時有效數(shù)據(jù)，單人年產(chǎn)1580小時。通過生態(tài)協(xié)作，將快速聚合1000個合作伙伴，每個伙伴10名操作員，即可形成每年1580萬小時的操作數(shù)據(jù)洪流。同時，合作伙伴每年30%的增加，每年新增474萬小時的真實操作數(shù)據(jù)。目前已知的最大數(shù)據(jù)規(guī)模，是Gen-1公布的在一個50萬小時的真實世界操作軌跡上訓(xùn)練。普渡機(jī)器人每年數(shù)據(jù)獲取規(guī)模是當(dāng)前公布的最大的機(jī)器人操作數(shù)據(jù)規(guī)模的58倍。

這種“場景即采集、工作即數(shù)據(jù)”的模式，不僅將數(shù)據(jù)采集成本降低一個數(shù)量級，更確保了數(shù)據(jù)的物理真實性與動作自然度，讓機(jī)器人在海量真實交互中，真正習(xí)得人類的物理直覺。依賴大量的無感采集數(shù)據(jù)，PuduFM會學(xué)習(xí)到大量的先驗知識和操作概念。在此基礎(chǔ)上，通過共建數(shù)據(jù)采集工廠的方式，快速積累起數(shù)萬小時的高質(zhì)量真機(jī)數(shù)據(jù)，為垂類應(yīng)用奠定了基礎(chǔ)。此外，為了解決落地最后一公里的問題，普渡機(jī)器人提出了利用糾正數(shù)據(jù)和故障數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)的學(xué)習(xí)范式，支持大規(guī)模機(jī)器人在線分布式策略更新和持續(xù)進(jìn)化。

5. 打造General Physical Agent，服務(wù)行業(yè)，走進(jìn)生活

普渡機(jī)器人具身智能的目標(biāo)，不是單點能力的提升，而是讓機(jī)器開始理解物理世界的運行方式。通過創(chuàng)新性的PIM，VLA的深度協(xié)同統(tǒng)一框架，以及虛實雙空間的數(shù)據(jù)閉環(huán)，打通了“規(guī)劃—預(yù)測—執(zhí)行”的完整鏈路，讓機(jī)器人能夠在真實環(huán)境中完成跨小時的復(fù)雜任務(wù)，在變化中持續(xù)修正，在不確定中穩(wěn)定運行。

更重要的是，依托全球真實場景的持續(xù)沉淀與高速增長的數(shù)據(jù)飛輪，PuduFM1.0并不是一次性的能力釋放，而是一個不斷進(jìn)化的系統(tǒng)。在每一次真實交互中變得更穩(wěn)、更準(zhǔn)、更懂世界。當(dāng)機(jī)器人開始理解空間、預(yù)見物理結(jié)果并主動修正行為，它就不再只是執(zhí)行工具，而成為長期協(xié)作，持續(xù)創(chuàng)造價值的通用物理智能體（General Physical Agent）。

普渡機(jī)器人將以領(lǐng)先的技術(shù)能力與真實世界數(shù)據(jù)壁壘，將持續(xù)推進(jìn)具身基座大模型的創(chuàng)新和產(chǎn)業(yè)生態(tài)合作，打造面向廣泛場景的General Physical Agent。既深入千行百業(yè)，推動規(guī)?；涞?；也走進(jìn)大眾生活, 融入日常場景與人協(xié)作。

關(guān)于深圳市普渡科技有限公司進(jìn)入企業(yè)商鋪

普渡科技成立于2016年，總部位于硬件創(chuàng)新之都深圳，是一家集機(jī)器人研發(fā)、制造和銷售為一體的行業(yè)領(lǐng)先的智能配送機(jī)器人及低速無人駕駛解決方案商。公司目前有員工百余名，包括深圳總部及成都分公司，研發(fā)占比超過50%，從創(chuàng)立至今，普渡一直堅守“發(fā)明家精神”，始終踐行企業(yè)文化，以用戶為中心，展現(xiàn)機(jī)器人帶給人類生產(chǎn)生活的無限可能。

企業(yè)文化