

谷歌公司旗下DeepMind近日推出了全新的機(jī)器人智能系統(tǒng)——Gemini Robotics 1.5與Gemini Robotics-ER 1.5。這兩款模型的發(fā)布,標(biāo)志著機(jī)器人已從單步指令執(zhí)行,邁入具備多步推理與主動(dòng)學(xué)習(xí)能力的“思考型時(shí)代”,開(kāi)啟了人工智能與具身機(jī)器人融合的新階段。
此次升級(jí)源于DeepMind在通用人工智能(AGI)方向的長(zhǎng)期積累。Gemini Robotics系列建立在多模態(tài)基礎(chǔ)模型Gemini 2.0之上,將視覺(jué)、語(yǔ)言、動(dòng)作與環(huán)境理解融為一體,旨在讓機(jī)器人真正具備理解世界、規(guī)劃行為和執(zhí)行任務(wù)的能力。過(guò)去的機(jī)器人模型往往只在特定任務(wù)中運(yùn)行,而新的系統(tǒng)通過(guò)將“思考”和“執(zhí)行”模塊化分工,實(shí)現(xiàn)了推理與動(dòng)作的分層協(xié)同。
在架構(gòu)設(shè)計(jì)上,Gemini Robotics-ER 1.5扮演“思考中樞”,具備強(qiáng)大的視覺(jué)-語(yǔ)言理解和空間推理能力。它能夠分析環(huán)境、制定計(jì)劃,并在必要時(shí)訪問(wèn)網(wǎng)絡(luò)工具以獲取實(shí)時(shí)信息,從而完善任務(wù)決策。例如,機(jī)器人可主動(dòng)查詢倫敦或紐約的天氣預(yù)報(bào),根據(jù)氣候狀況為用戶打包行李;或檢索當(dāng)?shù)乩诸悩?biāo)準(zhǔn),自動(dòng)進(jìn)行可回收物與廚余垃圾的分類。這種自主推理與外部信息融合,使機(jī)器人具備了面向現(xiàn)實(shí)世界的知識(shí)更新能力。
作為執(zhí)行層的Gemini Robotics 1.5則是“行動(dòng)大腦”,負(fù)責(zé)將ER模型生成的目標(biāo)計(jì)劃轉(zhuǎn)化為具體動(dòng)作指令。其核心特征在于“先思考,再行動(dòng)”:在執(zhí)行前,模型會(huì)模擬動(dòng)作路徑、預(yù)測(cè)結(jié)果并動(dòng)態(tài)調(diào)整策略,以確保復(fù)雜任務(wù)中的穩(wěn)定性與高效性。該模型融合了視覺(jué)-語(yǔ)言-動(dòng)作(VLA)學(xué)習(xí)框架,使機(jī)器人能夠在連續(xù)任務(wù)中保持上下文記憶與執(zhí)行一致性。
值得關(guān)注的是,DeepMind還在本次系統(tǒng)中引入了Motion Transfer(動(dòng)作遷移)技術(shù)。不同于傳統(tǒng)機(jī)器人只能在固定硬件上學(xué)習(xí)與執(zhí)行,該技術(shù)允許模型在不同結(jié)構(gòu)的機(jī)器人之間遷移技能。例如,一個(gè)為雙臂機(jī)器人ALOHA2設(shè)計(jì)的任務(wù),能夠直接在雙臂Franka或Apptronik的人形機(jī)器人Apollo上復(fù)現(xiàn)。通過(guò)跨形態(tài)遷移,機(jī)器人學(xué)習(xí)的“經(jīng)驗(yàn)”得以共享,極大降低了重新訓(xùn)練的成本,為通用機(jī)器人生態(tài)的形成奠定了基礎(chǔ)。
兩款模型在開(kāi)放策略上也有所區(qū)別。Gemini Robotics-ER 1.5 將通過(guò)Gemini AI Studio和Gemini API面向開(kāi)發(fā)者開(kāi)放,使研究人員和企業(yè)可在其上進(jìn)行二次開(kāi)發(fā);而Gemini Robotics 1.5 由于涉及復(fù)雜控制與安全因素,目前僅向特定合作伙伴提供。此前,DeepMind還推出了“Gemini Robotics On-Device”版本,用于在離線或低延遲場(chǎng)景中運(yùn)行,顯示出在不同應(yīng)用環(huán)境中的靈活適應(yīng)能力。
在實(shí)驗(yàn)展示中,這一系統(tǒng)已能支持機(jī)器人完成多步、跨領(lǐng)域的綜合任務(wù)。例如,機(jī)器人能夠折疊衣物、按顏色分類洗衣,或根據(jù)不同國(guó)家的生活規(guī)范調(diào)整操作策略。這些案例展現(xiàn)出模型在環(huán)境理解、任務(wù)規(guī)劃與自我校正方面的顯著進(jìn)步。尤其在“具身智能”概念下,機(jī)器人不再是被動(dòng)執(zhí)行者,而成為能理解語(yǔ)義、進(jìn)行推理、并據(jù)此采取行動(dòng)的智能體。
這一技術(shù)體系的突破意義重大。首先,它為機(jī)器人行業(yè)帶來(lái)了真正的“思維—行動(dòng)”閉環(huán),讓AI從虛擬語(yǔ)義空間走向物理世界。其次,跨設(shè)備動(dòng)作遷移技術(shù)將顯著降低機(jī)器人訓(xùn)練與部署成本,推動(dòng)軟硬件標(biāo)準(zhǔn)化。最后,通過(guò)API的開(kāi)放,AI生態(tài)開(kāi)發(fā)者將能更快速地構(gòu)建新一代智能機(jī)器人系統(tǒng)。
未來(lái),隨著Gemini Robotics系列的持續(xù)演進(jìn),DeepMind正試圖構(gòu)建一個(gè)統(tǒng)一的“機(jī)器人智能底座”——讓任何具備傳感器與執(zhí)行器的實(shí)體,都能通過(guò)同一智能框架進(jìn)行學(xué)習(xí)、適應(yīng)和決策。這意味著,機(jī)器人將逐步具備理解環(huán)境、做出判斷并采取行動(dòng)的能力,真正從“執(zhí)行機(jī)器”轉(zhuǎn)變?yōu)椤熬呱碇悄荏w”。
我們一直對(duì)人類智能著迷 - 它塑造了我們今天生活的現(xiàn)代世界。
智能使我們能夠?qū)W習(xí),想象,合作,創(chuàng)造,溝通等等。通過(guò)更好地理解智能的不同方面,我們可以利用這些知識(shí)作為靈感來(lái)構(gòu)建新穎的計(jì)算機(jī)系統(tǒng),這些系統(tǒng)學(xué)會(huì)自己找到解決難題的方法。
尋找答案就像幫助我們更深入地觀察太空的哈勃望遠(yuǎn)鏡一樣,這些工具已經(jīng)在擴(kuò)展人類知識(shí)并產(chǎn)生積極的全球影響。
我們的長(zhǎng)期目標(biāo)是解決智能問(wèn)題,開(kāi)發(fā)更通用和更有能力解決問(wèn)題的系統(tǒng),稱為人工通用智能(AGI)。
在安全和道德的指導(dǎo)下,這項(xiàng)發(fā)明可以幫助社會(huì)找到世界上一些最緊迫和最基本的科學(xué)挑戰(zhàn)的答案。


