您的位置：首頁(yè) > 資訊 > 企業(yè)動(dòng)態(tài) > 正文

谷歌旗下DeepMind 推出“思考型機(jī)器人”新模型：邁向具身智能新時(shí)代

2025-10-11 11:52 性質(zhì)：原創(chuàng) 作者：Mulan 來(lái)源：AGV網(wǎng)

免責(zé)聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對(duì)侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識(shí)產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn)，與本網(wǎng)無(wú)關(guān)。如有需要?jiǎng)h除，敬請(qǐng)來(lái)電商榷?。?/div>

谷歌公司旗下DeepMind近日推出了全新的機(jī)器人智能系統(tǒng)——Gemini Robotics 1.5與Gemini Robotics-ER 1.5。這兩款模型的發(fā)布，標(biāo)志著機(jī)器人已從單步指令執(zhí)行，邁入具備多步推理與主動(dòng)學(xué)習(xí)能力的...

谷歌公司旗下DeepMind近日推出了全新的機(jī)器人智能系統(tǒng)——Gemini Robotics 1.5與Gemini Robotics-ER 1.5。這兩款模型的發(fā)布，標(biāo)志著機(jī)器人已從單步指令執(zhí)行，邁入具備多步推理與主動(dòng)學(xué)習(xí)能力的“思考型時(shí)代”，開(kāi)啟了人工智能與具身機(jī)器人融合的新階段。

此次升級(jí)源于DeepMind在通用人工智能（AGI）方向的長(zhǎng)期積累。Gemini Robotics系列建立在多模態(tài)基礎(chǔ)模型Gemini 2.0之上，將視覺(jué)、語(yǔ)言、動(dòng)作與環(huán)境理解融為一體，旨在讓機(jī)器人真正具備理解世界、規(guī)劃行為和執(zhí)行任務(wù)的能力。過(guò)去的機(jī)器人模型往往只在特定任務(wù)中運(yùn)行，而新的系統(tǒng)通過(guò)將“思考”和“執(zhí)行”模塊化分工，實(shí)現(xiàn)了推理與動(dòng)作的分層協(xié)同。

在架構(gòu)設(shè)計(jì)上，Gemini Robotics-ER 1.5扮演“思考中樞”，具備強(qiáng)大的視覺(jué)-語(yǔ)言理解和空間推理能力。它能夠分析環(huán)境、制定計(jì)劃，并在必要時(shí)訪問(wèn)網(wǎng)絡(luò)工具以獲取實(shí)時(shí)信息，從而完善任務(wù)決策。例如，機(jī)器人可主動(dòng)查詢倫敦或紐約的天氣預(yù)報(bào)，根據(jù)氣候狀況為用戶打包行李；或檢索當(dāng)?shù)乩诸悩?biāo)準(zhǔn)，自動(dòng)進(jìn)行可回收物與廚余垃圾的分類。這種自主推理與外部信息融合，使機(jī)器人具備了面向現(xiàn)實(shí)世界的知識(shí)更新能力。

作為執(zhí)行層的Gemini Robotics 1.5則是“行動(dòng)大腦”，負(fù)責(zé)將ER模型生成的目標(biāo)計(jì)劃轉(zhuǎn)化為具體動(dòng)作指令。其核心特征在于“先思考，再行動(dòng)”：在執(zhí)行前，模型會(huì)模擬動(dòng)作路徑、預(yù)測(cè)結(jié)果并動(dòng)態(tài)調(diào)整策略，以確保復(fù)雜任務(wù)中的穩(wěn)定性與高效性。該模型融合了視覺(jué)-語(yǔ)言-動(dòng)作（VLA）學(xué)習(xí)框架，使機(jī)器人能夠在連續(xù)任務(wù)中保持上下文記憶與執(zhí)行一致性。

值得關(guān)注的是，DeepMind還在本次系統(tǒng)中引入了Motion Transfer（動(dòng)作遷移）技術(shù)。不同于傳統(tǒng)機(jī)器人只能在固定硬件上學(xué)習(xí)與執(zhí)行，該技術(shù)允許模型在不同結(jié)構(gòu)的機(jī)器人之間遷移技能。例如，一個(gè)為雙臂機(jī)器人ALOHA2設(shè)計(jì)的任務(wù)，能夠直接在雙臂Franka或Apptronik的人形機(jī)器人Apollo上復(fù)現(xiàn)。通過(guò)跨形態(tài)遷移，機(jī)器人學(xué)習(xí)的“經(jīng)驗(yàn)”得以共享，極大降低了重新訓(xùn)練的成本，為通用機(jī)器人生態(tài)的形成奠定了基礎(chǔ)。

兩款模型在開(kāi)放策略上也有所區(qū)別。Gemini Robotics-ER 1.5 將通過(guò)Gemini AI Studio和Gemini API面向開(kāi)發(fā)者開(kāi)放，使研究人員和企業(yè)可在其上進(jìn)行二次開(kāi)發(fā)；而Gemini Robotics 1.5 由于涉及復(fù)雜控制與安全因素，目前僅向特定合作伙伴提供。此前，DeepMind還推出了“Gemini Robotics On-Device”版本，用于在離線或低延遲場(chǎng)景中運(yùn)行，顯示出在不同應(yīng)用環(huán)境中的靈活適應(yīng)能力。

在實(shí)驗(yàn)展示中，這一系統(tǒng)已能支持機(jī)器人完成多步、跨領(lǐng)域的綜合任務(wù)。例如，機(jī)器人能夠折疊衣物、按顏色分類洗衣，或根據(jù)不同國(guó)家的生活規(guī)范調(diào)整操作策略。這些案例展現(xiàn)出模型在環(huán)境理解、任務(wù)規(guī)劃與自我校正方面的顯著進(jìn)步。尤其在“具身智能”概念下，機(jī)器人不再是被動(dòng)執(zhí)行者，而成為能理解語(yǔ)義、進(jìn)行推理、并據(jù)此采取行動(dòng)的智能體。

這一技術(shù)體系的突破意義重大。首先，它為機(jī)器人行業(yè)帶來(lái)了真正的“思維—行動(dòng)”閉環(huán)，讓AI從虛擬語(yǔ)義空間走向物理世界。其次，跨設(shè)備動(dòng)作遷移技術(shù)將顯著降低機(jī)器人訓(xùn)練與部署成本，推動(dòng)軟硬件標(biāo)準(zhǔn)化。最后，通過(guò)API的開(kāi)放，AI生態(tài)開(kāi)發(fā)者將能更快速地構(gòu)建新一代智能機(jī)器人系統(tǒng)。

未來(lái)，隨著Gemini Robotics系列的持續(xù)演進(jìn)，DeepMind正試圖構(gòu)建一個(gè)統(tǒng)一的“機(jī)器人智能底座”——讓任何具備傳感器與執(zhí)行器的實(shí)體，都能通過(guò)同一智能框架進(jìn)行學(xué)習(xí)、適應(yīng)和決策。這意味著，機(jī)器人將逐步具備理解環(huán)境、做出判斷并采取行動(dòng)的能力，真正從“執(zhí)行機(jī)器”轉(zhuǎn)變?yōu)椤熬呱碇悄荏w”。

關(guān)于英國(guó)DeepMind公司進(jìn)入企業(yè)商鋪

我們一直對(duì)人類智能著迷 - 它塑造了我們今天生活的現(xiàn)代世界。

智能使我們能夠?qū)W習(xí)，想象，合作，創(chuàng)造，溝通等等。通過(guò)更好地理解智能的不同方面，我們可以利用這些知識(shí)作為靈感來(lái)構(gòu)建新穎的計(jì)算機(jī)系統(tǒng)，這些系統(tǒng)學(xué)會(huì)自己找到解決難題的方法。

尋找答案

就像幫助我們更深入地觀察太空的哈勃望遠(yuǎn)鏡一樣，這些工具已經(jīng)在擴(kuò)展人類知識(shí)并產(chǎn)生積極的全球影響。

我們的長(zhǎng)期目標(biāo)是解決智能問(wèn)題，開(kāi)發(fā)更通用和更有能力解決問(wèn)題的系統(tǒng)，稱為人工通用智能（AGI）。

在安全和道德的指導(dǎo)下，這項(xiàng)發(fā)明可以幫助社會(huì)找到世界上一些最緊迫和最基本的科學(xué)挑戰(zhàn)的答案。