

近日,世界人工智能大會(huì)(WAIC)熱潮正酣,一場(chǎng)以「強(qiáng)化學(xué)習(xí)新范式探索之夜」為名的深度交流活動(dòng),在別具一格的氛圍中拉開(kāi)序幕。這里沒(méi)有傳統(tǒng)會(huì)議的緊繃節(jié)奏,取而代之的是16位產(chǎn)學(xué)研技術(shù)人圍坐暖光下的從容暢談,大家暫且擺脫既定議程的桎梏,讓關(guān)于強(qiáng)化學(xué)習(xí)與大模型智能體的前沿思考,在輕松自在的交流中自然碰撞、自由生長(zhǎng),成為WAIC期間一抹獨(dú)特的風(fēng)景。
觀點(diǎn)速遞
活動(dòng)圍繞「強(qiáng)化學(xué)習(xí)與大模型智能體」、「智能體的探索與決策」、「如何進(jìn)化出超級(jí)智能體」三大核心議題展開(kāi),嘉賓們從各自領(lǐng)域出發(fā),貢獻(xiàn)了極具針對(duì)性的觀點(diǎn)。
中國(guó)電信人工智能研究院(TeleAI)研究科學(xué)家白辰甲認(rèn)為,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的大模型Agent必須與特定的專(zhuān)業(yè)領(lǐng)域結(jié)合,結(jié)合領(lǐng)域知識(shí)構(gòu)造相應(yīng)的問(wèn)題形式和獎(jiǎng)懲機(jī)制,但走向更加通用的Agent系統(tǒng)是未來(lái)的發(fā)展方向。
國(guó)家地方共建具身智能機(jī)器人創(chuàng)新中心世界模型算法負(fù)責(zé)人池曉威指出,在具身智能領(lǐng)域,多模態(tài)智能體若要在模擬器與真實(shí)世界中實(shí)現(xiàn)長(zhǎng)程任務(wù)規(guī)劃,強(qiáng)化學(xué)習(xí)為核心支撐。這類(lèi)RL算法依賴(lài)于數(shù)據(jù)與算法的協(xié)同迭代:數(shù)據(jù)層面需通過(guò)搜索算法拓展規(guī)劃深度,模型訓(xùn)練層面則需結(jié)合GRPO等策略?xún)?yōu)化方法提升性能。通過(guò)這種融合范式,具身智能體能夠在復(fù)雜動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)自主的長(zhǎng)時(shí)推理與交互。
香港大學(xué)計(jì)算機(jī)系助理教授黃超認(rèn)為,對(duì)于大模型的Agent來(lái)說(shuō),數(shù)據(jù)是“糧草”,算法是“兵法”,系統(tǒng)是“戰(zhàn)場(chǎng)”——缺了哪樣,智能活兒都干不漂亮。
中科院自動(dòng)化所博士李鴻鑫提出,超級(jí)智能的關(guān)鍵里程碑是智能體擁有元認(rèn)知--即認(rèn)清自身知識(shí)邊界,這將驅(qū)動(dòng)其主動(dòng)探索填補(bǔ)知識(shí)空白,實(shí)現(xiàn)自我進(jìn)化。
華為AI開(kāi)源生態(tài)總監(jiān)黃之鵬談及,Multi-Agent RL很多時(shí)候看起來(lái)不太實(shí)際:協(xié)同幾個(gè)Agent完成一項(xiàng)任務(wù)似乎跟前AI時(shí)代的普通分布式任務(wù)沒(méi)有太大區(qū)別。但實(shí)際上無(wú)論是通過(guò)一個(gè)Central Critic來(lái)真正讓幾個(gè)Agent RL到同一個(gè)Reward目標(biāo),還是更為激進(jìn)的Attention Level的跨Agent訓(xùn)練,MARL都逐漸在成為智能體時(shí)代越來(lái)越重要的關(guān)鍵技術(shù)。分布式純異步的架構(gòu)、對(duì)Non-verifiable Reward的支持,都會(huì)是最吸引人的發(fā)展方向。
浙江大學(xué)計(jì)算機(jī)創(chuàng)新技術(shù)研究院研究員劉晨強(qiáng)調(diào),可通過(guò)強(qiáng)化學(xué)習(xí)將資深員工的隱性經(jīng)驗(yàn)轉(zhuǎn)化為數(shù)字化資產(chǎn)。RL模型在模擬或?qū)嶋H環(huán)境中試錯(cuò)、互動(dòng)、接收反饋,像老師傅一樣學(xué)習(xí)并內(nèi)化企業(yè)獨(dú)有策略,發(fā)現(xiàn)人難察覺(jué)的規(guī)律。這使得企業(yè)內(nèi)部模型比通用大模型更懂業(yè)務(wù)、更智慧,成為定制化的強(qiáng)大決策引擎。
香港中文大學(xué)(深圳)助理教授劉桂良認(rèn)為,強(qiáng)化學(xué)習(xí)下一步將推動(dòng)智能體“挑戰(zhàn)真實(shí)物理世界”,成為具身智能體進(jìn)行推理與學(xué)習(xí)的重要驅(qū)動(dòng)力。在“生成式仿真—真實(shí)世界部署”的新范式下,強(qiáng)化學(xué)習(xí)將有力促進(jìn)多模態(tài)運(yùn)控大模型在復(fù)雜操作環(huán)境中的實(shí)際應(yīng)用與落地。
AIGCode CEO兼聯(lián)合創(chuàng)始人宿文指出,AI-coding產(chǎn)品存在反饋長(zhǎng)、調(diào)試難等瓶頸。新興強(qiáng)化學(xué)習(xí)范式通過(guò)多獎(jiǎng)勵(lì)機(jī)制與算法,讓模型在線迭代,減少數(shù)據(jù)依賴(lài),形成優(yōu)化閉環(huán)。未來(lái),強(qiáng)化學(xué)習(xí)或成其從 “輔助生成” 走向 “自主交付” 的核心引擎。
倫敦大學(xué)學(xué)院計(jì)算機(jī)系教授汪軍在訓(xùn)練高質(zhì)量智能體是否需要調(diào)參這一問(wèn)題上,認(rèn)為盡管智能體需要訓(xùn)練以提升任務(wù)性能,但全量調(diào)參往往會(huì)限制智能體背后大模型的參數(shù)量,犧牲智能體的通用能力,而可以考慮一種外掛記憶系統(tǒng)來(lái)實(shí)現(xiàn)不調(diào)參的智能體訓(xùn)練。上海交通大學(xué)計(jì)算機(jī)系教授張偉楠亦持相同觀點(diǎn)。
清華大學(xué)交叉信息研究院助理教授吳翼強(qiáng)調(diào),強(qiáng)化學(xué)習(xí)從推理RL逐漸走向Agentic RL,需要更靈活更適配Agent任務(wù)的訓(xùn)練框架和更好的適用于Agent探索的Scaling方式。AReaL項(xiàng)目就是圍繞Agentic RL為目標(biāo)開(kāi)發(fā)的開(kāi)源強(qiáng)化學(xué)習(xí)系統(tǒng),可以讓用戶靈活設(shè)置復(fù)雜的Agent Workflow同時(shí)保持最高的訓(xùn)練效率。希望AReaL可以讓大家都能更容易的用RL訓(xùn)練Agent。
布里斯托大學(xué)助理教授楊夢(mèng)月認(rèn)為,智能體策略提升面臨數(shù)據(jù)量有限瓶頸,需具備自我挑戰(zhàn)式提問(wèn)能力和主動(dòng)環(huán)境探索能力,以拓展數(shù)據(jù)外知識(shí)邊界如Alpha Evolve、以及實(shí)現(xiàn)跨場(chǎng)景泛化。另外,智能體需具備探索與信息整合能力,應(yīng)對(duì)觀察窗口動(dòng)態(tài)變化導(dǎo)致的知識(shí)缺失,降低上下文變化引發(fā)的認(rèn)知偏差和風(fēng)險(xiǎn)。
上海交通大學(xué)計(jì)算機(jī)系教授張偉楠表明,多智能體系統(tǒng)會(huì)是勝任通用任務(wù)和專(zhuān)業(yè)任務(wù)的一種關(guān)鍵方案。根據(jù)機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典的無(wú)免費(fèi)午餐理論,沒(méi)有一個(gè)單獨(dú)模型可以在所有任務(wù)上達(dá)到最優(yōu)。因此只有把多個(gè)能力分布不同的智能體聯(lián)合在一起,才能實(shí)現(xiàn)廣泛而深入的任務(wù)求解效果。最近幾個(gè)月全球發(fā)布的不少智能體產(chǎn)品背后皆為多智能體系統(tǒng)。
上海人工智能實(shí)驗(yàn)室青年科學(xué)家張文蔚認(rèn)為,多智能體架構(gòu)是突破基礎(chǔ)模型和單智能體能力邊界、構(gòu)建高能高效應(yīng)用的關(guān)鍵。以其團(tuán)隊(duì)研發(fā)的AI搜索框架MindSearch為例,MindSearch通過(guò)多智能體架構(gòu)可以基于7B的InternLM2.5在領(lǐng)域內(nèi)首次實(shí)現(xiàn)3分鐘完成超300網(wǎng)頁(yè)的信息整理,約等于3小時(shí)人類(lèi)專(zhuān)家任務(wù),效果略?xún)?yōu)于當(dāng)時(shí)的Perplexity??蚣苡?024年7月發(fā)布并開(kāi)源。
北京大學(xué)在讀博士生、斯坦福大學(xué)訪問(wèn)學(xué)者張雨澤提及,在具身智能領(lǐng)域,多模態(tài)智能體若要在模擬器與真實(shí)世界中實(shí)現(xiàn)長(zhǎng)程任務(wù)規(guī)劃,強(qiáng)化學(xué)習(xí)為核心支撐。這類(lèi)RL算法依賴(lài)于數(shù)據(jù)與算法的協(xié)同迭代:數(shù)據(jù)層面需通過(guò)搜索算法拓展規(guī)劃深度,模型訓(xùn)練層面則需結(jié)合GRPO等策略?xún)?yōu)化方法提升性能。通過(guò)這種融合范式,具身智能體能夠在復(fù)雜動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)自主的長(zhǎng)時(shí)推理與交互。
OPPO AI個(gè)性化業(yè)務(wù)技術(shù)負(fù)責(zé)人周王春澍認(rèn)為,通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化的端到端的智能體基礎(chǔ)模型會(huì)是未來(lái)通用智能體能力不斷進(jìn)化的重要路徑,并且在智能體強(qiáng)化學(xué)習(xí)中Long-Horizon的智能體任務(wù)自動(dòng)合成的方式,以及在Unverifiable的通用任務(wù)當(dāng)中高效進(jìn)行強(qiáng)化學(xué)習(xí)的能力會(huì)是關(guān)鍵的技術(shù)突破方向。
Pokee ai創(chuàng)始人朱哲清提出,對(duì)于下一步RL優(yōu)化的大模型,不論是何種架構(gòu),核心瓶頸都將是如何建立一個(gè)可以規(guī)?;臋z驗(yàn)器(Verifier),在非數(shù)學(xué)和代碼領(lǐng)域,在低數(shù)據(jù)情況下讓模型自我迭代和優(yōu)化。這樣的檢驗(yàn)器,目前的LLM還無(wú)法直接勝任,而且很有可能需要探索Non-numerical Reward。
這場(chǎng)打破傳統(tǒng)會(huì)議單向輸出模式的「技術(shù)深聊局」,以無(wú)壁壘的交流形式促成了多元視角的融合。學(xué)術(shù)圈的理論洞見(jiàn)、創(chuàng)業(yè)圈的落地焦慮、產(chǎn)業(yè)界的實(shí)戰(zhàn)經(jīng)驗(yàn)在輕松互動(dòng)中自然交織,既有對(duì)技術(shù)卡點(diǎn)的較真辯論,也有對(duì)未來(lái)方向的大膽暢想。未來(lái),隨著產(chǎn)學(xué)研協(xié)同的深化,這些在松弛中碰撞出的思考,終將轉(zhuǎn)化為智能體進(jìn)階的清晰路徑,讓強(qiáng)化學(xué)習(xí)在大模型時(shí)代真正實(shí)現(xiàn)從「技術(shù)探索」到「價(jià)值落地」的跨越。

