WAIC強(qiáng)化學(xué)習(xí)新范式探索之夜 | 強(qiáng)化學(xué)習(xí)與大模型融合，是智能體進(jìn)化的 “黃金法則”，還是誤入復(fù)雜迷宮的 “冒險(xiǎn)嘗試”？

2025-08-13 09:24 性質(zhì)：轉(zhuǎn)載作者：世界人工智能大會(huì) 來(lái)源：世界人工智能大會(huì)

免責(zé)聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對(duì)侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識(shí)產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn)，與本網(wǎng)無(wú)關(guān)。如有需要?jiǎng)h除，敬請(qǐng)來(lái)電商榷！）

近日，世界人工智能大會(huì)（WAIC）熱潮正酣，一場(chǎng)以「強(qiáng)化學(xué)習(xí)新范式探索之夜」為名的深度交流活動(dòng)，在別具一格的氛圍中拉開(kāi)序幕。這里沒(méi)有傳統(tǒng)會(huì)議的緊繃節(jié)奏，取而代之的是16位產(chǎn)學(xué)研技術(shù)人圍坐暖...

近日，世界人工智能大會(huì)（WAIC）熱潮正酣，一場(chǎng)以「強(qiáng)化學(xué)習(xí)新范式探索之夜」為名的深度交流活動(dòng)，在別具一格的氛圍中拉開(kāi)序幕。這里沒(méi)有傳統(tǒng)會(huì)議的緊繃節(jié)奏，取而代之的是16位產(chǎn)學(xué)研技術(shù)人圍坐暖光下的從容暢談，大家暫且擺脫既定議程的桎梏，讓關(guān)于強(qiáng)化學(xué)習(xí)與大模型智能體的前沿思考，在輕松自在的交流中自然碰撞、自由生長(zhǎng)，成為WAIC期間一抹獨(dú)特的風(fēng)景。

觀點(diǎn)速遞

活動(dòng)圍繞「強(qiáng)化學(xué)習(xí)與大模型智能體」、「智能體的探索與決策」、「如何進(jìn)化出超級(jí)智能體」三大核心議題展開(kāi)，嘉賓們從各自領(lǐng)域出發(fā)，貢獻(xiàn)了極具針對(duì)性的觀點(diǎn)。

中國(guó)電信人工智能研究院（TeleAI）研究科學(xué)家白辰甲認(rèn)為，強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的大模型Agent必須與特定的專(zhuān)業(yè)領(lǐng)域結(jié)合，結(jié)合領(lǐng)域知識(shí)構(gòu)造相應(yīng)的問(wèn)題形式和獎(jiǎng)懲機(jī)制，但走向更加通用的Agent系統(tǒng)是未來(lái)的發(fā)展方向。

國(guó)家地方共建具身智能機(jī)器人創(chuàng)新中心世界模型算法負(fù)責(zé)人池曉威指出，在具身智能領(lǐng)域，多模態(tài)智能體若要在模擬器與真實(shí)世界中實(shí)現(xiàn)長(zhǎng)程任務(wù)規(guī)劃，強(qiáng)化學(xué)習(xí)為核心支撐。這類(lèi)RL算法依賴(lài)于數(shù)據(jù)與算法的協(xié)同迭代：數(shù)據(jù)層面需通過(guò)搜索算法拓展規(guī)劃深度，模型訓(xùn)練層面則需結(jié)合GRPO等策略?xún)?yōu)化方法提升性能。通過(guò)這種融合范式，具身智能體能夠在復(fù)雜動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)自主的長(zhǎng)時(shí)推理與交互。

香港大學(xué)計(jì)算機(jī)系助理教授黃超認(rèn)為，對(duì)于大模型的Agent來(lái)說(shuō)，數(shù)據(jù)是“糧草”，算法是“兵法”，系統(tǒng)是“戰(zhàn)場(chǎng)”——缺了哪樣，智能活兒都干不漂亮。

中科院自動(dòng)化所博士李鴻鑫提出，超級(jí)智能的關(guān)鍵里程碑是智能體擁有元認(rèn)知--即認(rèn)清自身知識(shí)邊界，這將驅(qū)動(dòng)其主動(dòng)探索填補(bǔ)知識(shí)空白，實(shí)現(xiàn)自我進(jìn)化。

華為AI開(kāi)源生態(tài)總監(jiān)黃之鵬談及，Multi-Agent RL很多時(shí)候看起來(lái)不太實(shí)際：協(xié)同幾個(gè)Agent完成一項(xiàng)任務(wù)似乎跟前AI時(shí)代的普通分布式任務(wù)沒(méi)有太大區(qū)別。但實(shí)際上無(wú)論是通過(guò)一個(gè)Central Critic來(lái)真正讓幾個(gè)Agent RL到同一個(gè)Reward目標(biāo)，還是更為激進(jìn)的Attention Level的跨Agent訓(xùn)練，MARL都逐漸在成為智能體時(shí)代越來(lái)越重要的關(guān)鍵技術(shù)。分布式純異步的架構(gòu)、對(duì)Non-verifiable Reward的支持，都會(huì)是最吸引人的發(fā)展方向。

浙江大學(xué)計(jì)算機(jī)創(chuàng)新技術(shù)研究院研究員劉晨強(qiáng)調(diào)，可通過(guò)強(qiáng)化學(xué)習(xí)將資深員工的隱性經(jīng)驗(yàn)轉(zhuǎn)化為數(shù)字化資產(chǎn)。RL模型在模擬或?qū)嶋H環(huán)境中試錯(cuò)、互動(dòng)、接收反饋，像老師傅一樣學(xué)習(xí)并內(nèi)化企業(yè)獨(dú)有策略，發(fā)現(xiàn)人難察覺(jué)的規(guī)律。這使得企業(yè)內(nèi)部模型比通用大模型更懂業(yè)務(wù)、更智慧，成為定制化的強(qiáng)大決策引擎。

香港中文大學(xué)（深圳）助理教授劉桂良認(rèn)為，強(qiáng)化學(xué)習(xí)下一步將推動(dòng)智能體“挑戰(zhàn)真實(shí)物理世界”，成為具身智能體進(jìn)行推理與學(xué)習(xí)的重要驅(qū)動(dòng)力。在“生成式仿真—真實(shí)世界部署”的新范式下，強(qiáng)化學(xué)習(xí)將有力促進(jìn)多模態(tài)運(yùn)控大模型在復(fù)雜操作環(huán)境中的實(shí)際應(yīng)用與落地。

AIGCode CEO兼聯(lián)合創(chuàng)始人宿文指出，AI-coding產(chǎn)品存在反饋長(zhǎng)、調(diào)試難等瓶頸。新興強(qiáng)化學(xué)習(xí)范式通過(guò)多獎(jiǎng)勵(lì)機(jī)制與算法，讓模型在線迭代，減少數(shù)據(jù)依賴(lài)，形成優(yōu)化閉環(huán)。未來(lái)，強(qiáng)化學(xué)習(xí)或成其從 “輔助生成” 走向 “自主交付” 的核心引擎。

倫敦大學(xué)學(xué)院計(jì)算機(jī)系教授汪軍在訓(xùn)練高質(zhì)量智能體是否需要調(diào)參這一問(wèn)題上，認(rèn)為盡管智能體需要訓(xùn)練以提升任務(wù)性能，但全量調(diào)參往往會(huì)限制智能體背后大模型的參數(shù)量，犧牲智能體的通用能力，而可以考慮一種外掛記憶系統(tǒng)來(lái)實(shí)現(xiàn)不調(diào)參的智能體訓(xùn)練。上海交通大學(xué)計(jì)算機(jī)系教授張偉楠亦持相同觀點(diǎn)。

清華大學(xué)交叉信息研究院助理教授吳翼強(qiáng)調(diào)，強(qiáng)化學(xué)習(xí)從推理RL逐漸走向Agentic RL，需要更靈活更適配Agent任務(wù)的訓(xùn)練框架和更好的適用于Agent探索的Scaling方式。AReaL項(xiàng)目就是圍繞Agentic RL為目標(biāo)開(kāi)發(fā)的開(kāi)源強(qiáng)化學(xué)習(xí)系統(tǒng)，可以讓用戶靈活設(shè)置復(fù)雜的Agent Workflow同時(shí)保持最高的訓(xùn)練效率。希望AReaL可以讓大家都能更容易的用RL訓(xùn)練Agent。

布里斯托大學(xué)助理教授楊夢(mèng)月認(rèn)為，智能體策略提升面臨數(shù)據(jù)量有限瓶頸，需具備自我挑戰(zhàn)式提問(wèn)能力和主動(dòng)環(huán)境探索能力，以拓展數(shù)據(jù)外知識(shí)邊界如Alpha Evolve、以及實(shí)現(xiàn)跨場(chǎng)景泛化。另外，智能體需具備探索與信息整合能力，應(yīng)對(duì)觀察窗口動(dòng)態(tài)變化導(dǎo)致的知識(shí)缺失，降低上下文變化引發(fā)的認(rèn)知偏差和風(fēng)險(xiǎn)。

上海交通大學(xué)計(jì)算機(jī)系教授張偉楠表明，多智能體系統(tǒng)會(huì)是勝任通用任務(wù)和專(zhuān)業(yè)任務(wù)的一種關(guān)鍵方案。根據(jù)機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典的無(wú)免費(fèi)午餐理論，沒(méi)有一個(gè)單獨(dú)模型可以在所有任務(wù)上達(dá)到最優(yōu)。因此只有把多個(gè)能力分布不同的智能體聯(lián)合在一起，才能實(shí)現(xiàn)廣泛而深入的任務(wù)求解效果。最近幾個(gè)月全球發(fā)布的不少智能體產(chǎn)品背后皆為多智能體系統(tǒng)。

上海人工智能實(shí)驗(yàn)室青年科學(xué)家張文蔚認(rèn)為，多智能體架構(gòu)是突破基礎(chǔ)模型和單智能體能力邊界、構(gòu)建高能高效應(yīng)用的關(guān)鍵。以其團(tuán)隊(duì)研發(fā)的AI搜索框架MindSearch為例，MindSearch通過(guò)多智能體架構(gòu)可以基于7B的InternLM2.5在領(lǐng)域內(nèi)首次實(shí)現(xiàn)3分鐘完成超300網(wǎng)頁(yè)的信息整理，約等于3小時(shí)人類(lèi)專(zhuān)家任務(wù)，效果略?xún)?yōu)于當(dāng)時(shí)的Perplexity?？蚣苡?024年7月發(fā)布并開(kāi)源。

北京大學(xué)在讀博士生、斯坦福大學(xué)訪問(wèn)學(xué)者張雨澤提及，在具身智能領(lǐng)域，多模態(tài)智能體若要在模擬器與真實(shí)世界中實(shí)現(xiàn)長(zhǎng)程任務(wù)規(guī)劃，強(qiáng)化學(xué)習(xí)為核心支撐。這類(lèi)RL算法依賴(lài)于數(shù)據(jù)與算法的協(xié)同迭代：數(shù)據(jù)層面需通過(guò)搜索算法拓展規(guī)劃深度，模型訓(xùn)練層面則需結(jié)合GRPO等策略?xún)?yōu)化方法提升性能。通過(guò)這種融合范式，具身智能體能夠在復(fù)雜動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)自主的長(zhǎng)時(shí)推理與交互。

OPPO AI個(gè)性化業(yè)務(wù)技術(shù)負(fù)責(zé)人周王春澍認(rèn)為，通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化的端到端的智能體基礎(chǔ)模型會(huì)是未來(lái)通用智能體能力不斷進(jìn)化的重要路徑，并且在智能體強(qiáng)化學(xué)習(xí)中Long-Horizon的智能體任務(wù)自動(dòng)合成的方式，以及在Unverifiable的通用任務(wù)當(dāng)中高效進(jìn)行強(qiáng)化學(xué)習(xí)的能力會(huì)是關(guān)鍵的技術(shù)突破方向。

Pokee ai創(chuàng)始人朱哲清提出，對(duì)于下一步RL優(yōu)化的大模型，不論是何種架構(gòu)，核心瓶頸都將是如何建立一個(gè)可以規(guī)?；臋z驗(yàn)器(Verifier)，在非數(shù)學(xué)和代碼領(lǐng)域，在低數(shù)據(jù)情況下讓模型自我迭代和優(yōu)化。這樣的檢驗(yàn)器，目前的LLM還無(wú)法直接勝任，而且很有可能需要探索Non-numerical Reward。

這場(chǎng)打破傳統(tǒng)會(huì)議單向輸出模式的「技術(shù)深聊局」，以無(wú)壁壘的交流形式促成了多元視角的融合。學(xué)術(shù)圈的理論洞見(jiàn)、創(chuàng)業(yè)圈的落地焦慮、產(chǎn)業(yè)界的實(shí)戰(zhàn)經(jīng)驗(yàn)在輕松互動(dòng)中自然交織，既有對(duì)技術(shù)卡點(diǎn)的較真辯論，也有對(duì)未來(lái)方向的大膽暢想。未來(lái)，隨著產(chǎn)學(xué)研協(xié)同的深化，這些在松弛中碰撞出的思考，終將轉(zhuǎn)化為智能體進(jìn)階的清晰路徑，讓強(qiáng)化學(xué)習(xí)在大模型時(shí)代真正實(shí)現(xiàn)從「技術(shù)探索」到「價(jià)值落地」的跨越。