巨石神話：人工智能并非單一事物

2025-10-15 10:52 性質(zhì)：轉(zhuǎn)載作者：卡梅倫·F·克里和索拉布·米什拉來(lái)源：brookings

免責(zé)聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對(duì)侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識(shí)產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn)，與本網(wǎng)無(wú)關(guān)。如有需要?jiǎng)h除，敬請(qǐng)來(lái)電商榷！）

人工智能不僅僅是像 ChatGPT 這樣的大型語(yǔ)言模型——它是一個(gè)龐大的領(lǐng)域，包含相互關(guān)聯(lián)的技術(shù)、工具和功能，可在各個(gè)領(lǐng)域應(yīng)用多種多樣。將人工智能視為單一事物可能會(huì)掩蓋能力、安全性和政策設(shè)計(jì)...

人工智能不僅僅是像 ChatGPT 這樣的大型語(yǔ)言模型——它是一個(gè)龐大的領(lǐng)域，包含相互關(guān)聯(lián)的技術(shù)、工具和功能，可在各個(gè)領(lǐng)域應(yīng)用多種多樣。

將人工智能視為單一事物可能會(huì)掩蓋能力、安全性和政策設(shè)計(jì)等關(guān)鍵維度。如今歸因于人工智能的許多問題在大型語(yǔ)言模型（LLM）興起之前的數(shù)字生態(tài)系統(tǒng)早期階段就已經(jīng)存在。

國(guó)家人工智能計(jì)劃需要將人工智能視為多元的，包括特定行業(yè)的戰(zhàn)略，并支持基于現(xiàn)實(shí)世界用例和采用模式的多種模型類型。

隨著像 ChatGPT 這樣的大型語(yǔ)言模型 (LLM) 備受關(guān)注，如今的人工智能常常被當(dāng)作一種單一的力量來(lái)討論。但這種框架掩蓋的遠(yuǎn)比它揭示的更多。人工智能并非單一的事物——它是一個(gè)由相互關(guān)聯(lián)的技術(shù)、工具和能力組成的龐大領(lǐng)域，正在跨領(lǐng)域和特定應(yīng)用進(jìn)行開發(fā)和部署，這些應(yīng)用包括分子特性預(yù)測(cè)、視頻超分辨率和多語(yǔ)言語(yǔ)音生成等。

本研究考察并闡釋了這些領(lǐng)域和應(yīng)用。這項(xiàng)研究強(qiáng)調(diào)了一個(gè)關(guān)鍵現(xiàn)實(shí)：人工智能既非單一，也非靜態(tài)。相反，它包含日益復(fù)雜的動(dòng)態(tài)能力，涵蓋醫(yī)療診斷、物理機(jī)器人、游戲代理、圖推理等眾多領(lǐng)域。這一格局正在快速演變，其結(jié)果并非一場(chǎng)單一的革命或單一的智能形式，而是一個(gè)層層遞進(jìn)、不斷擴(kuò)展的能力生態(tài)系統(tǒng)。

這種多樣性不僅對(duì)市場(chǎng)至關(guān)重要，而且對(duì)人工智能戰(zhàn)略和治理的各個(gè)方面都至關(guān)重要。它決定了需要進(jìn)行哪種測(cè)試、如何評(píng)估風(fēng)險(xiǎn)，以及各國(guó)如何或?yàn)楹芜x擇監(jiān)管或采用特定形式的人工智能。將人工智能視為這個(gè)多樣化生態(tài)系統(tǒng)中單一的整體，最終可能會(huì)適得其反。本文的其余部分將探討如何避免這種陷阱：首先，展示人工智能領(lǐng)域和任務(wù)的廣度；其次，解析這些功能如何映射到實(shí)際系統(tǒng)和風(fēng)險(xiǎn)中；最后，討論將人工智能視為多元而非單一事物后出現(xiàn)的治理和主權(quán)戰(zhàn)略。

打破多個(gè)人工智能

為了理解這種多樣性，我們從Papers with Code 的最新 (SOTA)排行榜中抓取了一個(gè)開放的 AI 模型數(shù)據(jù)集。該數(shù)據(jù)集涵蓋了數(shù)百個(gè)基準(zhǔn)測(cè)試中的 20,000 多個(gè)任務(wù)。這些資源來(lái)自各種技術(shù)論文（例如 arXiv 預(yù)印本、AI 會(huì)議論文集等）、排行榜（例如SuperGLUE、HELM、Visual Questions answer reasoning）以及相關(guān)的 GitHub 代碼庫(kù)。該數(shù)據(jù)集提供了數(shù)千個(gè)機(jī)器學(xué)習(xí)和 AI 任務(wù)及模型的基準(zhǔn)性能。

（來(lái)源。作者使用 PapersWithCode (2025) 的數(shù)據(jù)進(jìn)行計(jì)算。注：此樹狀圖基于 PapersWithCode 平臺(tái)的基準(zhǔn)數(shù)據(jù)，可視化了人工智能發(fā)展的分層架構(gòu)。每種顏色對(duì)應(yīng)一個(gè)頂級(jí)領(lǐng)域，例如計(jì)算機(jī)視覺、自然語(yǔ)言處理或機(jī)器人技術(shù)，而嵌套框則代表每個(gè)子領(lǐng)域及其內(nèi)部的特定任務(wù)。例如，計(jì)算機(jī)視覺涵蓋 3D 識(shí)別、視頻分析和面部檢測(cè)等領(lǐng)域，而自然語(yǔ)言處理則包含情感分類和實(shí)體識(shí)別等任務(wù)。機(jī)器人技術(shù)則涵蓋軌跡規(guī)劃和抓取估計(jì)。每個(gè)部分的大小和密度反映了研究活動(dòng)的數(shù)量和基準(zhǔn)的多樣性。強(qiáng)調(diào)人工智能并非單一的能力，它能夠?qū)⑾嗷リP(guān)聯(lián)的功能具體化，形成一個(gè)外部生態(tài)系統(tǒng)。）

我們的快照涵蓋了現(xiàn)代深度學(xué)習(xí)時(shí)代（2010 年代后），隨著基準(zhǔn)測(cè)試的激增，2015 年之后的覆蓋范圍更加密集。我們首先從原始數(shù)據(jù)出發(fā)，整理出 AI 領(lǐng)域、子領(lǐng)域和任務(wù)的層級(jí)結(jié)構(gòu)。這種分類法反映了 AI 能力在廣度和特異性方面的演變。表 1 以高層次的形式展示了這一結(jié)構(gòu)，描述了每個(gè)領(lǐng)域以及每個(gè)領(lǐng)域所需的關(guān)鍵研究和培訓(xùn)。

圖 1 進(jìn)一步展示了更精細(xì)的樹狀圖可視化，涵蓋了完整分類法中每個(gè)領(lǐng)域內(nèi)的具體子領(lǐng)域和任務(wù)，以及每個(gè)領(lǐng)域內(nèi)的研究活動(dòng)量；該可視化也可通過公共儀表板訪問，供進(jìn)一步探索。其結(jié)果是一個(gè)自下而上、數(shù)據(jù)驅(qū)動(dòng)的人工智能進(jìn)展視圖，反映了研究人員實(shí)際“在野外”進(jìn)行基準(zhǔn)測(cè)試的情況，而非像美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院 (NIST)分類法或歐盟《人工智能法案》大型模型條款那樣采用自上而下的模式。

除了上面顯示的任務(wù)多樣性之外，模型產(chǎn)品的多樣性也在不斷增加。即使在領(lǐng)先的提供商中，也已經(jīng)從單一的通用系統(tǒng)轉(zhuǎn)向較小的專用模型。例如，Meta 的LLaMA 3 系列和 Mistral 的Mixtral 8x7B表明開放模型可以針對(duì)企業(yè)或特定領(lǐng)域的用途進(jìn)行調(diào)整。Google DeepMind 不僅發(fā)布了用于語(yǔ)言的 Gemini，還發(fā)布了領(lǐng)域特定系統(tǒng)，例如用于預(yù)測(cè)蛋白質(zhì)折疊的AlphaFold和用于天氣預(yù)報(bào)的GraphCast 。阿里巴巴發(fā)布了領(lǐng)域特定模型，包括用于語(yǔ)音識(shí)別任務(wù)的QwenCoder、QwenMath、QwenAudio和用于圖像生成的QwenImage。亞馬遜的企業(yè)模型包括用于商業(yè)應(yīng)用程序的AWS App Studio、用于生成臨床記錄的AWS HealthScribe和用于機(jī)器人交通管理的DeepFleet 。

這些例子強(qiáng)調(diào)，人工智能的未來(lái)不僅在于擴(kuò)展通用模型，還在于根據(jù)特定功能、成本概況和部署需求開發(fā)和定制模型。從這個(gè)意義上講，區(qū)分不同類型的人工智能至關(guān)重要：所謂的“狹義人工智能”，專門針對(duì)一組特定的任務(wù)而構(gòu)建（例如，用于蛋白質(zhì)折疊的 AlphaFold）；以及“通用或生成式人工智能”，它在廣泛的數(shù)據(jù)集上進(jìn)行訓(xùn)練，以產(chǎn)生靈活的輸出（例如，大型語(yǔ)言模型）。目前的發(fā)展正朝著兩個(gè)方向發(fā)展——用于領(lǐng)域性能的更窄、更專業(yè)的系統(tǒng)，以及用于一般交互的更廣泛的生成式模型——這進(jìn)一步表明，人工智能的發(fā)展軌跡是多元的，而非單一的。

多元智能、多種模型、多種策略

樹狀圖（圖 1）和 AI 模型的多樣性進(jìn)一步證明，語(yǔ)言模型只是更廣泛的 AI 堆棧中的一小部分。視覺系統(tǒng)、控制代理和 3D 姿態(tài)估計(jì)器與語(yǔ)言性能關(guān)系不大，而與物理基礎(chǔ)設(shè)施、醫(yī)療保健和工業(yè)控制關(guān)系更大。雖然神經(jīng)網(wǎng)絡(luò)的底層構(gòu)建模塊（例如反向傳播、梯度下降）在各個(gè)領(lǐng)域都很常見，但這并不意味著 LLM 本身就是視覺、機(jī)器人或醫(yī)療保健領(lǐng)域進(jìn)步的驅(qū)動(dòng)力。事實(shí)上，大多數(shù)自動(dòng)駕駛或醫(yī)學(xué)成像系統(tǒng)使用的是專門的、針對(duì)領(lǐng)域進(jìn)行調(diào)優(yōu)的模型，而非通用的 LLM，這再次凸顯了 AI 方法的多樣性。

人工智能在這些領(lǐng)域和功能中體現(xiàn)出的多樣性，與人類智能的進(jìn)化歷程相似。視覺感知，包括邊緣檢測(cè)和運(yùn)動(dòng)感知，是最古老的認(rèn)知功能之一，可以追溯到5億多年前的寒武紀(jì)生命大爆發(fā)。同樣，人類通過海馬體等結(jié)構(gòu)所支持的時(shí)空建模能力，大約在2億年前進(jìn)化而來(lái)，并且為許多脊椎動(dòng)物所共有。

相比之下，語(yǔ)言的適應(yīng)性要晚得多，估計(jì)出現(xiàn)于5萬(wàn)至20萬(wàn)年前，具體取決于我們?nèi)绾味x符號(hào)交流和句法結(jié)構(gòu)。這一歷史背景對(duì)人工智能至關(guān)重要：我們現(xiàn)在與機(jī)器“智能”相關(guān)的許多任務(wù)——感知、空間推理、運(yùn)動(dòng)控制——都依賴于語(yǔ)言出現(xiàn)之前就已經(jīng)存在的進(jìn)化能力。

基于這種進(jìn)化的大腦發(fā)展，教育心理學(xué)家霍華德·加德納提出了“多元智能”的概念——智能并非單向度的，而是多種屬性和技能的集合，這些屬性和技能能夠形成不同的學(xué)習(xí)方式。他將智能定義為“一種處理信息的生物心理潛能，這種潛能可以在特定的文化環(huán)境中被激活，從而解決問題或創(chuàng)造在特定文化中有價(jià)值的產(chǎn)品”。人工智能的多個(gè)領(lǐng)域也發(fā)揮著類似的作用。加德納確定了八種不同的智能形式：語(yǔ)言智能、邏輯數(shù)學(xué)智能、空間智能、音樂智能、身體運(yùn)動(dòng)智能、人際智能（通常被描述為社交智能）、內(nèi)省智能和自然感知智能（對(duì)自然的理解）。法學(xué)碩士（LLM）顯然在人工智能的語(yǔ)言領(lǐng)域和應(yīng)用領(lǐng)域開展工作，并且在邏輯數(shù)學(xué)、音樂和視覺領(lǐng)域的應(yīng)用也日益精通，而其他領(lǐng)域的技術(shù)發(fā)展則相對(duì)滯后。當(dāng)然，這種類比也有其局限性。生物智能體現(xiàn)在神經(jīng)元而非硅片中，而語(yǔ)言人工智能則建立在人類已有的語(yǔ)言產(chǎn)物之上。然而，如果自然界的智能是在多維度上進(jìn)化的，那么以神經(jīng)元為模型的人工智能又有何不同呢？

盡管人工智能正在通過更具體的能力不斷發(fā)展，但當(dāng)今的政策對(duì)話往往側(cè)重于大型語(yǔ)言和多模態(tài)模型。人工智能的安全性、協(xié)調(diào)性和治理必須考慮到這種更加多樣化的格局。與經(jīng)過訓(xùn)練以生成文本為目標(biāo)的系統(tǒng)相比，經(jīng)過空間推理或蛋白質(zhì)折疊訓(xùn)練的系統(tǒng)具有截然不同的風(fēng)險(xiǎn)、可供性和評(píng)估需求?；陲L(fēng)險(xiǎn)的方法應(yīng)該考慮到這些差異，盡管政策辯論在實(shí)踐中往往滯后。將人工智能視為以語(yǔ)言為中心的整體，可能會(huì)掩蓋能力、安全性和政策設(shè)計(jì)的關(guān)鍵維度。正如互聯(lián)網(wǎng)學(xué)者米爾頓·穆勒 (Milton Mueller)所寫，“‘人工智能’不是一項(xiàng)單一的技術(shù)，而是由全球無(wú)處不在的數(shù)字生態(tài)系統(tǒng)啟用和支持的一組高度多樣化的機(jī)器學(xué)習(xí)應(yīng)用程序?！蔽覀兘裉鞖w咎于人工智能的治理問題——偏見、錯(cuò)誤信息、版權(quán)和安全——早在法學(xué)碩士學(xué)位出現(xiàn)之前就已經(jīng)在數(shù)字生態(tài)系統(tǒng)的早期階段顯現(xiàn)出來(lái)。人工智能改變的是這些問題的范圍：生成系統(tǒng)可能會(huì)加速龐大訓(xùn)練語(yǔ)料庫(kù)中的偏見并大規(guī)模傳播它們，從而使熟悉的治理挑戰(zhàn)變得更加分散和廣泛。

跨用戶、跨地區(qū)、跨職能的 AI 采用

對(duì)大型模型的關(guān)注反映了生成式人工智能進(jìn)入公眾意識(shí)和職場(chǎng)應(yīng)用的速度。如圖4所示，ChatGPT在短短幾個(gè)月內(nèi)就擁有了1億用戶，其普及速度甚至超過了Instagram、Facebook甚至iPhone等平臺(tái)。這種可及性和普及度的急劇上升曲線在技術(shù)傳播史上是前所未有的。它標(biāo)志著人們對(duì)數(shù)字化的基準(zhǔn)預(yù)期和技術(shù)普及時(shí)間從數(shù)年縮短至數(shù)天。