

人工智能不僅僅是像 ChatGPT 這樣的大型語(yǔ)言模型——它是一個(gè)龐大的領(lǐng)域,包含相互關(guān)聯(lián)的技術(shù)、工具和功能,可在各個(gè)領(lǐng)域應(yīng)用多種多樣。
將人工智能視為單一事物可能會(huì)掩蓋能力、安全性和政策設(shè)計(jì)等關(guān)鍵維度。如今歸因于人工智能的許多問題在大型語(yǔ)言模型(LLM)興起之前的數(shù)字生態(tài)系統(tǒng)早期階段就已經(jīng)存在。
國(guó)家人工智能計(jì)劃需要將人工智能視為多元的,包括特定行業(yè)的戰(zhàn)略,并支持基于現(xiàn)實(shí)世界用例和采用模式的多種模型類型。
隨著像 ChatGPT 這樣的大型語(yǔ)言模型 (LLM) 備受關(guān)注,如今的人工智能常常被當(dāng)作一種單一的力量來(lái)討論。但這種框架掩蓋的遠(yuǎn)比它揭示的更多。人工智能并非單一的事物——它是一個(gè)由相互關(guān)聯(lián)的技術(shù)、工具和能力組成的龐大領(lǐng)域,正在跨領(lǐng)域和特定應(yīng)用進(jìn)行開發(fā)和部署,這些應(yīng)用包括分子特性預(yù)測(cè)、視頻超分辨率和多語(yǔ)言語(yǔ)音生成等。
本研究考察并闡釋了這些領(lǐng)域和應(yīng)用。這項(xiàng)研究強(qiáng)調(diào)了一個(gè)關(guān)鍵現(xiàn)實(shí):人工智能既非單一,也非靜態(tài)。相反,它包含日益復(fù)雜的動(dòng)態(tài)能力,涵蓋醫(yī)療診斷、物理機(jī)器人、游戲代理、圖推理等眾多領(lǐng)域。這一格局正在快速演變,其結(jié)果并非一場(chǎng)單一的革命或單一的智能形式,而是一個(gè)層層遞進(jìn)、不斷擴(kuò)展的能力生態(tài)系統(tǒng)。
這種多樣性不僅對(duì)市場(chǎng)至關(guān)重要,而且對(duì)人工智能戰(zhàn)略和治理的各個(gè)方面都至關(guān)重要。它決定了需要進(jìn)行哪種測(cè)試、如何評(píng)估風(fēng)險(xiǎn),以及各國(guó)如何或?yàn)楹芜x擇監(jiān)管或采用特定形式的人工智能。將人工智能視為這個(gè)多樣化生態(tài)系統(tǒng)中單一的整體,最終可能會(huì)適得其反。本文的其余部分將探討如何避免這種陷阱:首先,展示人工智能領(lǐng)域和任務(wù)的廣度;其次,解析這些功能如何映射到實(shí)際系統(tǒng)和風(fēng)險(xiǎn)中;最后,討論將人工智能視為多元而非單一事物后出現(xiàn)的治理和主權(quán)戰(zhàn)略。
打破多個(gè)人工智能
為了理解這種多樣性,我們從Papers with Code 的最新 (SOTA)排行榜中抓取了一個(gè)開放的 AI 模型數(shù)據(jù)集。該數(shù)據(jù)集涵蓋了數(shù)百個(gè)基準(zhǔn)測(cè)試中的 20,000 多個(gè)任務(wù)。這些資源來(lái)自各種技術(shù)論文(例如 arXiv 預(yù)印本、AI 會(huì)議論文集等)、排行榜(例如SuperGLUE、HELM、Visual Questions answer reasoning)以及相關(guān)的 GitHub 代碼庫(kù)。該數(shù)據(jù)集提供了數(shù)千個(gè)機(jī)器學(xué)習(xí)和 AI 任務(wù)及模型的基準(zhǔn)性能。
(來(lái)源。作者使用 PapersWithCode (2025) 的數(shù)據(jù)進(jìn)行計(jì)算。注:此樹狀圖基于 PapersWithCode 平臺(tái)的基準(zhǔn)數(shù)據(jù),可視化了人工智能發(fā)展的分層架構(gòu)。每種顏色對(duì)應(yīng)一個(gè)頂級(jí)領(lǐng)域,例如計(jì)算機(jī)視覺、自然語(yǔ)言處理或機(jī)器人技術(shù),而嵌套框則代表每個(gè)子領(lǐng)域及其內(nèi)部的特定任務(wù)。例如,計(jì)算機(jī)視覺涵蓋 3D 識(shí)別、視頻分析和面部檢測(cè)等領(lǐng)域,而自然語(yǔ)言處理則包含情感分類和實(shí)體識(shí)別等任務(wù)。機(jī)器人技術(shù)則涵蓋軌跡規(guī)劃和抓取估計(jì)。每個(gè)部分的大小和密度反映了研究活動(dòng)的數(shù)量和基準(zhǔn)的多樣性。強(qiáng)調(diào)人工智能并非單一的能力,它能夠?qū)⑾嗷リP(guān)聯(lián)的功能具體化,形成一個(gè)外部生態(tài)系統(tǒng)。)
我們的快照涵蓋了現(xiàn)代深度學(xué)習(xí)時(shí)代(2010 年代后),隨著基準(zhǔn)測(cè)試的激增,2015 年之后的覆蓋范圍更加密集。我們首先從原始數(shù)據(jù)出發(fā),整理出 AI 領(lǐng)域、子領(lǐng)域和任務(wù)的層級(jí)結(jié)構(gòu)。這種分類法反映了 AI 能力在廣度和特異性方面的演變。表 1 以高層次的形式展示了這一結(jié)構(gòu),描述了每個(gè)領(lǐng)域以及每個(gè)領(lǐng)域所需的關(guān)鍵研究和培訓(xùn)。
圖 1 進(jìn)一步展示了更精細(xì)的樹狀圖可視化,涵蓋了完整分類法中每個(gè)領(lǐng)域內(nèi)的具體子領(lǐng)域和任務(wù),以及每個(gè)領(lǐng)域內(nèi)的研究活動(dòng)量;該可視化也可通過公共儀表板訪問,供進(jìn)一步探索。其結(jié)果是一個(gè)自下而上、數(shù)據(jù)驅(qū)動(dòng)的人工智能進(jìn)展視圖,反映了研究人員實(shí)際“在野外”進(jìn)行基準(zhǔn)測(cè)試的情況,而非像美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院 (NIST)分類法或歐盟《人工智能法案》大型模型條款那樣采用自上而下的模式。
圖 1 進(jìn)一步展示了更精細(xì)的樹狀圖可視化,涵蓋了完整分類法中每個(gè)領(lǐng)域內(nèi)的具體子領(lǐng)域和任務(wù),以及每個(gè)領(lǐng)域內(nèi)的研究活動(dòng)量;該可視化也可通過公共儀表板訪問,供進(jìn)一步探索。其結(jié)果是一個(gè)自下而上、數(shù)據(jù)驅(qū)動(dòng)的人工智能進(jìn)展視圖,反映了研究人員實(shí)際“在野外”進(jìn)行基準(zhǔn)測(cè)試的情況,而非像美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院 (NIST)分類法或歐盟《人工智能法案》大型模型條款那樣采用自上而下的模式。
除了上面顯示的任務(wù)多樣性之外,模型產(chǎn)品的多樣性也在不斷增加。即使在領(lǐng)先的提供商中,也已經(jīng)從單一的通用系統(tǒng)轉(zhuǎn)向較小的專用模型。例如,Meta 的LLaMA 3 系列和 Mistral 的Mixtral 8x7B表明開放模型可以針對(duì)企業(yè)或特定領(lǐng)域的用途進(jìn)行調(diào)整。Google DeepMind 不僅發(fā)布了用于語(yǔ)言的 Gemini,還發(fā)布了領(lǐng)域特定系統(tǒng),例如用于預(yù)測(cè)蛋白質(zhì)折疊的AlphaFold和用于天氣預(yù)報(bào)的GraphCast 。阿里巴巴發(fā)布了領(lǐng)域特定模型,包括用于語(yǔ)音識(shí)別任務(wù)的QwenCoder、QwenMath、QwenAudio和用于圖像生成的QwenImage。亞馬遜的企業(yè)模型包括用于商業(yè)應(yīng)用程序的AWS App Studio、用于生成臨床記錄的AWS HealthScribe和用于機(jī)器人交通管理的DeepFleet 。
這些例子強(qiáng)調(diào),人工智能的未來(lái)不僅在于擴(kuò)展通用模型,還在于根據(jù)特定功能、成本概況和部署需求開發(fā)和定制模型。從這個(gè)意義上講,區(qū)分不同類型的人工智能至關(guān)重要:所謂的“狹義人工智能”,專門針對(duì)一組特定的任務(wù)而構(gòu)建(例如,用于蛋白質(zhì)折疊的 AlphaFold);以及“通用或生成式人工智能”,它在廣泛的數(shù)據(jù)集上進(jìn)行訓(xùn)練,以產(chǎn)生靈活的輸出(例如,大型語(yǔ)言模型)。目前的發(fā)展正朝著兩個(gè)方向發(fā)展——用于領(lǐng)域性能的更窄、更專業(yè)的系統(tǒng),以及用于一般交互的更廣泛的生成式模型——這進(jìn)一步表明,人工智能的發(fā)展軌跡是多元的,而非單一的。
多元智能、多種模型、多種策略
樹狀圖(圖 1)和 AI 模型的多樣性進(jìn)一步證明,語(yǔ)言模型只是更廣泛的 AI 堆棧中的一小部分。視覺系統(tǒng)、控制代理和 3D 姿態(tài)估計(jì)器與語(yǔ)言性能關(guān)系不大,而與物理基礎(chǔ)設(shè)施、醫(yī)療 保健和工業(yè)控制關(guān)系更大。雖然神經(jīng)網(wǎng)絡(luò)的底層構(gòu)建模塊(例如反向傳播、梯度下降)在各個(gè)領(lǐng)域都很常見,但這并不意味著 LLM 本身就是視覺、機(jī)器人或醫(yī)療 保健領(lǐng)域進(jìn)步的驅(qū)動(dòng)力。事實(shí)上,大多數(shù)自動(dòng)駕駛或醫(yī)學(xué)成像系統(tǒng)使用的是專門的、針對(duì)領(lǐng)域進(jìn)行調(diào)優(yōu)的模型,而非通用的 LLM,這再次凸顯了 AI 方法的多樣性。
人工智能在這些領(lǐng)域和功能中體現(xiàn)出的多樣性,與人類智能的進(jìn)化歷程相似。視覺感知,包括邊緣檢測(cè)和運(yùn)動(dòng)感知,是最古老的認(rèn)知功能之一,可以追溯到5億多年前的寒武紀(jì)生命大爆發(fā)。同樣,人類通過海馬體等結(jié)構(gòu)所支持的時(shí)空建模能力,大約在2億年前進(jìn)化而來(lái),并且為許多脊椎動(dòng)物所共有。
相比之下,語(yǔ)言的適應(yīng)性要晚得多,估計(jì)出現(xiàn)于5萬(wàn)至20萬(wàn)年前,具體取決于我們?nèi)绾味x符號(hào)交流和句法結(jié)構(gòu)。這一歷史背景對(duì)人工智能至關(guān)重要:我們現(xiàn)在與機(jī)器“智能”相關(guān)的許多任務(wù)——感知、空間推理、運(yùn)動(dòng)控制——都依賴于語(yǔ)言出現(xiàn)之前就已經(jīng)存在的進(jìn)化能力。
基于這種進(jìn)化的大腦發(fā)展,教育心理學(xué)家霍華德·加德納提出了“多元智能”的概念——智能并非單向度的,而是多種屬性和技能的集合,這些屬性和技能能夠形成不同的學(xué)習(xí)方式。他將智能定義為“一種處理信息的生物心理潛能,這種潛能可以在特定的文化環(huán)境中被激活,從而解決問題或創(chuàng)造在特定文化中有價(jià)值的產(chǎn)品”。人工智能的多個(gè)領(lǐng)域也發(fā)揮著類似的作用。加德納確定了八種不同的智能形式:語(yǔ)言智能、邏輯數(shù)學(xué)智能、空間智能、音樂智能、身體運(yùn)動(dòng)智能、人際智能(通常被描述為社交智能)、內(nèi)省智能和自然感知智能(對(duì)自然的理解)。法學(xué)碩士(LLM)顯然在人工智能的語(yǔ)言領(lǐng)域和應(yīng)用領(lǐng)域開展工作,并且在邏輯數(shù)學(xué)、音樂和視覺領(lǐng)域的應(yīng)用也日益精通,而其他領(lǐng)域的技術(shù)發(fā)展則相對(duì)滯后。當(dāng)然,這種類比也有其局限性。生物智能體現(xiàn)在神經(jīng)元而非硅片中,而語(yǔ)言人工智能則建立在人類已有的語(yǔ)言產(chǎn)物之上。然而,如果自然界的智能是在多維度上進(jìn)化的,那么以神經(jīng)元為模型的人工智能又有何不同呢?
盡管人工智能正在通過更具體的能力不斷發(fā)展,但當(dāng)今的政策對(duì)話往往側(cè)重于大型語(yǔ)言和多模態(tài)模型。人工智能的安全性、協(xié)調(diào)性和治理必須考慮到這種更加多樣化的格局。與經(jīng)過訓(xùn)練以生成文本為目標(biāo)的系統(tǒng)相比,經(jīng)過空間推理或蛋白質(zhì)折疊訓(xùn)練的系統(tǒng)具有截然不同的風(fēng)險(xiǎn)、可供性和評(píng)估需求?;陲L(fēng)險(xiǎn)的方法應(yīng)該考慮到這些差異,盡管政策辯論在實(shí)踐中往往滯后。將人工智能視為以語(yǔ)言為中心的整體,可能會(huì)掩蓋能力、安全性和政策設(shè)計(jì)的關(guān)鍵維度。正如互聯(lián)網(wǎng)學(xué)者米爾頓·穆勒 (Milton Mueller)所寫,“‘人工智能’不是一項(xiàng)單一的技術(shù),而是由全球無(wú)處不在的數(shù)字生態(tài)系統(tǒng)啟用和支持的一組高度多樣化的機(jī)器學(xué)習(xí)應(yīng)用程序?!蔽覀兘裉鞖w咎于人工智能的治理問題——偏見、錯(cuò)誤信息、版權(quán)和安全——早在法學(xué)碩士學(xué)位出現(xiàn)之前就已經(jīng)在數(shù)字生態(tài)系統(tǒng)的早期階段顯現(xiàn)出來(lái)。人工智能改變的是這些問題的范圍:生成系統(tǒng)可能會(huì)加速龐大訓(xùn)練語(yǔ)料庫(kù)中的偏見并大規(guī)模傳播它們,從而使熟悉的治理挑戰(zhàn)變得更加分散和廣泛。
跨用戶、跨地區(qū)、跨職能的 AI 采用
對(duì)大型模型的關(guān)注反映了生成式人工智能進(jìn)入公眾意識(shí)和職場(chǎng)應(yīng)用的速度。如圖4所示,ChatGPT在短短幾個(gè)月內(nèi)就擁有了1億用戶,其普及速度甚至超過了Instagram、Facebook甚至iPhone等平臺(tái)。這種可及性和普及度的急劇上升曲線在技術(shù)傳播史上是前所未有的。它標(biāo)志著人們對(duì)數(shù)字化的基準(zhǔn)預(yù)期和技術(shù)普及時(shí)間從數(shù)年縮短至數(shù)天。

