

看點:國產(chǎn)云端AI芯片和國產(chǎn)AI框架再添新勢力!

剛剛,在華為總部坂田基地,華為自研云端AI芯片昇騰910正式商用發(fā)布,芯片最大功耗僅310W,比之前設(shè)計的350W更低!
此前云端AI芯片被稱是單芯片計算密度最大的芯片,與之配套的全場景AI計算框架MindSpore也一同亮相。
MindSpore開源計算框架,可以滿足端邊云全場景需求,能最大化利用芯片算力。這意味國產(chǎn)AI框架陣營又加入了一個重要成員。

華為輪值董事長徐直軍表示,華為已完成全棧全場景AI Portfolio構(gòu)建。這也標志著華為AI戰(zhàn)略的執(zhí)行進入了新的階段。
他還強調(diào),華為之所以要開發(fā)并推出MindSpore框架,是因為沒有任何一個現(xiàn)有框架支持全場景。
為了更好促進AI的應用,徐直軍宣布“MindSpore將在2020年Q1開源”,助力每一位開發(fā)者,促進AI產(chǎn)業(yè)生態(tài)發(fā)展。
華為自2018年10月發(fā)布AI戰(zhàn)略以來,穩(wěn)步而有序地推進戰(zhàn)略執(zhí)行、產(chǎn)品研發(fā)及商用進程。去年發(fā)布的昇騰310,至今已在各場景廣泛應用。
基于昇騰310,華為云提供了圖像分析類服務、OCR服務、視頻智能分析服務等云服務。對外提供API達50多個,日均調(diào)用量超過1億次,在快速增長,預計年底日均調(diào)用量超過3億次,有超過100多個客戶使用昇騰310開發(fā)定制AI算法。

ModelArts全流程模型生產(chǎn):打通、覆蓋了從數(shù)據(jù)獲取–模型開發(fā)–模型訓練–模型部署的全鏈條,日均作業(yè)量以及在線開發(fā)者:日均訓練作業(yè)任務超過4000個、32000小時。
其中:視覺類作業(yè)占85%,語音類作業(yè)占10%, 機器學習5%,ModelArts已經(jīng)擁有開發(fā)者超過3萬。

徐直軍還表示,面向未來,針對不同的場景,華為將持續(xù)投資,推出更多的AI處理器,面向邊緣計算場景,在已經(jīng)商用Ascend 310基礎(chǔ)上,計劃2021年將推出Ascend 320,滿足AI應用開發(fā)的需求。
另外面向終端的昇騰Tiny系列將在麒麟990上得到應用。
徐直軍說,不打算單獨將昇騰作為獨立業(yè)務面向市場,而是以板卡等服務器等形式出售,希望與大量AI芯片開發(fā)企業(yè)合作,使他們芯片應用于華為多樣化的應用場景。
在回答記者問時,他也提到,期望昇騰910也在英國推出,具體時間未定,希望基于昇騰910的板卡、服務器等產(chǎn)品可以幫助英國AI研究。

徐直軍還提到,智能手機的預期沒有任正非之前說得那么壞,下降40%是比較悲觀的預測,現(xiàn)實比當時的預測好的多,但減少100多億美金是有的。
芯片“巨無霸”上市,算力超英偉達
徐直軍表示,昇騰910總體技術(shù)表現(xiàn)超出預期,作為算力最強AI處理器,當之無愧。
昇騰910(Ascend 910)是華為第一款重磅推出的達芬奇架構(gòu)云端AI芯片,采用臺積電7nm工藝,最大功耗僅310W,明顯低于設(shè)計規(guī)格的350W。
這款芯片已經(jīng)驗證,半精度(FP16)算力達256 TFLOPS,比NVIDIA Tesla V100 GPU的125 TFLOPS還要高一倍。其整數(shù)精度(INT8)達512 TeraOPS,還集成了128通道全高清視頻解碼器H.264/265。

華為已把昇騰910用于實際AI訓練任務。
其中,在典型的ResNet-50 網(wǎng)絡(luò)的訓練中,昇騰910與MindSpore配合,與現(xiàn)有主流訓練單卡配合TensorFlow相比,顯示出接近2倍的性能提升。每秒訓練的圖片數(shù)量從965張?zhí)嵘?802張。
面向未來,針對不同的場景,包括邊緣計算、自動駕駛車載計算、訓練等場景,華為將持續(xù)投資,推出更多的AI處理器,面向全場景持續(xù)提供更充裕、更經(jīng)濟、更適配的AI算力。

達芬奇架構(gòu)的創(chuàng)新密碼
昇騰910的功臣,正是華為自研的達芬奇架構(gòu)。

達芬奇是歷史上著名的全才,而華為的達芬奇架構(gòu),同樣希望成為適應全場景的全才。
達芬奇架構(gòu)具備高算力、高效率、靈活可裁剪的特點,具體而言特性如下:
1、可擴展計算,芯片的計算單元可以縱向擴展,支持int8/int32/FP16/FP32多精度,擁有可擴展3D Cube以及張量Tensor/向量Vector/標量Scalar多種計算單元,并擁有皮秒級電流控制和硬件輔助的任務調(diào)度。
2、可擴展內(nèi)存,既有專用的,也有分布的,顯式控制的內(nèi)存分布實際,包括4 TBytes/s L2 Buffer緩存和1.2 TByte/s HB+M高帶寬內(nèi)存,和傳統(tǒng)馮·諾依曼架構(gòu)有所差異。
3、可擴展片上互聯(lián),基于LSU可擴展,片上有超高帶寬Mesh網(wǎng)絡(luò)。
4、算力和功耗覆蓋范圍廣,從藍牙耳機到昇騰910芯片,算力范圍達1000萬倍,功耗范圍達20萬倍,很少芯片架構(gòu)可以覆蓋如此廣的范圍。
基于達芬奇架構(gòu)的統(tǒng)一性,用戶只需進行一次算子開發(fā)和調(diào)試,就可以橫跨端邊云進行部署,將算法遷移效率將大大提升。
而實現(xiàn)這些特性的關(guān)鍵要訣,在于AI計算的核心——3D Cube矩陣乘法單元。


由于99%的神經(jīng)網(wǎng)絡(luò)模型計算都用到矩陣乘,同等矩陣乘運算,3D Cube要比1D、2D的MAC算力花費更少的Cycle,從而大幅提高單位面積下的AI算力。
除了3D Cube以外,達芬奇核心中還有3個Buffer分別用于存儲輸入和輸出矩陣,有Vector向量計算單元用于處理各種基本的計算類型和許多定制的計算類型,有Scalar標量計算單元來充當小CPU的角色。
新一代AI開源計算框架MindSpore
昇騰系列AI芯片及AI IP,只是華為全棧全場景AI解決方案的最底層。
在這一層之上,是華為芯片算子庫和高度自動化算子開發(fā)工具CAAN,可將開發(fā)效率提升3倍。
再往上,是今天華為發(fā)布的另一個重磅產(chǎn)品——MindSpore開源計算框架,對標TensorFlow、Caffe、Pytorch等主流AI框架。
能否實現(xiàn)AI無處不在,能否在任何場景下確保用戶隱私得到尊重和保護,這些都與AI計算框架息息相關(guān)。

華為提出,AI框架應該是開發(fā)態(tài)友好(例如顯著減少訓練時間和成本)和運行態(tài)高效(例如最少資源和最高能效比),更重要的是,要能適應每個場景包括端、邊緣和云。
經(jīng)過近一年的努力,全場景AI計算框架MindSpore在這三個方面都取得了顯著進展。
面向AI訓練和部署難題,MindSpore架構(gòu)有如下特點:
1、可大可小,適用全場景不同資源預算獨立部署。

2、通過協(xié)同經(jīng)過處理后的、不帶有隱私信息的梯度、模型信息,而不是數(shù)據(jù)本身,以此實現(xiàn)在保證用戶隱私數(shù)據(jù)保護的前提下跨場景協(xié)同。
3、將模型保護Built-in到AI框架中,實現(xiàn)模型的安全可信。
4、在原生適應每個場景包括端,邊緣和云,并能夠按需協(xié)同的基礎(chǔ)上,通過實現(xiàn)AI算法即代碼,使開發(fā)態(tài)變得更加友好,顯著減少模型開發(fā)時間。

以一個NLP(自然語言處理)典型網(wǎng)絡(luò)為例,相比其他框架,用MindSpore可降低核心代碼量20%,開發(fā)門檻大大降低,效率整體提升50%以上。
另外,根據(jù)此前公布的信息,MindSpore支持端、邊、云獨立和協(xié)同的統(tǒng)一訓練和推理,從端到邊緣、云的反饋可以更快處理。
MindSpore以統(tǒng)一分布式架構(gòu),支持機器學習、深度學習、強化學習等多種模型,包含在線和離線圖計算,搭配各種調(diào)優(yōu)工具,可實現(xiàn)更快的推送。且具備與核心系統(tǒng)解耦的編程接口。
通過MindSpore框架自身的技術(shù)創(chuàng)新及其與昇騰處理器協(xié)同優(yōu)化,有效克服AI計算的復雜性和算力的多樣性挑戰(zhàn),實現(xiàn)了運行態(tài)的高效,大大提高了計算性能。
除了昇騰處理器,MindSpore同時也支持GPU、CPU等其它處理器。

華為全場景的布局,覆蓋了公有云、私有云、邊緣計算、各種行業(yè)物聯(lián)網(wǎng)終端和消費者終端等不同AI部署環(huán)境。
這套方案同時還將于華為的HiAI開發(fā)者框架與華為云EI相輔相成。
MiniSpore之上,是應用使能,華為提供一站式AI開發(fā)平臺ModelArts、分層API和預集成方案。
這一平臺為開發(fā)者提供數(shù)據(jù)標注、建模、訓練及部署的全流程服務,將AI開發(fā)門檻幾乎降低到零,就連開發(fā)小白也能分分鐘上手。
華為昇騰“芯”戰(zhàn)略
華為“芯”戰(zhàn)略,強在無處不在。
基于靈活可擴展的特性,達芬奇架構(gòu)能夠橫跨端邊云全場景提供最優(yōu)算力。

Max/Multi-Mini系列是云端的獨苗,其首個AI芯片昇騰910正式官宣商用,負責超復雜的云端訓練和推理。這一系列同時也面向邊緣服務器。
另一個已經(jīng)商用的,是Mini系列的開山之作昇騰310,該系列既能應用于邊緣的IPC,也能用于個人電腦。
Mini系列能兼顧訓練和推理,面向智能手機應用的Lite系列也是如此。另外兩款終端系列Tiny、Nano則主攻推理,前者用于智能手機,后者用于耳機電話等IoT設(shè)備應用。
目前,Mini和Max/Multi-Mini系列的首款芯片均已商用,而其余三款暫時還未露出廬山真面目。
徐直軍表示,Tiny將用在麒麟990上。
華為的AI戰(zhàn)略:五大面向
華為的全棧方案具體包括:
Ascend:基于統(tǒng)一、可擴展架構(gòu)的系列化AI IP 和 芯片,包括Max、Mini、Lite、Tiny和Nano等五個系列;
CANN:芯片算子庫和高度自動化算子開發(fā)工具;
MindSpore:支持端、邊、云獨立的和協(xié)同的統(tǒng)一訓練和推理框架;
應用使能:提供全流程服務(ModelArts),分層API和預集成方案。

徐直軍再次回顧華為的AI戰(zhàn)略,包括:
1、投資基礎(chǔ)研究:在計算視覺、自然語言處理、決策推理等領(lǐng)域構(gòu)筑數(shù)據(jù)高效(更少的數(shù)據(jù)需求) 、能耗高效(更低的算力和能耗) ,安全可信、自動自治的機器學習基礎(chǔ)能力。
2、打造全棧方案:打造面向云、邊緣和端等全場景的、獨立的以及協(xié)同的、全棧解決方案,提供充裕的、經(jīng)濟的算力資源,簡單易用、高效率、全流程的AI平臺。
3、投資開放生態(tài)和人才培養(yǎng):面向全球,持續(xù)與學術(shù)界、產(chǎn)業(yè)界和行業(yè)伙伴廣泛合作。
4、解決方案增強:把AI思維和技術(shù)引入現(xiàn)有產(chǎn)品和服務,實現(xiàn)更大價值、更強競爭力。
5、內(nèi)部效率提升:應用AI優(yōu)化內(nèi)部管理,對準海量作業(yè)場景,大幅度提升內(nèi)部運營效率和質(zhì)量。
華為AI解決方案(portfolio)的全場景,是指包括公有云、私有云、各種邊緣計算、物聯(lián)網(wǎng)行業(yè)終端以及消費類終端等部署環(huán)境。
而全棧是技術(shù)功能視角,是指包括Ascend昇騰系列IP和芯片、芯片使能CANN、訓練和推理框架MindSpore和應用使能ModelArts在內(nèi)的全堆棧方案。
徐直軍也回顧了制定以上AI戰(zhàn)略的初衷。
華為定位AI是一種新的通用目的技術(shù)(GPT),如同19世紀的鐵路和電力,以及20世紀的汽車、電腦、互聯(lián)網(wǎng)一樣,將應用到經(jīng)濟的幾乎所有地方。
同時華為也認為AI的應用總體還處于發(fā)展初期,AI技術(shù)和能力相比于長遠期望還有很大差距。減小甚至消除這些差距,加速AI的應用,正是華為AI戰(zhàn)略的初衷和目標。
具體包括致力于促成以下10個方面的改變:

1、模型的訓練時間大幅減小,從數(shù)日、數(shù)月降低到幾分鐘、幾秒鐘;
2、算力從稀缺昂貴變成充裕、經(jīng)濟;
3、從AI主要在云、少量在邊緣變成AI無處不在,任何場景;
4、目前主要算法誕生于1980年,下一步更多AI算法將變得更高效、能耗更低,同時更安全、可解釋;
5、提高AI自動化水平,讓能夠AI自動數(shù)據(jù)標注、數(shù)據(jù)獲取、特征提取等;
6、在模型的性能與可用度在工業(yè)生產(chǎn)中保持優(yōu)秀,而不僅僅是“測試優(yōu)秀”;
7、模型能夠從非實時更新變?yōu)閷崟r閉環(huán)系統(tǒng)的更新;
8、從與其他技術(shù)協(xié)同不充分變?yōu)槎嗉夹g(shù)協(xié)同,包括云、IoT、邊緣計算、區(qū)塊鏈等;
9、從一項需要高級技能專家的工作,變成由一站式平臺支持的基本技能;
10、從數(shù)據(jù)科學家稀缺變?yōu)閿?shù)據(jù)科學家、領(lǐng)域?qū)<?、?shù)據(jù)科學工程師相互協(xié)作。
結(jié)語:華為的AI生態(tài)大作戰(zhàn)
此前,華為公布自己的目標,是堅持“平臺+AI+生態(tài)”的戰(zhàn)略,推動產(chǎn)業(yè)共識、探索產(chǎn)業(yè)增值、繁榮應用生態(tài),實現(xiàn)萬物互聯(lián)的智能世界。
如今,以達芬奇架構(gòu)為基礎(chǔ),華為超高算力的云端AI芯片昇騰910、主打低功耗的端側(cè)AI芯片昇騰310,均已加入華為AI的商用陣營。距離華為的“小目標”,又近了一步。
前有NVIDIA、谷歌、英特爾等芯片巨頭在完整軟硬件產(chǎn)品陣列的基礎(chǔ)上,打造了頗具用戶粘性的生態(tài)系統(tǒng),在先發(fā)優(yōu)勢被占的情形之下,華為的AI“全家桶”打法能否為其吸引到更多AI開發(fā)者、建立更為強大的生態(tài)系統(tǒng)尚未可知。
但可以確定的是,華為的野心和一貫的超強執(zhí)行力,使其在AI和芯片領(lǐng)域都是絕對不容小覷的一員猛將。

