華為最強云端AI芯片商用，性能超英偉達V100，開源AI框架對標谷歌！

2019-08-23 19:14 性質(zhì)：轉(zhuǎn)載作者：心緣來源：智東西

免責聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機構(gòu)所有。文章內(nèi)容觀點，與本網(wǎng)無關(guān)。如有需要刪除，敬請來電商榷?。?/div>

看點：國產(chǎn)云端AI芯片和國產(chǎn)AI框架再添新勢力！剛剛，在華為總部坂田基地，華為自研云端AI芯片昇騰910正式商用發(fā)布，芯片最大功耗僅310W，比之前設(shè)計的350W...

看點：國產(chǎn)云端AI芯片和國產(chǎn)AI框架再添新勢力！

剛剛，在華為總部坂田基地，華為自研云端AI芯片昇騰910正式商用發(fā)布，芯片最大功耗僅310W，比之前設(shè)計的350W更低！

此前云端AI芯片被稱是單芯片計算密度最大的芯片，與之配套的全場景AI計算框架MindSpore也一同亮相。

MindSpore開源計算框架，可以滿足端邊云全場景需求，能最大化利用芯片算力。這意味國產(chǎn)AI框架陣營又加入了一個重要成員。

華為輪值董事長徐直軍表示，華為已完成全棧全場景AI Portfolio構(gòu)建。這也標志著華為AI戰(zhàn)略的執(zhí)行進入了新的階段。

他還強調(diào)，華為之所以要開發(fā)并推出MindSpore框架，是因為沒有任何一個現(xiàn)有框架支持全場景。

為了更好促進AI的應用，徐直軍宣布“MindSpore將在2020年Q1開源”，助力每一位開發(fā)者，促進AI產(chǎn)業(yè)生態(tài)發(fā)展。

華為自2018年10月發(fā)布AI戰(zhàn)略以來，穩(wěn)步而有序地推進戰(zhàn)略執(zhí)行、產(chǎn)品研發(fā)及商用進程。去年發(fā)布的昇騰310，至今已在各場景廣泛應用。

基于昇騰310，華為云提供了圖像分析類服務、OCR服務、視頻智能分析服務等云服務。對外提供API達50多個，日均調(diào)用量超過1億次，在快速增長，預計年底日均調(diào)用量超過3億次，有超過100多個客戶使用昇騰310開發(fā)定制AI算法。

ModelArts全流程模型生產(chǎn)：打通、覆蓋了從數(shù)據(jù)獲取–模型開發(fā)–模型訓練–模型部署的全鏈條，日均作業(yè)量以及在線開發(fā)者：日均訓練作業(yè)任務超過4000個、32000小時。

其中：視覺類作業(yè)占85%，語音類作業(yè)占10%, 機器學習5%，ModelArts已經(jīng)擁有開發(fā)者超過3萬。

徐直軍還表示，面向未來，針對不同的場景，華為將持續(xù)投資，推出更多的AI處理器，面向邊緣計算場景，在已經(jīng)商用Ascend 310基礎(chǔ)上，計劃2021年將推出Ascend 320，滿足AI應用開發(fā)的需求。

另外面向終端的昇騰Tiny系列將在麒麟990上得到應用。

徐直軍說，不打算單獨將昇騰作為獨立業(yè)務面向市場，而是以板卡等服務器等形式出售，希望與大量AI芯片開發(fā)企業(yè)合作，使他們芯片應用于華為多樣化的應用場景。

在回答記者問時，他也提到，期望昇騰910也在英國推出，具體時間未定，希望基于昇騰910的板卡、服務器等產(chǎn)品可以幫助英國AI研究。

徐直軍還提到，智能手機的預期沒有任正非之前說得那么壞，下降40%是比較悲觀的預測，現(xiàn)實比當時的預測好的多，但減少100多億美金是有的。

芯片“巨無霸”上市，算力超英偉達

徐直軍表示，昇騰910總體技術(shù)表現(xiàn)超出預期，作為算力最強AI處理器，當之無愧。

昇騰910（Ascend 910）是華為第一款重磅推出的達芬奇架構(gòu)云端AI芯片，采用臺積電7nm工藝，最大功耗僅310W，明顯低于設(shè)計規(guī)格的350W。

這款芯片已經(jīng)驗證，半精度（FP16）算力達256 TFLOPS，比NVIDIA Tesla V100 GPU的125 TFLOPS還要高一倍。其整數(shù)精度（INT8）達512 TeraOPS，還集成了128通道全高清視頻解碼器H.264/265。

華為已把昇騰910用于實際AI訓練任務。

其中，在典型的ResNet-50 網(wǎng)絡(luò)的訓練中，昇騰910與MindSpore配合，與現(xiàn)有主流訓練單卡配合TensorFlow相比，顯示出接近2倍的性能提升。每秒訓練的圖片數(shù)量從965張?zhí)嵘?802張。

面向未來，針對不同的場景，包括邊緣計算、自動駕駛車載計算、訓練等場景，華為將持續(xù)投資，推出更多的AI處理器，面向全場景持續(xù)提供更充裕、更經(jīng)濟、更適配的AI算力。

達芬奇架構(gòu)的創(chuàng)新密碼

昇騰910的功臣，正是華為自研的達芬奇架構(gòu)。

達芬奇是歷史上著名的全才，而華為的達芬奇架構(gòu)，同樣希望成為適應全場景的全才。

達芬奇架構(gòu)具備高算力、高效率、靈活可裁剪的特點，具體而言特性如下：

1、可擴展計算，芯片的計算單元可以縱向擴展，支持int8/int32/FP16/FP32多精度，擁有可擴展3D Cube以及張量Tensor/向量Vector/標量Scalar多種計算單元，并擁有皮秒級電流控制和硬件輔助的任務調(diào)度。

2、可擴展內(nèi)存，既有專用的，也有分布的，顯式控制的內(nèi)存分布實際，包括4 TBytes/s L2 Buffer緩存和1.2 TByte/s HB+M高帶寬內(nèi)存，和傳統(tǒng)馮·諾依曼架構(gòu)有所差異。

3、可擴展片上互聯(lián)，基于LSU可擴展，片上有超高帶寬Mesh網(wǎng)絡(luò)。

4、算力和功耗覆蓋范圍廣，從藍牙耳機到昇騰910芯片，算力范圍達1000萬倍，功耗范圍達20萬倍，很少芯片架構(gòu)可以覆蓋如此廣的范圍。

基于達芬奇架構(gòu)的統(tǒng)一性，用戶只需進行一次算子開發(fā)和調(diào)試，就可以橫跨端邊云進行部署，將算法遷移效率將大大提升。

而實現(xiàn)這些特性的關(guān)鍵要訣，在于AI計算的核心——3D Cube矩陣乘法單元。

由于99%的神經(jīng)網(wǎng)絡(luò)模型計算都用到矩陣乘，同等矩陣乘運算，3D Cube要比1D、2D的MAC算力花費更少的Cycle，從而大幅提高單位面積下的AI算力。

除了3D Cube以外，達芬奇核心中還有3個Buffer分別用于存儲輸入和輸出矩陣，有Vector向量計算單元用于處理各種基本的計算類型和許多定制的計算類型，有Scalar標量計算單元來充當小CPU的角色。

新一代AI開源計算框架MindSpore

昇騰系列AI芯片及AI IP，只是華為全棧全場景AI解決方案的最底層。

在這一層之上，是華為芯片算子庫和高度自動化算子開發(fā)工具CAAN，可將開發(fā)效率提升3倍。

再往上，是今天華為發(fā)布的另一個重磅產(chǎn)品——MindSpore開源計算框架，對標TensorFlow、Caffe、Pytorch等主流AI框架。

能否實現(xiàn)AI無處不在，能否在任何場景下確保用戶隱私得到尊重和保護，這些都與AI計算框架息息相關(guān)。

華為提出，AI框架應該是開發(fā)態(tài)友好（例如顯著減少訓練時間和成本）和運行態(tài)高效（例如最少資源和最高能效比），更重要的是，要能適應每個場景包括端、邊緣和云。

經(jīng)過近一年的努力，全場景AI計算框架MindSpore在這三個方面都取得了顯著進展。

面向AI訓練和部署難題，MindSpore架構(gòu)有如下特點：

1、可大可小，適用全場景不同資源預算獨立部署。

2、通過協(xié)同經(jīng)過處理后的、不帶有隱私信息的梯度、模型信息，而不是數(shù)據(jù)本身，以此實現(xiàn)在保證用戶隱私數(shù)據(jù)保護的前提下跨場景協(xié)同。

3、將模型保護Built-in到AI框架中，實現(xiàn)模型的安全可信。

4、在原生適應每個場景包括端，邊緣和云，并能夠按需協(xié)同的基礎(chǔ)上，通過實現(xiàn)AI算法即代碼，使開發(fā)態(tài)變得更加友好，顯著減少模型開發(fā)時間。

以一個NLP（自然語言處理）典型網(wǎng)絡(luò)為例，相比其他框架，用MindSpore可降低核心代碼量20%，開發(fā)門檻大大降低，效率整體提升50%以上。

另外，根據(jù)此前公布的信息，MindSpore支持端、邊、云獨立和協(xié)同的統(tǒng)一訓練和推理，從端到邊緣、云的反饋可以更快處理。

MindSpore以統(tǒng)一分布式架構(gòu)，支持機器學習、深度學習、強化學習等多種模型，包含在線和離線圖計算，搭配各種調(diào)優(yōu)工具，可實現(xiàn)更快的推送。且具備與核心系統(tǒng)解耦的編程接口。

通過MindSpore框架自身的技術(shù)創(chuàng)新及其與昇騰處理器協(xié)同優(yōu)化，有效克服AI計算的復雜性和算力的多樣性挑戰(zhàn)，實現(xiàn)了運行態(tài)的高效，大大提高了計算性能。

除了昇騰處理器，MindSpore同時也支持GPU、CPU等其它處理器。

華為全場景的布局，覆蓋了公有云、私有云、邊緣計算、各種行業(yè)物聯(lián)網(wǎng)終端和消費者終端等不同AI部署環(huán)境。

這套方案同時還將于華為的HiAI開發(fā)者框架與華為云EI相輔相成。

MiniSpore之上，是應用使能，華為提供一站式AI開發(fā)平臺ModelArts、分層API和預集成方案。

這一平臺為開發(fā)者提供數(shù)據(jù)標注、建模、訓練及部署的全流程服務，將AI開發(fā)門檻幾乎降低到零，就連開發(fā)小白也能分分鐘上手。

華為昇騰“芯”戰(zhàn)略

華為“芯”戰(zhàn)略，強在無處不在。

基于靈活可擴展的特性，達芬奇架構(gòu)能夠橫跨端邊云全場景提供最優(yōu)算力。

Max/Multi-Mini系列是云端的獨苗，其首個AI芯片昇騰910正式官宣商用，負責超復雜的云端訓練和推理。這一系列同時也面向邊緣服務器。

另一個已經(jīng)商用的，是Mini系列的開山之作昇騰310，該系列既能應用于邊緣的IPC，也能用于個人電腦。

Mini系列能兼顧訓練和推理，面向智能手機應用的Lite系列也是如此。另外兩款終端系列Tiny、Nano則主攻推理，前者用于智能手機，后者用于耳機電話等IoT設(shè)備應用。

目前，Mini和Max/Multi-Mini系列的首款芯片均已商用，而其余三款暫時還未露出廬山真面目。

徐直軍表示，Tiny將用在麒麟990上。

華為的AI戰(zhàn)略：五大面向

華為的全棧方案具體包括：

Ascend：基于統(tǒng)一、可擴展架構(gòu)的系列化AI IP 和芯片，包括Max、Mini、Lite、Tiny和Nano等五個系列；

CANN：芯片算子庫和高度自動化算子開發(fā)工具；

MindSpore：支持端、邊、云獨立的和協(xié)同的統(tǒng)一訓練和推理框架；

應用使能：提供全流程服務（ModelArts），分層API和預集成方案。

徐直軍再次回顧華為的AI戰(zhàn)略，包括：

1、投資基礎(chǔ)研究：在計算視覺、自然語言處理、決策推理等領(lǐng)域構(gòu)筑數(shù)據(jù)高效（更少的數(shù)據(jù)需求）、能耗高效（更低的算力和能耗），安全可信、自動自治的機器學習基礎(chǔ)能力。

2、打造全棧方案：打造面向云、邊緣和端等全場景的、獨立的以及協(xié)同的、全棧解決方案，提供充裕的、經(jīng)濟的算力資源，簡單易用、高效率、全流程的AI平臺。

3、投資開放生態(tài)和人才培養(yǎng)：面向全球，持續(xù)與學術(shù)界、產(chǎn)業(yè)界和行業(yè)伙伴廣泛合作。

4、解決方案增強：把AI思維和技術(shù)引入現(xiàn)有產(chǎn)品和服務，實現(xiàn)更大價值、更強競爭力。

5、內(nèi)部效率提升：應用AI優(yōu)化內(nèi)部管理，對準海量作業(yè)場景，大幅度提升內(nèi)部運營效率和質(zhì)量。

華為AI解決方案（portfolio）的全場景，是指包括公有云、私有云、各種邊緣計算、物聯(lián)網(wǎng)行業(yè)終端以及消費類終端等部署環(huán)境。

而全棧是技術(shù)功能視角，是指包括Ascend昇騰系列IP和芯片、芯片使能CANN、訓練和推理框架MindSpore和應用使能ModelArts在內(nèi)的全堆棧方案。

徐直軍也回顧了制定以上AI戰(zhàn)略的初衷。

華為定位AI是一種新的通用目的技術(shù)（GPT），如同19世紀的鐵路和電力，以及20世紀的汽車、電腦、互聯(lián)網(wǎng)一樣，將應用到經(jīng)濟的幾乎所有地方。

同時華為也認為AI的應用總體還處于發(fā)展初期，AI技術(shù)和能力相比于長遠期望還有很大差距。減小甚至消除這些差距，加速AI的應用，正是華為AI戰(zhàn)略的初衷和目標。

具體包括致力于促成以下10個方面的改變：

1、模型的訓練時間大幅減小，從數(shù)日、數(shù)月降低到幾分鐘、幾秒鐘；

2、算力從稀缺昂貴變成充裕、經(jīng)濟；

3、從AI主要在云、少量在邊緣變成AI無處不在，任何場景；

4、目前主要算法誕生于1980年，下一步更多AI算法將變得更高效、能耗更低，同時更安全、可解釋；

5、提高AI自動化水平，讓能夠AI自動數(shù)據(jù)標注、數(shù)據(jù)獲取、特征提取等；

6、在模型的性能與可用度在工業(yè)生產(chǎn)中保持優(yōu)秀，而不僅僅是“測試優(yōu)秀”；

7、模型能夠從非實時更新變?yōu)閷崟r閉環(huán)系統(tǒng)的更新；

8、從與其他技術(shù)協(xié)同不充分變?yōu)槎嗉夹g(shù)協(xié)同，包括云、IoT、邊緣計算、區(qū)塊鏈等；

9、從一項需要高級技能專家的工作，變成由一站式平臺支持的基本技能；

10、從數(shù)據(jù)科學家稀缺變?yōu)閿?shù)據(jù)科學家、領(lǐng)域?qū)＜?、?shù)據(jù)科學工程師相互協(xié)作。

結(jié)語：華為的AI生態(tài)大作戰(zhàn)

此前，華為公布自己的目標，是堅持“平臺+AI+生態(tài)”的戰(zhàn)略，推動產(chǎn)業(yè)共識、探索產(chǎn)業(yè)增值、繁榮應用生態(tài)，實現(xiàn)萬物互聯(lián)的智能世界。

如今，以達芬奇架構(gòu)為基礎(chǔ)，華為超高算力的云端AI芯片昇騰910、主打低功耗的端側(cè)AI芯片昇騰310，均已加入華為AI的商用陣營。距離華為的“小目標”，又近了一步。

前有NVIDIA、谷歌、英特爾等芯片巨頭在完整軟硬件產(chǎn)品陣列的基礎(chǔ)上，打造了頗具用戶粘性的生態(tài)系統(tǒng)，在先發(fā)優(yōu)勢被占的情形之下，華為的AI“全家桶”打法能否為其吸引到更多AI開發(fā)者、建立更為強大的生態(tài)系統(tǒng)尚未可知。

但可以確定的是，華為的野心和一貫的超強執(zhí)行力，使其在AI和芯片領(lǐng)域都是絕對不容小覷的一員猛將。