寒武紀:人工智慧中國芯!解讀寒武紀震驚全球的A輪融資
2017-08-21
同花順
週五,國內人工智慧晶片明星初創公司寒武紀宣佈A輪融資高達1億美元,成為全球人工智慧晶片首個獨角獸,受到國內外市場廣泛關注。
一年多之前,我們就在A股率先發布了對於人工智慧晶片的系統性研究報告《芯際爭霸:人工智慧晶片研發攻略》,也是國內投資機構首次對人工智慧晶片進行的最系統全面的闡述,也首次向國內資本市場介紹了剛剛成立不久的寒武紀,並帶動了其A股股東科大訊飛(002230)和戰略合作方中科曙光(603019)。
我們在報告中提出:"人工智慧將推動新一輪計算革命,而晶片行業作為產業最上游,是人工智慧時代的開路先鋒,也是人工智慧產業發展初期率先啟動、彈性最大的行業。資訊時代產生了英特爾這樣的千億市值晶片巨頭,擁有更大應用市場的人工智慧時代必將孕育出更多的“英特爾”。在報告發布後短短一年多的時間內,先後發生了這樣幾件大事:
1、英偉達股價再度上漲超過4倍,繼續領漲美國科技股;
2、2016年7月20日,軟銀宣佈將以243億英鎊(約合320億美元)收購英國晶片設計公司ARM;
3、2016年9月,英特爾收購視覺晶片公司movidius;
4、2017年3月,英特爾宣佈以153億美元收購Mobileye;
5、2017年8月,國內人工智慧晶片明星公司寒武紀宣佈A輪融資高達1億美元,成為全球AI晶片領域首個獨角獸。
晶片是下游IT產業的前瞻指標,近一年AI晶片的繁榮實際上正在向我們預示著人工智慧產業未來空前廣闊的市場。但由於AI晶片是一個非常前沿專業的領域,不少人仍然對這一領域有疑惑和誤解,再加上近一年行業發生的巨大變化,我們試圖在一年後再對這一領域的關鍵問題進行分析闡述。
1、為什麼一定需要人工智慧晶片?
我們在路演時首先提醒投資者關注的核心就是一定要明白現在大家講的人工智慧跟我們以往的傳統計算機軟體有什麼差別,判斷標準是它們解決的問題:
傳統計算機軟體解決的是確定問題,即可以透過固定的流程或者規律來描述(比如從1加到100),透過程式設計交由計算機執行,那麼我們設計計算機基礎晶片CPU的核心目的是幫助我們一條一條有序的執行我們編譯好的指令。所以IBM把傳統的計算機時代又稱為程式設計時代,新的計算機時代稱為認知時代。
現在真正意義上的人工智慧解決的是欠定問題,即這些問題難以用固定的流程或者規律描述,它的準確答案取決於我們對於這些問題的反應。典型的例子就是一個3-4歲的小朋友就可以很輕鬆從世間萬物中認出狗或者貓,但傳統計算機方法透過總結所有貓的固定特點來程式設計識別非常困難。而這一瓶頸恰被此輪以深度學習演算法為代表的人工智慧技術突破了。所謂深度學習,簡單說就是用數學方法模擬人腦神經網路,用大量資料訓練機器來模擬人腦學習過程,其本質是把傳統演算法問題轉化為資料和計算問題。所以對底層基礎晶片的要求也發生了根本性改變:人工智慧晶片的設計目的不是為了執行指令,而是為了大量資料訓練和應用的計算。
圖1:傳統計算與神經網路的差別
資料來源:研究中心
客觀的講,CPU擁有更好的通用性,幾乎任何計算任務都可以分解為一條條指令讓CPU完成。我們需要人工智慧晶片並非CPU不能用,而是效率太差。深度學習對計算資源需求幾乎是空前的,這一點我們從初代AlphaGo所需要的計算資源就可以看到,所以迫切需要一款適合的晶片能夠高效計算深度學習任務,而GPU因為其極佳的平行計算特性恰逢其實。
圖2:初代AlphaGo需要1920個CPU核心和280塊GPU
資料來源:谷歌、百度
2、人工智慧晶片市場一定會被英偉達壟斷嗎?
GPU的天然平行計算優勢使得英偉達在人工智慧時代如日中天,但我們可以非常肯定的預判:人工智慧晶片市場不會被英偉達壟斷。理由是人工智慧晶片跟我們傳統意義上的晶片有很大的不相同,它其實包括兩個計算過程:
1、訓練(Train);
2、應用(Inference)。
實際上谷歌首先開始提出設計TPU晶片的目的時就指出了英偉達的GPU在訓練階段具有優勢,但在執行階段效率並不高。
圖3:深度學習任務訓練和預測環節對計算資源需求有很大差別
資料來源:百度
此外人工智慧晶片和傳統計算晶片一樣,同時還包括兩大類市場:
1、資料中心為代表的後端市場;
2、廣義終端市場。
傳統計算機時代在資料中心伺服器市場幾乎壟斷的英特爾,在智慧終端市場一樣不敵ARM。而如果我們關注英偉達近年來的財務報表,其真正意義上人工智慧高增長的業務其實就只是資料中心業務。
圖4:英偉達2016-2017年各季度不同細分市場營收(百萬美元)及同比增速一覽
以上特點實際構建了四種不同的晶片應用場景:
圖5:人工智慧晶片四種應用場景
資料中心領域:實際上英偉達同時滿足四種應用需求並都具備壟斷性優勢的可能性不大,目前主要優勢也只是在資料中心方面,但也面臨谷歌TPU的強勁競爭,而這種競爭的核心將是生態的競爭:
1、谷歌的人工智慧系統TensorFlow生態趨於成熟。基本上任何線性代數矩陣計算任務都可以透過TensorFlow提供的工具來幫助使用者組裝,自動分配到各種計算裝置(包括TPU裝置)完成並行地執行運算。而底層計算需求的規整使得采用ASIC(專用定製設計)將極大提升晶片計算效率,全新的Cloud TPU計算能力驚人,而且同時針對機器學習的訓練和應用兩方面設計。四個處理晶片每秒可完成180 tflops計算任務。將 64 個 Cloud TPU 相互連線可組成谷歌稱之為Pod的超級計算機,Pod將擁有11.5 petaflops的計算能力(1 petaflops為每秒進行1015次浮點運算)。
圖6:資料流圖中這些資料“線”可以代表傳輸多維資料陣列,即“張量”(tensor),張量從圖中流過的直觀影象是這個工具取名為“Tensorflow”的原因。
資料來源:谷歌
2、 Cloud TPU 將加入谷歌雲計算平臺,並整合進谷歌計算引擎(Google Compute Engine),即普通使用者在雲端就可以呼叫這些世界上最領先的計算晶片來訓練自己的人工智慧任務。谷歌將為開發者們提供最好、最廣泛的硬體選擇,從CPU、到 GPU(包括 Nvidia 上週最新發布的 GPU 產品)、再到 TPU。
圖7:cloud TPU由四塊晶片組成
終端領域:對於終端市場來說,對晶片的功耗、面積、價格都有極為苛刻的要求,目前終端人工智慧晶片主要是執行神經網路演算法的功能,安防和自動駕駛是最大的兩個市場。對於終端訓練功能晶片目前尚不成熟,但可能是未來幾年發展的重點,可以想象透過晶片不斷進步使得谷歌大腦規模的神經網路嵌入在隨身攜帶的手機裡,將會帶來怎樣的產業變革。
雖然英偉達也針對終端市場推出了Jetson TX系列晶片,但價格、功耗等綜合考量並不佔據絕對優勢,以Movidius為代表的新興企業成為了業界新秀,這也不難解釋英特爾為何先後收購了movidius和Mobileye兩家公司,他們分別對應機器視覺和自動駕駛兩個最大的終端市場。
終端領域人工智慧晶片有兩種型別:
第一,採用較為通用的處理器,如movidius、英偉達的Jetson系列晶片,通用性較好,能夠執行各類神經網路演算法,但價格相對較高,主要針對高階市場。就像當年 iPhone 5s 加入了M7協處理器,針對計算機視覺領域在一些終端裝置上提供一塊專門的低功耗處理晶片,在處理深度學習的問題時更加高效,可以針對卷積神經網路的訓練特徵從晶片級別進行最佳化,從而促進基於深度學習的計算機演算法在終端裝置上的普及。
這類晶片的代表就是剛剛被intel收購的Movidius公司,它們推出 Myriad 系列VPU(視覺處理器)平臺可以用於3D感知及掃描建模的晶片,可以支援室內導航、360度全景影片處理等機器視覺應用,其視覺處理效能超出其它處理器平臺十倍,功耗則低一個數量級,而尺寸和價格都僅為五分之一。Myriad 的第二代VPU採用全新的體系架構,提升效能達到二十倍,增強視覺處理能力使之成為新的VPU標杆。
圖8:movidius架構,其中的關鍵在於加速深度學習演算法的線性代數運算矩陣
資料來源:movidius
圖9:movidius晶片的應用場景
第二,將已經訓練好的較為通用的智慧識別類演算法直接固化為IP,嵌入到SOC晶片中,優點是因為是專用晶片(ASIC),量產後功耗、價格等都極具優勢,但功能拓展性有限。例如在安防領域,商湯科技的SenseEmbed將深度學習人臉識別演算法透過高效能計算極致最佳化,搭建底層演算法最優解決方案,利用商湯科技自主研發的PPL、FastCV高效能異構平行計算元件庫,能將複雜的深度學習演算法整合在一張小小的晶片中,進行毫秒級識別速度。目前已支援海思Hi3519/Hi3516A/Hi3516D、飛思卡爾IMX6、ARMCortexA7等多款主流嵌入式晶片,將為硬體裝置提供最優深度學習演算法引擎。
3、人工智慧晶片的形式是GPU、FPGA還是ASIC?
實際上這本身並不是一個問題,GPU、FPGA、ASIC無非是在通用性和效能兩個標準的權衡下的選擇。不只是人工智慧,在很多傳統晶片應用領域都是通用晶片、FPGA、AISIC共存的。
打個形象的比方,我們設計一款人工智慧晶片就像設計一個某種功能的房子,那麼我們有三種選擇:
1、買一個已有的比較通用的房子,然後改變內部的軟體設施來讓這個房子達到我們需要的功能,優點是對於使用者代價小,但肯定沒法達到效能最大化,這就對應了通用型晶片;
2、買一個半成品的房子,我們可以隨時改變房子裡面的各個房間格局,優點是相對第一種房子效能肯定會更貼近我們需求,而且也保證了一定靈活性,如果需求有改變,可以隨時再改變內部房間格局,這對應了FPGA晶片;
3、完全一塊磚一塊磚按自己需求重新搭建一個房子,這種肯定效能上最能貼近我們的需求,但是一次性投入太大,如果不是確定性需求需要冒風險,這就對應ASIC晶片。
所以我們可以不難理解為什麼大部分創業公司都會採用英偉達GPU這類生態成熟的通用晶片,為什麼在人工智慧演算法沒有最終成熟需要不斷改進時FPGA會出現在一些應用領域,而谷歌這類財大氣粗自己需求量很大的公司自己用ASIC的TPU.
從對於機器學習演算法的效能和功耗的角度來說:FPGA 可以開發出為機器學習演算法專用的架構,但是 FPGA 本身的峰值效能較 GPU 要差很多。FPGA 和 GPU 哪個跑機器學習演算法更強(平均效能更好),完全取決於 FPGA 架構最佳化能否彌補峰值效能的劣勢。
1、FPGA 實現的機器學習加速器在架構上可以根據特定應用最佳化所以比 GPU 有優勢,但是 GPU 的執行速度(>1GHz) 相比 FPGA 有優勢 (~200MHz)。所以,對於平均效能,看的就是 FPGA 加速器架構上的優勢是否能彌補執行速度上的劣勢。
圖10:FPGA與GPU效能與功耗的比較
2、功耗方面,雖然 GPU 的功耗(200W)遠大於 FPGA 的功耗(10W),但是如果要比較功耗應該比較在執行效率相同時需要的功耗。如果 FPGA 的架構最佳化能做到很好以致於一塊 FPGA 的平均效能能接近一塊 GPU,那麼 FPGA 方案的總功耗遠小於 GPU,散熱問題可以大大減輕。反之,如果需要二十塊 FPGA 才能實現一塊 GPU 的平均效能,那麼 FPGA 在功耗方面並沒有優勢。
而對於AISC晶片出現的領域一般會有下面幾個特徵:
1、市場需求成熟確定,比如谷歌自己的資料中心晶片需求量足以影響整個行業,乾脆自己投入設計TPU,或者市場確定將成熟的下游巨大市場,比如安防領域。
2、涉及到國家戰略,可以不惜代價建立自己的應用生態彎道超車,比如寒武紀深度學習處理器,其ASIC晶片已經流片量產。我們可以關注一個新聞:據科技部3月13日訊息,科技部副部長李萌率隊前往寒武紀晶片公司就人工智慧領域技術和產業發展進行專題調研,創新發展司司長許倞、高新技術產業化司司長秦勇、中關村管委會主任郭洪參加調研和座談。
不難解釋為什麼寒武紀A輪融資額就高達1億多美元:一是ASIC晶片投入代價確實非常大風險也很大,但這種通用晶片一旦成功放量市場空間也是空前的;二是,人工智慧確是我國晶片產業建立自主生態,彎道超車的機會,自然有國家戰略層面的支援。
作為A股人工智慧第一團隊,能夠看到寒武紀這樣的國內頂尖人工智慧晶片公司快速崛起,我們非常欣慰和興奮,因為未來10年不僅是人工智慧席捲一切的黃金10年,也是我國晶片產業的黃金10年!
風險提示:晶片研發風險;行業應用不及預期。
本文來自騰訊新聞客戶端自媒體,不代表騰訊新聞的觀點和立場