觀劇報告：寒武紀:人工智能中國芯！解讀寒武紀震驚全球的A輪融資

　　寒武紀:人工智能中國芯！解讀寒武紀震驚全球的A輪融資

　　2017-08-21

　　同花順

　　週五，國內人工智能芯片明星初創公司寒武紀宣佈A輪融資高達1億美元，成為全球人工智能芯片首個獨角獸，受到國內外市場廣泛關注。

　　一年多之前，我們就在A股率先發布了對於人工智能芯片的系統性研究報告《芯際爭霸：人工智能芯片研發攻略》，也是國內投資機構首次對人工智能芯片進行的最系統全面的闡述，也首次向國內資本市場介紹了剛剛成立不久的寒武紀，並帶動了其A股股東科大訊飛（002230）和戰略合作方中科曙光（603019）。

　　我們在報告中提出："人工智能將推動新一輪計算革命，而芯片行業作為產業最上游，是人工智能時代的開路先鋒，也是人工智能產業發展初期率先啓動、彈性最大的行業。信息時代產生了英特爾這樣的千億市值芯片巨頭，擁有更大應用市場的人工智能時代必將孕育出更多的“英特爾”。在報告發布後短短一年多的時間內，先後發生了這樣幾件大事：

　　1、英偉達股價再度上漲超過4倍，繼續領漲美國科技股；

　　2、2016年7月20日，軟銀宣佈將以243億英鎊(約合320億美元)收購英國芯片設計公司ARM；

　　3、2016年9月，英特爾收購視覺芯片公司movidius；

　　4、2017年3月，英特爾宣佈以153億美元收購Mobileye；

　　5、2017年8月，國內人工智能芯片明星公司寒武紀宣佈A輪融資高達1億美元，成為全球AI芯片領域首個獨角獸。

　　芯片是下游IT產業的前瞻指標，近一年AI芯片的繁榮實際上正在向我們預示着人工智能產業未來空前廣闊的市場。但由於AI芯片是一個非常前沿專業的領域，不少人仍然對這一領域有疑惑和誤解，再加上近一年行業發生的巨大變化，我們試圖在一年後再對這一領域的關鍵問題進行分析闡述。

　　1、為什麼一定需要人工智能芯片？

　　我們在路演時首先提醒投資者關注的核心就是一定要明白現在大家講的人工智能跟我們以往的傳統計算機軟件有什麼差別，判斷標準是它們解決的問題：

　　傳統計算機軟件解決的是確定問題，即可以通過固定的流程或者規律來描述(比如從1加到100)，通過編程交由計算機執行，那麼我們設計計算機基礎芯片CPU的核心目的是幫助我們一條一條有序的執行我們編譯好的指令。所以IBM把傳統的計算機時代又稱為編程時代，新的計算機時代稱為認知時代。

　　現在真正意義上的人工智能解決的是欠定問題，即這些問題難以用固定的流程或者規律描述，它的準確答案取決於我們對於這些問題的反應。典型的例子就是一個3-4歲的小朋友就可以很輕鬆從世間萬物中認出狗或者貓，但傳統計算機方法通過總結所有貓的固定特點來編程識別非常困難。而這一瓶頸恰被此輪以深度學習算法為代表的人工智能技術突破了。所謂深度學習，簡單説就是用數學方法模擬人腦神經網絡，用大量數據訓練機器來模擬人腦學習過程，其本質是把傳統算法問題轉化為數據和計算問題。所以對底層基礎芯片的要求也發生了根本性改變：人工智能芯片的設計目的不是為了執行指令，而是為了大量數據訓練和應用的計算。

　　圖1：傳統計算與神經網絡的差別

　　數據來源：研究中心

　　客觀的講，CPU擁有更好的通用性，幾乎任何計算任務都可以分解為一條條指令讓CPU完成。我們需要人工智能芯片並非CPU不能用，而是效率太差。深度學習對計算資源需求幾乎是空前的，這一點我們從初代AlphaGo所需要的計算資源就可以看到，所以迫切需要一款適合的芯片能夠高效計算深度學習任務，而GPU因為其極佳的並行計算特性恰逢其實。

　　圖2：初代AlphaGo需要1920個CPU核心和280塊GPU

　　數據來源：谷歌、百度

　　2、人工智能芯片市場一定會被英偉達壟斷嗎？

　　GPU的天然並行計算優勢使得英偉達在人工智能時代如日中天，但我們可以非常肯定的預判：人工智能芯片市場不會被英偉達壟斷。理由是人工智能芯片跟我們傳統意義上的芯片有很大的不相同，它其實包括兩個計算過程：

　　1、訓練(Train)；

　　2、應用(Inference)。

　　實際上谷歌首先開始提出設計TPU芯片的目的時就指出了英偉達的GPU在訓練階段具有優勢，但在執行階段效率並不高。

　　圖3：深度學習任務訓練和預測環節對計算資源需求有很大差別

　　數據來源：百度

　　此外人工智能芯片和傳統計算芯片一樣，同時還包括兩大類市場：

　　1、數據中心為代表的後端市場；

　　2、廣義終端市場。

　　傳統計算機時代在數據中心服務器市場幾乎壟斷的英特爾，在智能終端市場一樣不敵ARM。而如果我們關注英偉達近年來的財務報表，其真正意義上人工智能高增長的業務其實就只是數據中心業務。

　　圖4：英偉達2016-2017年各季度不同細分市場營收(百萬美元)及同比增速一覽

　　以上特點實際構建了四種不同的芯片應用場景:

　　圖5：人工智能芯片四種應用場景

　　數據中心領域：實際上英偉達同時滿足四種應用需求並都具備壟斷性優勢的可能性不大，目前主要優勢也只是在數據中心方面，但也面臨谷歌TPU的強勁競爭，而這種競爭的核心將是生態的競爭：

　　1、谷歌的人工智能系統TensorFlow生態趨於成熟。基本上任何線性代數矩陣計算任務都可以通過TensorFlow提供的工具來幫助用户組裝，自動分配到各種計算設備(包括TPU設備)完成並行地執行運算。而底層計算需求的規整使得采用ASIC(專用定製設計)將極大提升芯片計算效率，全新的Cloud TPU計算能力驚人，而且同時針對機器學習的訓練和應用兩方面設計。四個處理芯片每秒可完成180 tflops計算任務。將 64 個 Cloud TPU 相互連接可組成谷歌稱之為Pod的超級計算機，Pod將擁有11.5 petaflops的計算能力(1 petaflops為每秒進行1015次浮點運算)。

　　圖6：數據流圖中這些數據“線”可以代表傳輸多維數據數組，即“張量”(tensor)，張量從圖中流過的直觀圖像是這個工具取名為“Tensorflow”的原因。

　　數據來源：谷歌

　　2、 Cloud TPU 將加入谷歌雲計算平台，並整合進谷歌計算引擎(Google Compute Engine)，即普通用户在雲端就可以調用這些世界上最領先的計算芯片來訓練自己的人工智能任務。谷歌將為開發者們提供最好、最廣泛的硬件選擇，從CPU、到 GPU(包括 Nvidia 上週最新發布的 GPU 產品)、再到 TPU。

　　圖7：cloud TPU由四塊芯片組成

　　終端領域：對於終端市場來説，對芯片的功耗、面積、價格都有極為苛刻的要求，目前終端人工智能芯片主要是執行神經網絡算法的功能，安防和自動駕駛是最大的兩個市場。對於終端訓練功能芯片目前尚不成熟，但可能是未來幾年發展的重點，可以想象通過芯片不斷進步使得谷歌大腦規模的神經網絡嵌入在隨身攜帶的手機裏，將會帶來怎樣的產業變革。

　　雖然英偉達也針對終端市場推出了Jetson TX系列芯片，但價格、功耗等綜合考量並不佔據絕對優勢，以Movidius為代表的新興企業成為了業界新秀，這也不難解釋英特爾為何先後收購了movidius和Mobileye兩家公司，他們分別對應機器視覺和自動駕駛兩個最大的終端市場。

　　終端領域人工智能芯片有兩種類型：

　　第一，採用較為通用的處理器，如movidius、英偉達的Jetson系列芯片，通用性較好，能夠運行各類神經網絡算法，但價格相對較高，主要針對高端市場。就像當年 iPhone 5s 加入了M7協處理器，針對計算機視覺領域在一些終端設備上提供一塊專門的低功耗處理芯片，在處理深度學習的問題時更加高效，可以針對卷積神經網絡的訓練特徵從芯片級別進行優化，從而促進基於深度學習的計算機算法在終端設備上的普及。

　　這類芯片的代表就是剛剛被intel收購的Movidius公司，它們推出 Myriad 系列VPU(視覺處理器)平台可以用於3D感知及掃描建模的芯片，可以支持室內導航、360度全景視頻處理等機器視覺應用，其視覺處理性能超出其它處理器平台十倍，功耗則低一個數量級，而尺寸和價格都僅為五分之一。Myriad 的第二代VPU採用全新的體系架構，提升性能達到二十倍，增強視覺處理能力使之成為新的VPU標杆。

　　圖8：movidius架構，其中的關鍵在於加速深度學習算法的線性代數運算矩陣

　　數據來源：movidius

　　圖9：movidius芯片的應用場景

　　第二，將已經訓練好的較為通用的智能識別類算法直接固化為IP，嵌入到SOC芯片中，優點是因為是專用芯片(ASIC),量產後功耗、價格等都極具優勢，但功能拓展性有限。例如在安防領域，商湯科技的SenseEmbed將深度學習人臉識別算法通過高性能計算極致優化，搭建底層算法最優解決方案，利用商湯科技自主研發的PPL、FastCV高性能異構並行計算組件庫，能將複雜的深度學習算法集成在一張小小的芯片中，進行毫秒級識別速度。目前已支持海思Hi3519/Hi3516A/Hi3516D、飛思卡爾IMX6、ARMCortexA7等多款主流嵌入式芯片，將為硬件設備提供最優深度學習算法引擎。

　　3、人工智能芯片的形式是GPU、FPGA還是ASIC?

　　實際上這本身並不是一個問題，GPU、FPGA、ASIC無非是在通用性和性能兩個標準的權衡下的選擇。不只是人工智能，在很多傳統芯片應用領域都是通用芯片、FPGA、AISIC共存的。

　　打個形象的比方，我們設計一款人工智能芯片就像設計一個某種功能的房子，那麼我們有三種選擇：

　　1、買一個已有的比較通用的房子，然後改變內部的軟件設施來讓這個房子達到我們需要的功能，優點是對於用户代價小，但肯定沒法達到性能最大化，這就對應了通用型芯片；

　　2、買一個半成品的房子，我們可以隨時改變房子裏面的各個房間格局，優點是相對第一種房子性能肯定會更貼近我們需求，而且也保證了一定靈活性，如果需求有改變，可以隨時再改變內部房間格局，這對應了FPGA芯片；

　　3、完全一塊磚一塊磚按自己需求重新搭建一個房子，這種肯定性能上最能貼近我們的需求，但是一次性投入太大，如果不是確定性需求需要冒風險，這就對應ASIC芯片。

　　所以我們可以不難理解為什麼大部分創業公司都會採用英偉達GPU這類生態成熟的通用芯片，為什麼在人工智能算法沒有最終成熟需要不斷改進時FPGA會出現在一些應用領域，而谷歌這類財大氣粗自己需求量很大的公司自己用ASIC的TPU.

　　從對於機器學習算法的性能和功耗的角度來説：FPGA 可以開發出為機器學習算法專用的架構，但是 FPGA 本身的峯值性能較 GPU 要差很多。FPGA 和 GPU 哪個跑機器學習算法更強(平均性能更好)，完全取決於 FPGA 架構優化能否彌補峯值性能的劣勢。

　　1、FPGA 實現的機器學習加速器在架構上可以根據特定應用優化所以比 GPU 有優勢，但是 GPU 的運行速度(>1GHz) 相比 FPGA 有優勢 (~200MHz)。所以，對於平均性能，看的就是 FPGA 加速器架構上的優勢是否能彌補運行速度上的劣勢。

　　圖10：FPGA與GPU性能與功耗的比較

　　2、功耗方面，雖然 GPU 的功耗(200W)遠大於 FPGA 的功耗(10W)，但是如果要比較功耗應該比較在執行效率相同時需要的功耗。如果 FPGA 的架構優化能做到很好以致於一塊 FPGA 的平均性能能接近一塊 GPU，那麼 FPGA 方案的總功耗遠小於 GPU，散熱問題可以大大減輕。反之，如果需要二十塊 FPGA 才能實現一塊 GPU 的平均性能，那麼 FPGA 在功耗方面並沒有優勢。

　　而對於AISC芯片出現的領域一般會有下面幾個特徵：

　　1、市場需求成熟確定，比如谷歌自己的數據中心芯片需求量足以影響整個行業，乾脆自己投入設計TPU，或者市場確定將成熟的下游巨大市場，比如安防領域。

　　2、涉及到國家戰略，可以不惜代價建立自己的應用生態彎道超車，比如寒武紀深度學習處理器，其ASIC芯片已經流片量產。我們可以關注一個新聞：據科技部3月13日消息，科技部副部長李萌率隊前往寒武紀芯片公司就人工智能領域技術和產業發展進行專題調研，創新發展司司長許倞、高新技術產業化司司長秦勇、中關村管委會主任郭洪參加調研和座談。

　　不難解釋為什麼寒武紀A輪融資額就高達1億多美元：一是ASIC芯片投入代價確實非常大風險也很大，但這種通用芯片一旦成功放量市場空間也是空前的；二是，人工智能確是我國芯片產業建立自主生態，彎道超車的機會，自然有國家戰略層面的支持。

　　作為A股人工智能第一團隊，能夠看到寒武紀這樣的國內頂尖人工智能芯片公司快速崛起，我們非常欣慰和興奮，因為未來10年不僅是人工智能席捲一切的黃金10年，也是我國芯片產業的黃金10年！

　　風險提示：芯片研發風險；行業應用不及預期。

　　本文來自騰訊新聞客户端自媒體，不代表騰訊新聞的觀點和立場