從帝國理工走出的中國AI芯片新秀，造出全球首款量產數據流AI芯

芯東西（ID：aichip001）文 | 心緣

不知是否疫情使然，相較去年人工智能（AI）芯片領域熱火朝天的發佈潮，從今年開年至今，鮮少有國內AI芯片玩家發佈新產品。

而談及AI芯片，人們也不再侷限於只看峯值性能和最大功耗，關注重心逐漸迴歸到需求本身：能落地哪些場景？好不好用？使用壽命有多長？物理成本夠不夠低？……

這些問題對應芯片的特性，可總結為幾個關鍵詞：算力性價比、架構通用性、軟件易用性。

就在昨天，6月23日，一家深圳AI芯片創企鯤雲科技推出其首款數據流AI芯片CAISA，在這三個特性上均有出色的表現。

CAISA芯片是面向邊緣和雲端高性能AI推理芯片，已量產，峯值性能達10.9TOPS，有良好的通用性和易用的軟件工具鏈，並且芯片利用率最高可達95.4%，較同類產品提升了10倍，也就意味着更高的算力性價比。

根據中國人工智能產業發展聯盟（AIIA）的數據，CAISA芯片僅用1/3的峯值算力，即可實現英偉達同類產品（NVIDIA T4）最高3.91倍的實測性能。

相比之下，有些芯片儘管理論峯值算力很高，但在實際應用中不能將算力完全發揮出來，實測算力還不到峯值算力的1/3。

同時，基於CAISA芯片的星空X3加速卡已在智慧城市、智慧製造、安監生產、軌道交通、智能遙感等領域均有落地。

那麼鯤雲科技是如何突破傳統芯片架構對芯片利用率的約束呢？又如何做到幫用户省錢呢？

這源自鯤雲選擇了一條截然不同的路線。

2010年，從復旦大學電子工程系畢業後，23歲的牛昕宇前赴英國帝國理工學院繼續深造，師從帝國理工學院教授、英國皇家科學院院士、IEEE會士、BCS會士陸永青（Wayne Luk）。

陸永青是全球定製計算領域赫赫有名的學術大牛，也是全球AI芯片領域唯一一位英國皇家科學院、英國工程學會、英國計算機學會的三院院士。

定製計算從用户具體應用的需求出發，通過軟硬件協同的設計工具，以定製處理器的形式來適配應用需求，從而在同等硅片面積上實現更高的計算性能。

在帝國理工學院求學的旅程中，牛昕宇曾拿下全獎博士，併成為學院最年輕的助理研究員，學術旅程星光熠熠，已準備前往斯坦福大學做博士後。

但五年前的一次回國之旅，改變了牛昕宇的人生規劃。

▲鯤雲科技CEO牛昕宇博士

2015年，牛昕宇回國參加一個技術論壇做演講，演講結束後，有投資人找上門邀請他回國創業。

在陸永青院士的支持下，2016年1月，牛昕宇博士和陸永青院士回國聯合創立AI芯片公司鯤雲科技（Corerain Technologies），公司名取自《逍遙遊》，希望公司有朝一日能“扶搖直上九萬里”，成長為一家擁有自主知識產權、技術領先的AI芯片公司。

▲鯤雲科技首席科學家陸永青院士

牛昕宇博士任鯤雲科技CEO，陸永青院士則在鯤雲任首席科學家。

除了這二位創始人外，鯤雲早期團隊的絕大多數成員均來自帝國理工學院，例如鯤雲的另一位聯合創始人CTO蔡權雄是帝國理工學院的博士後。

創立之初，鯤雲科技已經意識到AI芯片與算法、應用密切聯繫，決定提供垂直領域的全套硬件解決方案，既基於自研AI芯片提供一體化計算平台設備，也提供與CAISA芯片配套的領域落地解決方案，大幅降低鯤雲計算平台落地門檻與使用難度。

儘管成立時間只有短短四年，鯤雲在商業落地方面已屢有成果。其明星產品“星空”加速卡已在航天航空、衞星遙感、電力、教育、工業檢測、智慧城市等多個領域落地。

去年6月，鯤雲科技成為英特爾全球旗艦FPGA合作伙伴，並與浪潮信息達成元腦計劃戰略合作，在AI計算加速方面開展深入合作。

出於培養人才的考慮，鯤雲還於2018年創立人工智能創新應用研究院。

除與英特爾合作進行人工智能課程培訓外，鯤雲人工智能創新應用研究院和帝國理工學院、哈爾濱工業大學、北京航空航天大學、天津大學等國內外高校成立了聯合實驗室，在定製計算、AI芯片安全、工業智能等領域開展前沿研究合作。

在這一系列落地產品、解決方案和基礎研究的背後，核心技術基礎即是鯤雲科技自研的定製數據流架構。

基於陸永青院士深耕近三十年的數據流定製計算技術，鯤雲科技自主研發了一種新型AI芯片架構——定製數據流架構（Custom AI Streaming Accelerator，CAISA）。

計算架構在持續演進，每一次計算架構的重大創新都代表一個新的算力時代。

從x86到RISC計算平台，能效比提升10倍以上；從x86到CUDA計算平台，峯值算力又提升10倍有餘……從歷史脈絡來看，新的算力平台需相對上一代主流算力平台在某個指標上高出逾10倍，才能實現實測性能的大幅提升。

在鯤雲看來，下一代有望帶來10倍以上突破的AI芯片指標即是芯片利用率。

鯤雲研發的CAISA架構，通過多引擎並行的計算方式，突破傳統指令集架構的技術限制，能在同等峯值算力條件下，在芯片利用率指標上實現10倍的提升。

傳統指令集架構採用馮諾依曼計算方式，通過指令執行次序控制計算順序，並通過分離數據搬運與數據計算提供計算通用性。

▲基於馮諾依曼的典型指令集架構示意圖

在實際架構中，指令集架構中的芯片計算單元在大部分時間都處於閒置狀態，所發揮的性能遠低於芯片峯值算力。

與之不同的是，數據流架構沒有指令集，完全依託於數據流的流動次序控制計算執行次序，消除了因指令控制和數據搬運等因素產生的數據開銷，大幅降低計算單元閒置。

▲指令集架構與數據流架構在數據流動和計算順序上的區別

與其他架構的AI計算平台相似，定製數據流架構同樣面臨三個核心挑戰：

（1）算力性價比：用户單位價格能夠買到的 AI 算力，越高越好，即在保證計算準確率的前提下，實現芯片利用率的持續提升；

（2）架構通用性：架構對於不同 AI 算法的支持，支持的算法越多越好，這與定製數據流架構深度定製的特性相悖；

（3）軟件易用性：AI 算法遷移至新平台的支持程度，越易用，遷移成本越低越好，這可能與定製數據流架構精細底層控制的特性相悖。

鯤雲科技的CAISA架構即通過時鐘精確計算、流水線動態重組、算法端到端自動化部署這三項核心技術，成功破解了上述三大難題。（我們將在下一節更詳細地介紹這三項技術。）

▲CAISA芯片架構圖

當前CAISA架構已經升級到3.0版本。昨日新發布的CAISA芯片搭載了4個CAISA3.0引擎。

該芯片被設計為協加速器，採用28nm工藝，具有超過1.6萬個乘累加單元，峯值性能可達10.9TOPS，已完成全面驗證並已量產。

CAISA芯片通過PCIe Gen3接口與主處理器通信，通過PCIe通道，處理器能以32Gbps的吞吐量將數據傳輸到芯片中；同時有雙DDR4通道，支持大容量設備側本地存儲器，可為每個CAISA引擎提供超過340Gbps的帶寬。

同時，CAISA芯片的温度範圍較寬，-40-125度，包括其他器件都是專門按照工業級的質量、温度、電池要求來設計。

相較上一代架構，CAISA3.0在架構效率、實測性能、算子支持等方面均有明顯提升，支持絕大多數神經網絡模型快速實現檢測、分類和語義分割部署，並在多引擎支持上提供了4倍更高的並行度選擇，架構的可拓展性大大提高。

在AI芯片內，每一個CAISA都可同時處理AI工作負載，進一步提升了CAISA架構的性能，在峯值算力提升6倍的同時，保持了高達95.4%的芯片利用率，實測性能線性提升。

同時，CAISA3.0架構對編譯器RainBuilder更加友好，軟硬件協作進一步優化，在系統級別上提供更好的端到端性能，在提供高算力的同時，可無縫鏈接Caffe、TensorFlow及ONNX等多種主流框架，並支持VGG、ResNet、YOLO等多種算法模型。

▲CAISA 3.0架構圖

具體來説，鯤雲CAISA3.0架構的三大技術突破主要通過以下方式實現：

1、時鐘精確計算：提供最優算力性價比

CAISA3.0架構由數據流來驅動計算過程，無指令操作，可實現時鐘級準確的計算，最大限度的減少硬件計算資源的空閒時間。

在保持計算正確前提下，CAISA3.0架構通過數據計算與數據流動的重疊，壓縮計算資源的每一個空閒時鐘，推高芯片實測性能以接近芯片物理極限，讓芯片內的每個時鐘、每個計算單元都在執行有效計算。

▲數據流動與數據計算重疊示意圖

該架構通過算力資源的動態平衡，消除流水線的性能瓶頸；通過數據流的時空映射，最大化複用芯片內的數據流帶寬，減少對外部存儲帶寬的需求。

上述設計使CNN算法的計算數據在CAISA3.0內可以實現不間斷的持續運算，最高可實現95.4%的芯片利用率；在同等峯值算力條件下，實測算力可超出同類GPU的3倍以上的實測算力，從而為用户提供更高的算力性價比。

2、流水線動態重組：高架構通用性

CAISA3.0架構通過流水線動態重組，實現對不同深度學習算法的高性能支持。

通過CAISA架構層的數據流引擎、全局數據流網、全局數據流緩存，以及數據流引擎內部的人工智能算子模塊、局部數據流網、局部數據流緩存的分層設計，在數據流配置器控制下，CAISA架構中的數據流連接關係和運行狀態都可以被自動化動態配置，從而生成面向不同AI算法的高性能定製化流水線。

在每個CAISA流水線中，不同數據流模塊所提供的計算吞吐率不同。為進一步提升芯片利用率，CAISA架構支持不同數據流模塊間以串行和並行的方式互聯，以平衡不同模塊的吞吐率差異，實現流水線性能的最大化。

因此，CAISA3.0架構能在保證運行每個算法能實現高芯片利用率的同時，通用支持如目標檢測、分類及語義分割等所有主流CNN算法。

3、算法端到端自動化部署：高軟件易用性

軟件易用性也是AI計算平台的核心性能之一。以基於CAISA3.0架構的單顆CAISA芯片為例，其中包含了接近2萬個數據流計算模塊。

而要在CAISA芯片內部高效支持一個AI算法運算，需要準確配置2萬個數據庫模塊、所有數據流網絡以及數據流緩存的時鐘級精確運行狀態。假若沒有有效的軟件支持，CAISA架構將非常難用。

對此，鯤雲科技打造了專為CAISA定製的軟件工具——RainBuilder自動編譯工具鏈，可實現算法端到端的推理模型自動部署。

▲RainBuilder編譯工具鏈

RainBuilder編譯器可自動提取主流AI開發框架中開發的深度學習算法的網絡結構和參數信息，並面向CAISA架構進行優化；運行時和驅動模塊負責硬件管理併為用户提供標準的API接口，運行時可實現算法向CAISA架構的自動化映射，同時提供可以被高級語言直接調用的API接口；最底層的驅動可以實現對用户透明的硬件控制。

藉助RainBuilder工具，用户無需底層數據流架構背景支持，簡單兩步，幾行指令，即可實現快速且低成本的算法遷移和部署，有效降低使用門檻。

在發佈最新CAISA芯片的同時，鯤雲科技也發佈了基於CAISA芯片的星空系列邊緣和數據中心計算平台——X3加速卡和X9加速卡。

不僅如此，鯤雲科技還現場一併公佈了由中國人工智能產業發展聯盟（AIIA）測試的包括ResNet-50、YOLO v3等在內的主流深度學習網絡的實測性能。此舉在國內AI芯片發佈會中相當少見。

星空X3加速卡是搭載單顆CAISA芯片的數據流架構深度學習推斷計算平台，為工業級半高半長單槽規格的PCIe板卡，已在智慧城市、智慧製造、安監生產、軌道交通、智能遙感領域均有落地。

得益於其輕量化的規格特點，X3加速卡可與不同類型的計算機設備進行適配，包括PC、工業計算機、網絡視頻錄像機、工作站、服務器等，滿足邊緣和高性能場景中的AI計算需求。

本次公佈的benchmark網絡涵蓋了分類、檢測和語義分割等深度學習領域三個主要的應用類型。Benchmark顯示，所有在星空X3上測試運行的網絡均可達65%以上的實測芯片利用率。

相較於英偉達邊緣端旗艦產品Xavier，星空X3可實現1.48-4.12倍的實測性能提升。

星空X9加速卡為搭載4顆CAISA芯片的深度學習推斷板卡，峯值性能43.6TOPS，主要滿足高性能場景下的AI計算需求。

與英偉達AI推理旗艦產品T4相比，星空X9在ResNet-50、YOLO v3等模型上的芯片利用率提升2.84-11.64倍。

在實測性能方面，星空X9在ResNet50可達5240FPS，與T4性能接近，在YOLO v3、UNet Industrial等檢測分割網絡，實測性能相較T4有1.83-3.91倍性能提升。

在達到最優實測性能下，星空X9處理延時相比於T4降低1.83-32倍。

目前星空X3加速卡已量產，星空X9加速卡將於今年8月上市。

會後，鯤雲科技創始人兼CEO牛昕宇博士、鯤雲科技合夥人兼COO王少軍博士、鯤雲科技合夥人兼CTO蔡權雄博士、鯤雲科技合夥人兼研發總監熊超博士等高管向媒體談到更多芯片背後的細節。

▲從左到右依次為鯤雲科技COO王少軍博士、CEO牛昕宇博士、CTO蔡權雄博士、研發總監熊超博士

相較其他從事數據流AI芯片技術路線的公司，如Wave Computing和Groq等，蔡權雄博士認為：“鯤雲是真正可以商業的第一家。”

蔡權雄博士説，鯤雲的團隊已在數據流領域積累了三十年，趟過了很多坑，在工程上有很多很辛苦的突破，箇中辛苦遠沒有PPT上寫得這麼好看。“我們做了很多底層很累的工作，這些工作才是整個芯片能真正流片成功、真正商業化、落地化的基石。”

此前CAISA 1.0、2.0架構均部署在FPGA上，這是因為鯤雲一方面需要快速將產品推向市場並得到用户的反饋，另一方面在沒有確定有大量商業訂單的情況下以更低的成本讓產品快速滿足客户需求。

“當你的需求量到達一定量級時，一定會從FPGA切換成ASIC, 這是芯片實現方式的區別。”牛昕宇博士説，“ASIC相對於FPGA可以提高更高的峯值算力、更低的功耗、更低的成本。這樣它本身的性能就會得到大幅提升。”

在他看來，如果希望國內有AI芯片企業能夠引領AI行業的發展，那一定依靠的是它能給所有AI從業者創造真真正正的價值。

牛昕宇博士強調：“這個價值，從買每一顆鯤雲的芯片，都能夠幫用户省錢，都能夠在每一個領域場景中提供更好的性能、更低的延時、更好的落地效果來落地。”

由於CAISA芯片主要針對int8精度做AI推理運算，相比FP32會有一定精度損失。

對此，牛昕宇博士介紹道，int8精度影響很小，鯤雲CAISA的精度損失與TensorRT的精度損失基本一致，鯤雲後續還會提供再訓練的方式，將精度進一步補回來。

另外他也提到，因為公司發展處於初期階段，現階段會專注於AI推理芯片。

熊超博士補充説，基於現有測試，int8計算的精度損失維持在0.5%內，通過量化再訓練過程，在絕大多數的模型中可做到將精度完全恢復，和原始FP32的結果誤差非常小，各大AI芯片廠商均在往int8量化方向上走。

如今AI模型越變越大，更適宜CAISA芯片發揮更高的實測算力。

“可以看到，對於同類的網絡，比如ResNet50和ResNet152，ResNet152的芯片利用率是更高的，達到95.4%，”牛昕宇博士解釋説，“這是由於數據流的特性所決定：越大的網絡，流水線越深，所能發揮的實測算力越大。”

在落地方面，據王少軍博士透露，鯤雲的X3加速卡已在一些大客户內部做了實測，總體反饋非常好，算力性價比、芯片利用率、低延時效果、對算子支持、軟件易用性等指標的提升均已得到驗證。

從市場推廣角度來説，王少軍博士提到，鯤雲不僅與艾睿、駿龍、神馬、WPI等代理商保持着良好的合作關係，而且自己的AE團隊和售後團隊均在持續成長。由於鯤雲更多的市場面向國內，對客户可提供更好的本地化支持。

“商業上，我們會一個領域一個領域做，跟更多合作伙伴推進落地。”牛昕宇博士説，“我們瞭解這些領域落地的需求，根據這些做出更多產品，來滿足客户的要求。這是我們長期迭代的商用方向。”

圖靈獎得主、計算機體系結構宗師David Patterson與John Hennessy曾於去年預告，未來十年將是計算機體系架構的黃金十年。

新的架構優化和提升正如雨後春筍般不斷湧現，通過軟件與硬件的結合，我們看到算力還在持續的增長甚至革新。

對於芯片研發者而言，AI的蓬勃發展無疑創造了一個新的絕佳創新和創業時期，是以過去數年間，國內外湧現出一大批AI芯片創業公司，紛紛探索不同技術路徑來滿足各類AI算法和應用場景對算力的需求。

但面對巨頭及同類初創公司的競爭，AI芯片創企們也承受着着巨大的生存壓力，如何以成熟高效且高性價比的產品組合贏得客户的信任，是每個芯片創企都要做的功課。

從實測性能以及處理延時的領先數據來看，鯤雲首款基於自研數據流架構的CAISA芯片表現令人驚喜，從實際落地的性能需求出發，為AI芯片的發展提供了一條新的技術路線。

與此同時，伴隨AI芯片投資熱潮的消減，單憑創新的想法很難吸引到大量的資本，有能力落地和盈利的AI芯片公司才有望長久地生存下去，鯤雲科技看起來正是其中之一。