軟件吞噬硬件的AI時代，芯片跟不上算法進化可咋辦？

2021-02-22由習國防發佈於科技

作為 AI 時代的幕後英雄，芯片業正經歷着漸進而持續的變化。

2008 年之後，深度學習算法逐漸興起，各種神經網絡滲透到手機、App 和物聯網中。與此同時，摩爾定律卻逐漸放緩。摩爾定律雖然叫定律，但它不是物理定律或者自然定律，而是對半導體行業發展的一個觀察或者説預測，其內容為：單個芯片集成度（集成電路中晶體管的密度）每兩年（也有 18 個月的説法）翻倍，由此帶來性能每兩年提高一倍。

保證摩爾定律的前提，是芯片製程工藝進步。經常能在新聞上看到的 28nm、14nm、7nm、5nm，指的就是製程工藝，數字越小工藝越先進。隨着製程工藝的演進，特別是進入 10nm 之後，逐漸逼近物理極限，難度越發加大，芯片全流程設計成本大幅增加，每一代較上一代至少增加 30%~50%。

這就導致，AI 對算力需求的增長速度，遠超通用處理器算力的增長速度。據 OpenAI 測算，從 2012 年開始，全球 AI 所用的計算量呈現指數增長，平均每 3.4 個月便會翻一倍，而通用處理器算力每 18 個月至兩年才翻一倍。

當通用處理器算力跟不上 AI 算法的發展，針對 AI 計算的專用處理器便誕生了，也就是常説的“AI 芯片”。目前，AI 芯片的技術內涵正極大豐富着。從架構創新到先進封裝，再到模擬人腦，都影響着 AI 芯片的走向。而這些變化的背後，都有着一個共同的主題：以更低功耗，產生更高性能。

更靈活

2017 年的圖靈獎，頒給了計算機架構兩位先驅 David Petterson 和 John Hennessy。2018 年在進行圖靈獎演講時，他們將主題聚焦於架構創新，指出計算體系結構正迎來新的黃金十年。正如他們所判斷的，AI 芯片不斷出現新的架構，比如來自英國 Graphcore 的 IPU——一種迥異於 CPU 和 GPU 的 AI 專用智能處理器，已經逐漸被業界認可，並且 Graphcore 也獲得了微軟和三星的戰略資本支持。

而當下，一種名為 CGRA 的架構，在學界和工業界正受到越來越多的關注。CGRA 全稱 Coarse Grained Reconfigurable Array（粗顆粒可重構陣列），是“可重構計算”理念的落地產物。

據《可重構計算: 軟件可定義的計算引擎》一文介紹，這個理念最早出現在 20 世紀 60 年代，由加州大學洛杉磯分校的 Estrin 提出。由於過於超前，直到 40 年以後才獲得系統性的研究。加州大學伯克利分校的 DeHon 等將可重構計算定義為具有以下特徵的體系結構：在其製造後，芯片功能仍然可以定製，形成加速特定任務的硬件功能；計算功能的實現，主要依靠任務到芯片的空間映射。

簡言之，可重構芯片強調靈活性，在製造出來後仍可通過編程調整，適應新算法。與之形成高度對比的，是 ASIC（application-specific integrated circuit，專用集成電路）。ASIC 芯片雖然性能高，但卻缺乏靈活性，往往是針對單一應用或算法設計，難以匹配新算法。

2017 年，美國國防部高級研究計劃局（Defence Advanced Research Projects Agency，即 DARPA）提出了電子產業復興計劃（Electronics Resurgence Initiative，簡稱 ERI）。該計劃其中一個任務就是“軟件定義芯片”，打造接近 ASIC 性能、同時不犧牲靈活性的芯片。

按照進行重構時的粒度區別，可重構芯片可分為 CGRA 和 FPGA（field-programmable gate array，現場可編程邏輯門陣列）。FPGA 在工業界已經有一定規模應用，比如微軟將 FPGA 芯片帶入大型數據中心，用於加速 Bing 搜索引擎，驗證了 FPGA 靈活性和算法可更新性。但 FPGA 有其侷限性，不僅能效和 ASIC 仍有較大差距，而且重編程門檻比較高。

而 CGRA 由於實現原理上的差異，比 FPGA 能實現更加底層的重新編程，在面積效率、能量效率和重構時間上，都更有優勢。可以説，CGRA 同時集成了通用處理器的靈活性和 ASIC 的高性能。

隨着 AI 計算逐漸從雲端下沉到邊緣端和 IoT 設備，不僅算法多樣性日益增強，芯片更加碎片化，而且保證低功耗的同時，也要求高性能。在這種場景下，高能效高靈活性的 CGRA 大有用武之地。

由於在結構上不統一、編程和編譯工具不成熟、易用性上不夠友好，CGRA 未被業界廣泛使用，但已經可以看到一些嘗試。早在 2016 年，英特爾便將 CGRA 納入其至強處理器。三星也曾嘗試將 CGRA 集成在 8K 高清電視和 Exynos 芯片中。

在中國本土，一家名為“清微智能”的公司，於 2019 年 6 月量產了全球首款 CGRA 語音芯片 TX210，同年 9 月又發佈了全球首款 CGRA 多模態芯片 TX510。這家公司脱胎於清華大學魏少軍教授牽頭的可重構計算研究團隊，他們從 2006 年起就進行相關研究。據芯東西 2020 年 11 月報道，語音芯片 TX210 已經出貨數百萬顆，而多模態芯片 TX510 在 11 月也已經出貨十萬顆以上，主要客户為智能門鎖、安防和人臉支付相關廠商。

先進封裝上位

如開篇所提到，由於製程工藝逼近物理極限，摩爾定律逐漸放緩。與此同時，AI 算法的進步，使其對算力需求增長迅猛，逼迫芯片行業在先進工藝之外探索新的方向，其中之一便是先進封裝。

“在大數據和認知計算時代，先進的封裝技術正在發揮比以往更大的作用。AI 的發展對高能效，高吞吐量互連的需求，正在通過先進的封裝技術的加速發展來滿足。”世界第三大晶圓代工廠格羅方德平台首席技術專家 John Pellerin 曾在一份聲明中表示。

先進封裝是相對於傳統封裝而言。封裝是芯片製造的最後一步：將製作好的芯片器件放入外殼中，並與外界器件相連。傳統封裝的封裝效率低，存在很大改良空間，而先進封裝技術發力於提高集成密度。

先進封裝裏有很多技術分支，其中 Chiplet（小芯片/芯粒）是最近兩年的大熱門。所謂“小芯片”，是相對傳統芯片製造方法而言。傳統芯片製造方法，是在同一塊硅片上，用同一種工藝製程去打造一塊芯片。而 Chiplet 思路是將一塊完整芯片的複雜功能進行分解，把存儲、計算和信號處理等功能模塊化成裸芯片（Die）。這些裸芯片可以用不同工藝製程製造，甚至可以是不同公司提供的。通過互聯接口將它們相連接後，就形成一個 Chiplet 的芯片網絡。

據壁仞科技研究院唐杉分析，Chiplet 歷史更久且更準確的技術詞彙應該是異構集成（Heterogeneous Integration）。總的來説，這個技術趨勢是比較清晰明確的，而且第一階段的 Chiplet 形態在技術上已經比較成熟，除了成本比較高，在很多高端芯片上已經使用。

比如，HBM 存儲器成為 Chiplet 技術早期成功應用的典型代表。AMD 在 Zen2 架構芯片上使用了 chiplet 思路，CPU 用的是 7nm 工藝，I／0 則使用的是 14nm 工藝，與完全由 7nm 打造的芯片相比成本大約降低了 50％。英特爾也推出了基於 Chiplet 技術的 Agilex FPGA 家族產品。

不過，Chiplet 技術仍面臨諸多挑戰，最重要之一是互連接口標準。互連接口重要嗎？如果是在大公司內部，比如英特爾或 AMD，有專用協議和封閉系統，在不同裸芯片間連接問題不大。但在不同公司和系統之間進行互連，同時保證高帶寬、低延遲和每比特低功耗，互連接口就非常重要了。

2017 年，DARPA推出了 CHIPS 戰略計劃（通用異構集成和 IP 重用戰略），試圖打造一個開放的連接協議。但 DARPA 項目的一個短板是，側重於國防相關項目，芯片數量不大，與真正的商用場景有差距。因此，芯片行業裏一些公司成立了行業組織“ODSA（開放領域特定架構）工作組”，通過制定開放的互連接口，為 Chiplet 的發展掃清障礙。

另闢蹊徑

除了在現有框架內做架構和製造上的創新，還有研究人員試圖跳出計算機現行的馮·諾依曼架構，開發真正模擬人腦的計算模式。

在馮·諾依曼架構中，數據計算和存儲是分開進行的。而內存存取速度往往嚴重滯後於處理器的計算速度，造成“內存牆”問題。並且，傳統計算機需要通過總線，連續地在處理器和存儲器之間進行刷新，這就導致芯片的大部分功耗都消耗在讀寫數據上，而不是算術邏輯單元，又衍生出“功耗牆”問題。人腦則沒有“內存牆”和“功耗牆”問題，它對信息的處理和存儲是一體的，計算和記憶可以同時進行。

另外一方面，當前推動 AI 發展的深度神經網絡，雖然名字裏有“神經網絡”四個字，但實際上跟人腦神經網絡的運作機制相差甚遠。1000 億個神經元，通過 100 萬億個突觸並行連接，使得人腦能以非常低的功耗（約 20 瓦），進行同步記憶、演算、推理和計算。相比之下，當前的深度神經網絡，不僅需要大規模數據進行訓練，在運行時還消耗極大的能量。

因此，如何讓 AI 像人腦一樣工作，一直是學界和業界積極探索的課題。1980 年代後期，加州理工學院教授卡弗·米德（Carver Mead）提出了神經形態工程學的概念。經過多年發展，業界和學界對神經形態芯片的摸索逐漸成形。

軟件方面，被稱為第三代人工神經網絡的“脈衝神經網絡”（Spike Neural Network，簡稱 SNN）應運而生。這種網絡以脈衝信號為載體，更接近人腦的運作方式。硬件方面，大型機構和公司研發相應的脈衝神經網絡處理器。

事實上，早在 2008 年，DARPA 就發起了一個計劃——神經形態自適應塑料可擴展電子系統（Systems of Neuromorphic Adaptive Plastic Scalable Electronics，簡稱 SyNAPSE，正好是“突觸”之意），希望開發出低功耗的電子神經形態計算機。

IBM Research 成為了 SyNAPSE 項目的合作方之一。2014 年，他們發表論文展示了最新成果——TrueNorth。這個類腦計算芯片擁有 100 萬個神經元，能以每秒 30 幀的速度輸入 400 × 240 像素的視頻，功耗僅 63 毫瓦，相比馮·諾依曼架構的計算機有質的飛躍。

英特爾在 2017 年展示了一款名為 Loihi 的神經形態芯片，包含超過 20 億個晶體管、13 萬個人工神經元和 1.3 億個突觸，比一般訓練系統所需的通用計算效率高 1000 倍。2020 年 3 月，研究人員甚至在 Loihi 上實現了嗅覺識別。這一成果可應用於診斷疾病、檢測武器和爆炸物以及及時發現麻醉劑、煙霧和一氧化碳氣味等場景。

在中國本土，清華大學類腦計算研究中心的施路平教授團隊，開發了一款面向人工通用智能的“天機”芯片，同時支持脈衝神經網絡和深度神經網絡。2019 年 8 月 1 日，天機成為中國第一款登上《Nature》雜誌封面的芯片。

儘管已經有零星研究成果，但總的來説，脈衝神經網絡和處理器仍是研究領域的一個方向，而沒有在工業界大規模應用，主要是因為基礎算法上還沒有關鍵性的突破，達不到業界應用的精度，而且實現成本比較高。