半導體是數字時代的一項基礎技術。美國矽谷的名字正是源自於此。過去半個世紀以來,計算技術的革命改變著社會的方方面面,而半導體技術正是這場革命的核心。
自英特爾1971年推出全球第一個微處理器以來,計算能力一直以令人驚歎的步伐發展演進著。根據摩爾定律,當前的計算機晶片比50年前的晶片在功能上強大數百萬倍。
儘管數十年來處理能力飛速增長,但直到現在,計算機晶片的基本體系結構仍然沒有太大改變。很大程度上說,晶片的創新,需要進一步縮小電晶體的體積,讓積體電路可以容納更多電晶體。數十年來,英特爾和AMD等廠商透過提高CPU效能而取得了長足的發展,被Clayton Christensen視為“持續的創新”。
今天,這種情況正在發生著巨大的變化。人工智慧(AI)引發了半導體創新的“新黃金時代”——機器學習帶來獨特的市場需求和無限的機會,第一次激發了企業家們,去重新思考晶片架構的基本原則。
他們的目標,是設計一種專為AI設計的新型晶片,為下一代計算提供動力,這也是當前所有硬體領域最大的市場機遇之一。
新的計算正規化在計算技術發展的歷史中,主流的晶片架構一直是CPU。如今,CPU無處不在,它為膝上型電腦、移動裝置和大多數資料中心提供動力。
1945年,傳奇人物約翰·馮·諾伊曼(John von Neumann)構思了CPU的基本架構。值得注意的是,此後他的這一設計基本沒有太大變化,今天,大多數計算機仍是基於馮·諾依曼理論的機器。
CPU的靈活性使得它有各種各樣的用途:CPU是通用的,能夠有效執行軟體所需的任何計算。不過儘管CPU的主要優勢是多功能性,然而如今領先的AI技術需要的,是一種非常特殊且密集的計算。
深度學習需要迭代執行數百萬甚至是數十億個相對簡單的乘法和加法步驟。深度學習以線性代數為基礎,在根本上是基於試錯法的:對引數進行調整,對矩陣進行乘法運算,隨著模型自身的不斷最佳化,在整個神經網路中反覆進行數字求和。
這種重複性的、計算量巨大的工作流程,對於硬體體系結構有很重要的要求。「並行化」變得至關重要,「並行」指的是:處理器能夠同時、而不是一個接一個地執行多個計算的能力。與之緊密相關的是,深度學習涉及大量資料的連續轉換,因此讓晶片記憶體和計算核心儘可能靠近資料所在的位置,可以減少資料移動,從而大幅提升速度和效率。
CPU尚不足以支援機器學習的獨特需求。CPU是按順序而非並行地處理計算任務,CPU的計算核心和記憶體通常位於單獨的模組上,透過頻寬受限的通訊系統(匯流排)進行連線。這就造成了資料移動的瓶頸,稱為“馮·諾依曼瓶頸”,導致的結果就是,在CPU上訓練神經網路的效率非常低。
隨著機器學習正在日益普及,傳統晶片已經無法應對現代AI演算法的要求,這一點正變得愈加突出。正如AI專家Yann LeCun最近所說的:“如果你能穿越到未來五年或者十年,看看計算機大部分時間都在做些什麼的話,我認為很可能是機器學習之類的事情。”
這時候,就需要GPU來推動AI的繁榮發展了。GPU架構是由英偉達(Nvidia)在1990年代後期為遊戲應用開發的。當時GPU被專門用於連續處理大量資料,以高幀速率渲染計算機遊戲畫面。與CPU不同的是,GPU可以並行地執行數千個計算任務。
在2010年代初,AI領域開始意識到,Nvidia的遊戲晶片實際上非常適合處理機器學習演算法所需的工作負載,於是,GPU幸運地找到了新的目標市場。Nvidia抓住了這個機遇,將自己定位為“AI硬體市場領先提供商”,結果收穫了驚人的收益——從2013年到2018年,Nvidia的市值增長了20倍。
然而,正如Gartner分析師Mark Hung所說,“大家知道GPU並非針對AI工作負載進行了最佳化。”雖然GPU已經被AI領域廣泛採用,但它並非為AI而生。
近些年來,有一大批企業家和技術人員開始重新構想計算機晶片,從頭開始對其進行最佳化,以釋放AI的無限潛力。Alan Kay的一段話令人難忘:“真正認真對待軟體的人,應該自己製造硬體。”
過去兩年中,有5個晶片獨角獸湧現,很多初創公司的估值令人瞠目結舌。傳統CPU巨頭英特爾為了避免被顛覆,所以進行了兩項重大收購:2016年4月以4.08億美元收購了Nervana Systems,2019年12月以20億美元收購了Habana Labs。未來幾年,這場競賽將繼續進行下去,爭奪這個規模數千億美元的市場。
誰會是下一個英特爾?巨大的市場機會,再加上巨大的技術挑戰,激發了一大批驚人的創意,意圖打造出一款理想的AI晶片。
新一代AI晶片初創企業中,最引人注目之一的是Cerebras Systems公司。簡單地說,大膽的Cerebras開發了有史以來最大的晶片。最近,Cerebras的市值達到了17億美元,已經從Benchmark和Sequoia等頂級投資方那裡獲得了2億美元。
Cerebras晶片的規格令人難以置信,要比典型的微處理器大60倍,是史上第一個可以容納超過1萬億個電晶體(準確地說是1.2萬億個)的晶片。它的片上記憶體為18 GB,也是有史以來最高的。
將所有計算能力打包到單個晶片上,好處是非常誘人的:資料傳輸效率大大提升,記憶體與處理並置,可以做大規模的並行處理;但是,工程上的挑戰也是極大的,幾十年來,製造晶圓級晶片一直是半導體夢寐以求的,但從未實現。
Cerebras執行長Andrew Feldman表示:“每個規則、每個工具和每個製造器件,都是為巧克力曲奇大小的正常尺寸晶片設計的,而我們打造的晶片是曲奇盤子那麼大。因此每個步驟我們都要進行全新設計。”
Cerebras的AI晶片已經投入商用:上週,阿貢國家實驗室(Argonne National Laboratory)宣佈,將使用Cerebras的晶片來對抗新型冠狀病毒。
另外一家採用了全新晶片設計方法的公司,是位於美國灣區的Groq。與Cerebras相比,Groq的晶片專注於推理,而不是模型訓練。Groq的創始團隊擁有世界一流的領域專業知識:作為最早也是迄今為止最成功的AI晶片之一,Google TPU專案的十個原始成員中,有八個人加入了Groq團隊。
Groq顛覆了業界的傳統觀念,正在打造批次為“1”的晶片,也就是說,一次性處理1個樣本。據Groq稱,這種架構幾乎可以實現瞬時推理,而無需犧牲效能,這對於自動駕駛汽車等時間敏感型應用是至關重要的。Groq的晶片主要是軟體定義的,具有獨特的靈活性,是面向未來的。
Groq最近宣佈,它的晶片實現了每秒1萬億次運算的速度。如果這是真的話,將成為有史以來速度最快的單模片晶片。
還有另一家公司,沒有哪家公司比它具有更出色的技術願景了,這就是Lightmatter。Lightmatter是由幾位光子學專家創立的,總部位於美國波士頓。Lightmatter正在打造一種AI微處理器,但不是由電訊號驅動,而是由光束驅動的。目前,Lightmatter已經從GV、Spark Capital和Matrix Partners等投資方那裡籌集了3300萬美元,以實現這一願景。據Lightmatter稱,這種獨特的光技術讓晶片的效能比現有解決方案高10倍。
這個領域還有其他公司值得關注。兩家中國公司——地平線機器人(Horizon Robotics)和寒武紀科技(Cambricon Technologies),分別獲得了更多的融資和更高的市值。
位於美國帕洛阿爾託的SambaNova Systems公司也得到了豐厚的資金,且技術精湛,儘管有關SambaNova的細節仍然很少,但它的技術似乎特別適合自然語言處理。
其他值得注意的初創公司還包括:Graphcore、Wave Computing、Blaize、Mythic和Kneron。
不僅如此,很多科技巨頭也已經開始自主開發專用的AI晶片,例如上述的谷歌TPU。谷歌從2015年開始研發TPU,領先於技術曲線的發展;去年12月,亞馬遜大張旗鼓地公佈了Inferentia AI;與此同時,特斯拉、Facebook和阿里巴巴以及其他科技巨頭也都行動起來了,開始內部研發AI晶片。
總結眼下,一場為即將而來的AI時代開發所需的硬體競爭正在上演。如今,半導體行業的創新之多,是自矽谷創立之初以來從未有過的,巨量資金不斷地投入其中。
未來幾年,下一代晶片將塑造人工智慧領域的雛形和軌跡。用Yann LeCun的話來說:“硬體能力...激勵但卻限制了AI研究人員想象並追求的想法。各種我們可以使用的工具正在不斷重新整理我們的想法,這一點我們不得不承認。”