作者:宇多田
出品:虎嗅科技組
封面來自谷歌
穿著黑色羽絨馬甲,頂著一頭凌亂的白髮。在今年英偉達最重要的產品釋出會上,略顯不修邊幅的老黃,終於從烤箱裡端出了一塊讓人期待太久,但卻又讓顯示卡迷們措手不及的GPU產品。
讓人興奮的,是傳聞已兩年有餘的新架構Ampere ,姍姍來遲的7nm製程,以及實現了大飛躍的效能。對英偉達來說,這是一個有著跨時代意義的產品。
但它的目標使用者,卻並非是一手把英偉達捧上神壇的遊戲玩家。
推出這塊被黃仁勳自嘲是“史上最大顯示卡”的目的,或許是如今讓英偉達在華爾街受到眾星捧月般待遇的一個新理由:
新興企業級市場——資料中心的巨大商業前景,亟待英偉達的顯示卡來挖掘。
因此,你暫時只會在微軟、阿里、騰訊等雲服務商的資料中心,或是知名高校的大型實驗室裡,看到老黃端出來的那盤嵌著8塊A100 GPU的DGX™ A100 伺服器系統。
而單個系統價格,就高達20萬美元。
這也可以解釋,為何基於Ampere新架構的A100一發布,大部分消費級晶片評測網站的“表情”頗為複雜:雖然A100很強大,但跟我們好像沒什麼關係。
然而,站在英偉達投資者與股價的角度來看,這個產品是一個讓人非常滿意的結果。
在2020年3月釋出的英偉達2020年Q1財報中,資料中心業務為公司整體收入貢獻了近1/3。
某種程度上,這是第一次用確鑿的財務數字,印證了企業級GPU產品在這個B端市場擁有巨大的收益增長空間。
因此,“資料中心”也被越來越多的分析師認定為下一個蘊藏著巨大商業潛力的藍海市場。
有意思的是,早在2個月前,一向對晶片產品本身不會做過多評價的財經媒體彭博,在若干分析師紛紛上調了對英偉達的股價目標後,主動向外界表達了自己對英偉達釋出新產品的期待:
“英偉達基於Ampere架構的新一代GPU,可能是其2016年以來最有前途的一款晶片。這款晶片或許會帶來一系列令人驚喜的收益。”
此外,就在新產品釋出前一天,也就是5月13日,英偉達股價上漲2.6%。證券公司Wedbush 分析師順勢調高股價目標,並發表如下言論:
“資料中心市場走勢如此被外界看好,而在這一領域具備絕對地位的英偉達,可能在新品釋出後會迎來更大的市值增長空間。”
我們曾經在《幹掉英偉達?》一文中,詳細解答了為何資料中心會成為一個蘊含著巨大商業價值的市場。
而諸如老對手英特爾與AMD、伺服器廠商以及各大雲服務巨頭,都在資料中心裡嗅到了技術變革的味道,瘋狂尋找新的商業機會。
英偉達,無疑是其中不可忽視的新技術掌舵者之一。
到這裡,你應該能清楚,為何英偉達會把一個最新的架構,首先用在了一塊企業級晶片裡。
一統雲服務巨頭“後院”
這次的A100,是英偉達的伺服器級GPU產品 V100的繼任者。
後者在2017年一經推出,就在兩年內獲得了巨大成功,直接打入了包括亞馬遜、微軟、阿里以及騰訊等雲服務巨頭的資料中心核心地帶,成為各家GPU計算服務團隊不可缺少的晶片產品。
至於為何在這個市場一路暢通無阻。一方面,是GPU的並行運算結構對訓練機器學習和深度學習模型有著天然優勢。
雲服務商早已集體預設,與人工智慧相關的任務,從資料處理效率、功耗等多方面考慮,使用GPU進行模型訓練是最好的選擇之一。
無論是阿里還是騰訊雲,與GPU相關的產品頁面,基本都涵蓋了像英偉達V100與T4等熱門型號的企業級GPU產品。
一位阿里工程師告訴虎嗅,目前幾乎所有的感知類深度學習任務,都需要用到大規模深度學習,必須基於多機多卡進行模型訓練。
圖片截自阿里雲
而A100,據英偉達聲稱其在人工智慧推理和訓練方面比 V100要快近20倍。對此,自動駕駛公司文遠之行技術總監鍾華給出了更加細節化的解釋:
實際上,人工智慧開發者最關心的是FP16(單精度浮點數)與int8(用8bit的記憶體,儲存一個整數資料;類似於資料型別,常用於推理模型)這兩個重要引數。從兩者的資料來看,其計算力相比V100提高了兩倍不止。
此外,他還指出,在記憶體頻寬這個指標上,A100比V100提升了40%以上,這意味在高速模型的訓練上面是非常有幫助的,特別是自動駕駛所需要的實時訓練模型。
圖片來自硬體評測媒體Tom’s hardware
而在許多GPU產品客戶與愛好者所關心的工藝製程方面,過去1年裡黃仁勳在多個場合被質問的“何時會縮短製程”這個問題,終於有了一個讓人滿意的答案。
讓我們反向來看製程這個問題。
根據英偉達給出的這塊A100尺寸來看,相當於製造者在一塊826平方毫米的模具上塞進了540億個電晶體;而V100則是在一塊大約815平方毫米的模具上裝有211億個電晶體。
電晶體數量增長了2.5倍,但尺寸卻僅大了1.3%。這代表差不多的身體,卻裝了雙倍能量。
沒錯,這正是得益於晶片代工巨頭臺積電從12nm製程到7nm製程的技術升級。
“這在很大程度上讓英偉達的顯示卡迷們鬆了一口氣。畢竟兩年前,英偉達在消費級市場的老對手AMD就推出了7nm GPU,而英偉達遲到了近2年。不過鑑於後者在2B商用領域的領先地位,這個時間點並不算晚。”
一位晶片從業者認為,英偉達最近預定臺積電的5nm訂單,也在一定程度上有了趕超對手製程的“進取心”。
尺寸與製程,這尺寸的確大,的確是迄今為止最大的顯示卡
不過,雖然晶片測評專家們都發表了對英這塊英偉達“新炸彈”的專業看法。但遺憾的是,或許是由於英偉達在遊戲行業裡擁有太大的影響力,以至於沒有太多人關注這塊企業級晶片為雲端應用技術做了哪些微妙的調整。
剛才我們提到,在資料中心的環境下,執行大規模線上機器學習任務,需要多機多卡同時執行,參見很多國內外大學成立的超級計算專案,以及全國上億人可能在同時使用的各種平臺(淘寶、百度、抖音等等)的智慧化搜尋與個性化推薦。
因此,如何有效分配這些“多機多卡”的算力,是雲計算工程師們特有的關注點:
“你會發現,A100新增了一個叫MIG的功能。根據描述,這個功能允許在單個A100上做資源隔離,能最多分割為7個獨立GPU。”
正在研發基於異構計算架構資料處理平臺的開源技術創業公司Zilliz合夥人、高階架構師顧鈞,首先注意到了這個面向雲端應用的新功能。
“這可以看作是一種讓更多人分享GPU能力的方式。換句話說,每個人分到的GPU資源都是互相隔離的,不會發生互相干擾,搶佔算力的情況,同時也能讓GPU的投資回報率達到最大化。
我估計這也是為雲端容器化提供便利。”
雲端容器化,是當前最為主流的雲計算技術之一。
簡單來說,用這項技術就是為了降低算力成本,將每個可能會互相爭搶算力資源的雲端任務,隔離在一個個孤立的“瓶子”裡,做到互不打擾。
同時,又能根據任務的更迭,對其所需要的資源進行靈活的資源排程。
“舉個例子,一塊CPU假定有24個核(48執行緒),在容器化後,是可以把一個CPU的某個部分,譬如4個核8執行緒分配給一個容器。但之前GPU是沒辦法這麼切分的。”顧鈞解釋。
因此,很多院校和企業此前大多在利用英偉達提供的vGPU虛擬化技術來“切分”GPU,分著給大家用,主要目的就是為了提高使用效率,降低計算成本。
譬如,VMware 中國研發先進技術中心的技術總監張海寧曾給給一所大學設計過vGPU切換方案:
白天學生做開發練習的簡單任務,就切成4塊,讓4個人一起使用GPU;到了晚上專案要做模型訓練,算力需求加大,就切換回1:1,確保100%算力。
當然,需要購買成千上萬塊企業級GPU的大型雲服務商,會更加“吝嗇”。用阿里工程師的一句玩笑話就是:“V100這麼貴,當然要仔細琢磨怎麼切得最划算,同時還能讓利用率最大化。”
但也有人指出,這種GPU虛擬化技術對效能有一定的損耗,同時也會讓機器啟動速度變慢。而容器技術則會在一定程度上避免這些問題。
因此,讓企業級GPU的設計對雲端容器化更加“友好”,或許是一種產業裡樂見其成的趨勢。
根據調研機構Grand View Research在2019年12月釋出的一份報告顯示,到2025年,全球雲端容器應用市場規模有望達到82億美元,年增長率約為26.5% 。
而與此相呼應的一個論點,是硬體虛擬化(虛擬機器)將會逐漸被容器技術所取代。
如此來看,英偉達的確在加大對自己的新搖錢樹——企業級使用者的“關懷”。
不必非要英偉達?
實際上,早在A100正式釋出前,基本所有Top級雲服務商都拿到了價值20萬美元的新GPU系統(單個包含8塊A100)。
當然,即便拿的是折扣價,也有工程師也暗暗吐槽說,“真貴,V100就很貴了,A100就更別提了。”
參見在海外新聞社群Reddit上,曾有人曬出自己嵌著8塊V100的基板,立馬被網友群起而攻之,炮轟為“可恥曬富行為”的行業趣聞。我們就能夠感受到,雲服務廠商為了大規模深度學習訓練而採購成千上萬塊企業級GPU的財務壓力有多大。
Reddit上有人用8塊V100來“炫富”
昂貴,是所有英偉達客戶難得給出的統一觀點。
有技術專家向虎嗅指出,英偉達的企業級晶片,仍然算是走“高階路線”的小眾玩家。
譬如釋出的最高效能的晶片都是先“特供”給一些擁有大規模人工智慧訓練專案的高校實驗室,或者是做高級別自動駕駛的創業公司。單價高昂,但採購規模有限。
這又在一定程度上證明,谷歌、亞馬遜、微軟、阿里等雲服務商自研雲端AI訓練或推理晶片是大勢所趨的;但目前來看,自研產品發揮的作用還是有限的。
不過這至少意味著,儘管英偉達地位穩固,但跌下神壇並非不可想象。
“其實不僅僅是成本層面,隨著深度學習和音影片轉碼的場景越來越複雜,單純的GPU雲伺服器機型可能並不能滿足所有需求。
所以現在大多雲服務廠商都推出了基於FPGA、NPU等晶片的不同伺服器機型。還有一些針對雲遊戲、推理等場景的輕量級vGPU。” 一位半導體行業人士認為,隨著很多其他晶片巨頭陸續推出不同的方案,英偉達並非是唯一的選擇。
此外,他認為雖然理論上,GPU卡越多,整體算力越大。但是隨著伺服器數量的增加,不同機器的GPU之間配合難度也會越來越大,單張GPU卡的利用率反而會下降。
“所以說,增加了幾十倍的卡成本,但效能卻很難隨之線性增長。”
然而,英偉達的聰明之處,或許就在於“小”到在一塊晶片上順應主流技術趨勢,“大”到也在試圖讓孤立於不同伺服器內的GPU卡之間產生更好的叢集效應。
沒錯,在歷時1年擊敗英特爾、賽靈思等強大競爭對手,最終完成對Mellanox的收購後,這家網路技術隱形巨頭正式成了英偉達在資料中心市場的第二條“護城河”。
如同上面所說,處理海量資料和資料遷移所需的計算能力必須非常強大。而顯而易見的問題是,這些資料通常儲存在伺服器無法立即訪問的儲存空間中。
如果網路不能有效利用這些資料,讓資料之間產生流動,那麼世界上所有的計算能力就不再重要了。
因此,利用Mellanox最擅長的通訊技術,理論上,便能夠將資料中心數萬個計算節點上的GPU連線起來,匯聚成更加龐大的算力。
很顯然,面對正在全球不斷擴建,數量正在急劇增長的資料中心,這無疑是英偉達一個非常重要的競爭優勢。
圖片來自谷歌
騰訊雲資源管理總監阮夢在前幾天的一場小型資料中心交流會曾指出,從2019年資料中心建設的走向來看,雖然相比北美超大型資料中心,我國在這個領域還有很多不足,但國內超大型資料中心的建設已悄然提速。
“隨著資料中心建設速度加快,我們伺服器量級會從100萬臺,往200萬-400萬這種級別去發展。
所以一方面伺服器採購投入會持續加大,另一方面,伺服器之間非常需要好的網路質量和網路互聯。”
必要的硬體與軟體升級,當然就需要採用更適合複雜雲上任務訓練的企業級AI晶片,以及更加靈活和多樣化的伺服器結構。
“就目前來看,在通用型伺服器中,GPU的使用佔比還非常小,合適的任務還沒有那麼多。但GPU部署的增速是非常快的。”
不過騰訊雲技術中心資深技術專家李典林也指出,對於資料中心建設者來說,考慮的絕不僅僅是伺服器等硬體成本問題。
“譬如一線城市周邊合適的建設地點就相對緊缺,但一些偏遠地區的網路條件就沒有那麼好。
而且GPU模組的功耗比普通伺服器晶片要大很多,所以要進行特殊的機房設計與網路設定,那電力方面是不是要爭取更多的優惠……
但從整體來看,這是一個不可忽視的資料中心變革趨勢。”
而國家對新基建的推動浪潮,似乎又在進一步催化這個趨勢。
因此,不知隨著英偉達Ampere企業級GPU的釋出與量產,以及阿里等雲計算巨頭們雲端晶片在2020年商用速度的進一步加快,會不會給中國雲計算基礎設施市場帶來新一輪洗牌。
我是虎嗅科技組組長的傅博,關注自動駕駛、AI晶片以及工業網際網路,歡迎行業人士加微信探討相關技術趨勢與行業趨勢。(微信:fudabo001,請備註單位)
正在改變與想要改變世界的人,都在 虎嗅APP