作者:宇多田
出品:虎嗅科技組
封面來自谷歌
穿着黑色羽絨馬甲,頂着一頭凌亂的白髮。在今年英偉達最重要的產品發佈會上,略顯不修邊幅的老黃,終於從烤箱裏端出了一塊讓人期待太久,但卻又讓顯卡迷們措手不及的GPU產品。
讓人興奮的,是傳聞已兩年有餘的新架構Ampere ,姍姍來遲的7nm製程,以及實現了大飛躍的性能。對英偉達來説,這是一個有着跨時代意義的產品。
但它的目標用户,卻並非是一手把英偉達捧上神壇的遊戲玩家。
推出這塊被黃仁勳自嘲是“史上最大顯卡”的目的,或許是如今讓英偉達在華爾街受到眾星捧月般待遇的一個新理由:
新興企業級市場——數據中心的巨大商業前景,亟待英偉達的顯卡來挖掘。
因此,你暫時只會在微軟、阿里、騰訊等雲服務商的數據中心,或是知名高校的大型實驗室裏,看到老黃端出來的那盤嵌着8塊A100 GPU的DGX A100 服務器系統。
而單個系統價格,就高達20萬美元。
這也可以解釋,為何基於Ampere新架構的A100一發布,大部分消費級芯片評測網站的“表情”頗為複雜:雖然A100很強大,但跟我們好像沒什麼關係。
然而,站在英偉達投資者與股價的角度來看,這個產品是一個讓人非常滿意的結果。
在2020年3月發佈的英偉達2020年Q1財報中,數據中心業務為公司整體收入貢獻了近1/3。
某種程度上,這是第一次用確鑿的財務數字,印證了企業級GPU產品在這個B端市場擁有巨大的收益增長空間。
因此,“數據中心”也被越來越多的分析師認定為下一個藴藏着巨大商業潛力的藍海市場。
有意思的是,早在2個月前,一向對芯片產品本身不會做過多評價的財經媒體彭博,在若干分析師紛紛上調了對英偉達的股價目標後,主動向外界表達了自己對英偉達發佈新產品的期待:
“英偉達基於Ampere架構的新一代GPU,可能是其2016年以來最有前途的一款芯片。這款芯片或許會帶來一系列令人驚喜的收益。”
此外,就在新產品發佈前一天,也就是5月13日,英偉達股價上漲2.6%。證券公司Wedbush 分析師順勢調高股價目標,並發表如下言論:
“數據中心市場走勢如此被外界看好,而在這一領域具備絕對地位的英偉達,可能在新品發佈後會迎來更大的市值增長空間。”
我們曾經在《幹掉英偉達?》一文中,詳細解答了為何數據中心會成為一個藴含着巨大商業價值的市場。
而諸如老對手英特爾與AMD、服務器廠商以及各大雲服務巨頭,都在數據中心裏嗅到了技術變革的味道,瘋狂尋找新的商業機會。
英偉達,無疑是其中不可忽視的新技術掌舵者之一。
到這裏,你應該能清楚,為何英偉達會把一個最新的架構,首先用在了一塊企業級芯片裏。
一統雲服務巨頭“後院”
這次的A100,是英偉達的服務器級GPU產品 V100的繼任者。
後者在2017年一經推出,就在兩年內獲得了巨大成功,直接打入了包括亞馬遜、微軟、阿里以及騰訊等雲服務巨頭的數據中心核心地帶,成為各家GPU計算服務團隊不可缺少的芯片產品。
至於為何在這個市場一路暢通無阻。一方面,是GPU的並行運算結構對訓練機器學習和深度學習模型有着天然優勢。
雲服務商早已集體默認,與人工智能相關的任務,從數據處理效率、功耗等多方面考慮,使用GPU進行模型訓練是最好的選擇之一。
無論是阿里還是騰訊雲,與GPU相關的產品頁面,基本都涵蓋了像英偉達V100與T4等熱門型號的企業級GPU產品。
一位阿里工程師告訴虎嗅,目前幾乎所有的感知類深度學習任務,都需要用到大規模深度學習,必須基於多機多卡進行模型訓練。
圖片截自阿里雲
而A100,據英偉達聲稱其在人工智能推理和訓練方面比 V100要快近20倍。對此,自動駕駛公司文遠之行技術總監鍾華給出了更加細節化的解釋:
實際上,人工智能開發者最關心的是FP16(單精度浮點數)與int8(用8bit的內存,存儲一個整數數據;類似於數據類型,常用於推理模型)這兩個重要參數。從兩者的數據來看,其計算力相比V100提高了兩倍不止。
此外,他還指出,在內存帶寬這個指標上,A100比V100提升了40%以上,這意味在高速模型的訓練上面是非常有幫助的,特別是自動駕駛所需要的實時訓練模型。
圖片來自硬件評測媒體Tom’s hardware
而在許多GPU產品客户與愛好者所關心的工藝製程方面,過去1年裏黃仁勳在多個場合被質問的“何時會縮短製程”這個問題,終於有了一個讓人滿意的答案。
讓我們反向來看製程這個問題。
根據英偉達給出的這塊A100尺寸來看,相當於製造者在一塊826平方毫米的模具上塞進了540億個晶體管;而V100則是在一塊大約815平方毫米的模具上裝有211億個晶體管。
晶體管數量增長了2.5倍,但尺寸卻僅大了1.3%。這代表差不多的身體,卻裝了雙倍能量。
沒錯,這正是得益於芯片代工巨頭台積電從12nm製程到7nm製程的技術升級。
“這在很大程度上讓英偉達的顯卡迷們鬆了一口氣。畢竟兩年前,英偉達在消費級市場的老對手AMD就推出了7nm GPU,而英偉達遲到了近2年。不過鑑於後者在2B商用領域的領先地位,這個時間點並不算晚。”
一位芯片從業者認為,英偉達最近預定台積電的5nm訂單,也在一定程度上有了趕超對手製程的“進取心”。
尺寸與製程,這尺寸的確大,的確是迄今為止最大的顯卡
不過,雖然芯片測評專家們都發表了對英這塊英偉達“新炸彈”的專業看法。但遺憾的是,或許是由於英偉達在遊戲行業裏擁有太大的影響力,以至於沒有太多人關注這塊企業級芯片為雲端應用技術做了哪些微妙的調整。
剛才我們提到,在數據中心的環境下,執行大規模線上機器學習任務,需要多機多卡同時運行,參見很多國內外大學成立的超級計算項目,以及全國上億人可能在同時使用的各種平台(淘寶、百度、抖音等等)的智能化搜索與個性化推薦。
因此,如何有效分配這些“多機多卡”的算力,是雲計算工程師們特有的關注點:
“你會發現,A100新增了一個叫MIG的功能。根據描述,這個功能允許在單個A100上做資源隔離,能最多分割為7個獨立GPU。”
正在研發基於異構計算架構數據處理平台的開源技術創業公司Zilliz合夥人、高級架構師顧鈞,首先注意到了這個面向雲端應用的新功能。
“這可以看作是一種讓更多人分享GPU能力的方式。換句話説,每個人分到的GPU資源都是互相隔離的,不會發生互相干擾,搶佔算力的情況,同時也能讓GPU的投資回報率達到最大化。
我估計這也是為雲端容器化提供便利。”
雲端容器化,是當前最為主流的雲計算技術之一。
簡單來説,用這項技術就是為了降低算力成本,將每個可能會互相爭搶算力資源的雲端任務,隔離在一個個孤立的“瓶子”裏,做到互不打擾。
同時,又能根據任務的更迭,對其所需要的資源進行靈活的資源調度。
“舉個例子,一塊CPU假定有24個核(48線程),在容器化後,是可以把一個CPU的某個部分,譬如4個核8線程分配給一個容器。但之前GPU是沒辦法這麼切分的。”顧鈞解釋。
因此,很多院校和企業此前大多在利用英偉達提供的vGPU虛擬化技術來“切分”GPU,分着給大家用,主要目的就是為了提高使用效率,降低計算成本。
譬如,VMware 中國研發先進技術中心的技術總監張海寧曾給給一所大學設計過vGPU切換方案:
白天學生做開發練習的簡單任務,就切成4塊,讓4個人一起使用GPU;到了晚上項目要做模型訓練,算力需求加大,就切換回1:1,確保100%算力。
當然,需要購買成千上萬塊企業級GPU的大型雲服務商,會更加“吝嗇”。用阿里工程師的一句玩笑話就是:“V100這麼貴,當然要仔細琢磨怎麼切得最划算,同時還能讓利用率最大化。”
但也有人指出,這種GPU虛擬化技術對性能有一定的損耗,同時也會讓機器啓動速度變慢。而容器技術則會在一定程度上避免這些問題。
因此,讓企業級GPU的設計對雲端容器化更加“友好”,或許是一種產業裏樂見其成的趨勢。
根據調研機構Grand View Research在2019年12月發佈的一份報告顯示,到2025年,全球雲端容器應用市場規模有望達到82億美元,年增長率約為26.5% 。
而與此相呼應的一個論點,是硬件虛擬化(虛擬機)將會逐漸被容器技術所取代。
如此來看,英偉達的確在加大對自己的新搖錢樹——企業級用户的“關懷”。
不必非要英偉達?
實際上,早在A100正式發佈前,基本所有Top級雲服務商都拿到了價值20萬美元的新GPU系統(單個包含8塊A100)。
當然,即便拿的是折扣價,也有工程師也暗暗吐槽説,“真貴,V100就很貴了,A100就更別提了。”
參見在海外新聞社區Reddit上,曾有人曬出自己嵌着8塊V100的基板,立馬被網友羣起而攻之,炮轟為“可恥曬富行為”的行業趣聞。我們就能夠感受到,雲服務廠商為了大規模深度學習訓練而採購成千上萬塊企業級GPU的財務壓力有多大。
Reddit上有人用8塊V100來“炫富”
昂貴,是所有英偉達客户難得給出的統一觀點。
有技術專家向虎嗅指出,英偉達的企業級芯片,仍然算是走“高端路線”的小眾玩家。
譬如發佈的最高性能的芯片都是先“特供”給一些擁有大規模人工智能訓練項目的高校實驗室,或者是做高級別自動駕駛的創業公司。單價高昂,但採購規模有限。
這又在一定程度上證明,谷歌、亞馬遜、微軟、阿里等雲服務商自研雲端AI訓練或推理芯片是大勢所趨的;但目前來看,自研產品發揮的作用還是有限的。
不過這至少意味着,儘管英偉達地位穩固,但跌下神壇並非不可想象。
“其實不僅僅是成本層面,隨着深度學習和音視頻轉碼的場景越來越複雜,單純的GPU雲服務器機型可能並不能滿足所有需求。
所以現在大多雲服務廠商都推出了基於FPGA、NPU等芯片的不同服務器機型。還有一些針對雲遊戲、推理等場景的輕量級vGPU。” 一位半導體行業人士認為,隨着很多其他芯片巨頭陸續推出不同的方案,英偉達並非是唯一的選擇。
此外,他認為雖然理論上,GPU卡越多,整體算力越大。但是隨着服務器數量的增加,不同機器的GPU之間配合難度也會越來越大,單張GPU卡的利用率反而會下降。
“所以説,增加了幾十倍的卡成本,但性能卻很難隨之線性增長。”
然而,英偉達的聰明之處,或許就在於“小”到在一塊芯片上順應主流技術趨勢,“大”到也在試圖讓孤立於不同服務器內的GPU卡之間產生更好的集羣效應。
沒錯,在歷時1年擊敗英特爾、賽靈思等強大競爭對手,最終完成對Mellanox的收購後,這家網絡技術隱形巨頭正式成了英偉達在數據中心市場的第二條“護城河”。
如同上面所説,處理海量數據和數據遷移所需的計算能力必須非常強大。而顯而易見的問題是,這些數據通常存儲在服務器無法立即訪問的存儲空間中。
如果網絡不能有效利用這些數據,讓數據之間產生流動,那麼世界上所有的計算能力就不再重要了。
因此,利用Mellanox最擅長的通信技術,理論上,便能夠將數據中心數萬個計算節點上的GPU連接起來,匯聚成更加龐大的算力。
很顯然,面對正在全球不斷擴建,數量正在急劇增長的數據中心,這無疑是英偉達一個非常重要的競爭優勢。
圖片來自谷歌
騰訊雲資源管理總監阮夢在前幾天的一場小型數據中心交流會曾指出,從2019年數據中心建設的走向來看,雖然相比北美超大型數據中心,我國在這個領域還有很多不足,但國內超大型數據中心的建設已悄然提速。
“隨着數據中心建設速度加快,我們服務器量級會從100萬台,往200萬-400萬這種級別去發展。
所以一方面服務器採購投入會持續加大,另一方面,服務器之間非常需要好的網絡質量和網絡互聯。”
必要的硬件與軟件升級,當然就需要採用更適合複雜雲上任務訓練的企業級AI芯片,以及更加靈活和多樣化的服務器結構。
“就目前來看,在通用型服務器中,GPU的使用佔比還非常小,合適的任務還沒有那麼多。但GPU部署的增速是非常快的。”
不過騰訊雲技術中心資深技術專家李典林也指出,對於數據中心建設者來説,考慮的絕不僅僅是服務器等硬件成本問題。
“譬如一線城市周邊合適的建設地點就相對緊缺,但一些偏遠地區的網絡條件就沒有那麼好。
而且GPU模塊的功耗比普通服務器芯片要大很多,所以要進行特殊的機房設計與網絡設置,那電力方面是不是要爭取更多的優惠……
但從整體來看,這是一個不可忽視的數據中心變革趨勢。”
而國家對新基建的推動浪潮,似乎又在進一步催化這個趨勢。
因此,不知隨着英偉達Ampere企業級GPU的發佈與量產,以及阿里等雲計算巨頭們雲端芯片在2020年商用速度的進一步加快,會不會給中國雲計算基礎設施市場帶來新一輪洗牌。