楠木軒

英特爾7nm GPU技術細節揭秘:集成超過1000億晶體管

由 鹹春葉 發佈於 科技

智東西(公眾號:zhidxcom)

編譯 | 高歌

編輯 | 雲鵬

智東西3月26日消息,本週三,英特爾的新任CEO帕特·基辛格(Pat Gelsinger)公開了基於7nm的Ponte Vecchio Xe-HPC GPU細節,該GPU將具有1000個執行單元(EU),內核數量超過8000個。

Ponte Vecchio GPU採用了7種關鍵技術,包含47個Tile,是有史以來尺寸最大、最複雜的GPU。

一、英特爾新GPU:Foveros 3D封裝不同代工廠Tile

英特爾的Ponte Vecchio GPU集成了超過1000億個晶體管,47顆XPU Tile以及各種製程節點的混搭。這款GPU採用了Xe-HPC圖形架構,該架構是基於英特爾7nm EUV節點的旗艦產品。

除此之外,該芯片還有大量基於不同工藝節點的Tile,其中一些Xe-HPC Tile由台積電等外部晶圓代工廠生產。

目前,尚無法確定英特爾是否會採用台積電的7nm或7nm+ EUV工藝節點,但是鑑於台積電代工的Xe Link I/O Tile採用了標準的非EUV 7nm工藝,英特爾可能會繼續採用標準7nm工藝。

Ponte Vecchio GPU示意圖(來源:Wccftech)

英特爾首席架構師Raja Koduri曾經説Ponte Vecchio GPU採用了7項先進技術,技術媒體Wccftech給出了具體名單:

英特爾7nm工藝、台積電7nm工藝、Foveros 3D封裝、EMIB(嵌入式多芯片互連橋接)技術、英特爾增強型10nm SuperFin工藝、Rambo Cache(蘭博緩存)與HBM2顯存。

Raja Koduri也在推特上公佈了47顆Tile分別是什麼:16顆Xe HPC(internal/external)、8顆Rambo(internal、2顆Xe Base(internal)、11顆EMIB(internal)、2顆Xe Link(external)和8顆HBM(external)。

Ponte Vecchio GPU各Tile示意圖(來源:Wccftech)

Ponte Vecchio實際上由兩個獨立GPU芯片組成,每個GPU包含六個Xe-HPC計算單元。

一對Xe-HPC計算單元直接與蘭博緩存相連,蘭博緩存採用了英特爾增強型10nm SuperFin工藝。

每個GPU還連接了四個HBM2顯存,HBM2採用4Hi或8Hi堆疊(可以簡單理解為4層或8層)。一共八個HBM2可以提供多GB的內存容量和帶寬負載。此外,每個GPU上還有8個Passive Die Stiffeners。

總體來説,英特爾Xe HPC這款MCM結構GPU處理器使用了最先進的Foveros 3D封裝技術,將多個來自不同代工廠,使用不同工藝製作的Tile集成在一個平台上,EMIB技術則將HBM2、Xe Link I/O等Tile與GPU互連。

所有這些整合形成了Ponte Vecchio Xe-HPC GPU,Raja Koduri發佈了一個有趣的樂高示意圖,其中顯示了Ponte Vecchio GPU的各個Tile。

Raja Koduri推特上的樂高示意圖(來源:Wccftech)

二、執行單元數量將超1000,提供40倍雙精度浮點算術能力

英特爾此前曾介紹過,其Xe-HPC GPU將具有1000個執行單元(EU)。到目前為止,Xe LP有96個EU,它們構成了總共768個內核。

新GPU的每個子層(subslice)有8個EU。第12代GPU中的subslice類似於英偉達SM單元或AMD的CU單元。

而在英特爾的9.5和11代GPU上,每個subslice具有8個EU,因此如果12代保持相同的層次結構,人們將能看到大量由subslice組成的超級切片。從目前的圖片上看,英特爾第12代GPU將有8個算術邏輯單元(ALU),與11代和9.5代保持一致。

Ponte Vecchio GPU實物圖(來源:Wccftech)

大致來説,一個GPU芯片將有1000個EU單元,8000個內核,而實際內核數量還要更多。而Xe HP GPU的HPC尺寸也將更大。

Wccftech列出了英特爾GPU的實際EU單元、對內核數量的估計。功率和TFLOPS(每秒浮點運算次數)等數據:

  • 英特爾Xe HP (12.5) 2-Tile GPU: 1024個EU單元,8192個內核,20.48 TFLOPS,1.25 GHz,300W;
  • 英特爾Xe HP (12.5) 4-Tile GPU: 2048個EU單元,16384個內核,36 TFLOPS,1.1 GHz,400W-500W。

英特爾Xe類GPU具有下面幾種可變矢量寬度(vector width):SIMT(GPU)、SIMD(CPU)、SIMT+SIMD(最高性能)。

Raja Koduri談到,英特爾的Xe HPC GPU能夠擴展到1000個EU,EU通過幾個高帶寬內存通道與XE內存結構相連,並且每個EU單元都進行了升級,可以提供40倍的雙精度浮點計算能力。

蘭博緩存則將在整個雙精度工作負載中提供可持續的FP64計算性能。

就工藝優化而言,以下是英特爾針對7納米工藝節點的一些關鍵改進:

1、相較10nm節點具有兩倍的密度縮放優勢;

2、內部的節點優化;

3、DR(Design Rules)的4倍縮減;

4、採用了EUV光刻技術;

5、新一代Foveros和EMIB封裝。

英特爾的Ponte Vecchio GPU將首先在Aurora超級計算機中使用,並於今年的晚些時候實現量產出貨。

英特爾9代GPU與英偉達V100、AMD GPU的架構比較(來源:Wccftech)

在HPC(高性能計算)領域,英特爾Ponte Vecchio GPU將與英偉達的Ada Lovelace和AMD的CDNA 2圖形架構競爭,Ada Lovelace和CDNA 2也將使用類似的設計。

結語:英特爾GPU版圖擴大,GPU市場又起波瀾

相較於英特爾的CPU內核,其GPU的市場關注度一直比較低。本次英特爾花費2年時間打造出了這款Ponte Vecchio GPU,可能將是英特爾擴展GPU版圖的重要一步。

前文提到的Aurora超級計算機由美國能源部與英特爾聯手打造,是Ponte Vecchio GPU推廣中的重要一步。但是英特爾的GPU版圖能否成功擴充,還是要看Ponte Vecchio GPU與英偉達、AMD等公司GPU產品的競爭情況。

來源:Wccftech