英特爾7nm GPU技術細節揭秘：集成超過1000億晶體管

2021-03-27由鹹春葉發佈於科技

智東西（公眾號：zhidxcom）

編譯 | 高歌

編輯 | 雲鵬

智東西3月26日消息，本週三，英特爾的新任CEO帕特·基辛格（Pat Gelsinger）公開了基於7nm的Ponte Vecchio Xe-HPC GPU細節，該GPU將具有1000個執行單元（EU），內核數量超過8000個。

Ponte Vecchio GPU採用了7種關鍵技術，包含47個Tile，是有史以來尺寸最大、最複雜的GPU。

一、英特爾新GPU：Foveros 3D封裝不同代工廠Tile

英特爾的Ponte Vecchio GPU集成了超過1000億個晶體管，47顆XPU Tile以及各種製程節點的混搭。這款GPU採用了Xe-HPC圖形架構，該架構是基於英特爾7nm EUV節點的旗艦產品。

除此之外，該芯片還有大量基於不同工藝節點的Tile，其中一些Xe-HPC Tile由台積電等外部晶圓代工廠生產。

目前，尚無法確定英特爾是否會採用台積電的7nm或7nm+ EUV工藝節點，但是鑑於台積電代工的Xe Link I/O Tile採用了標準的非EUV 7nm工藝，英特爾可能會繼續採用標準7nm工藝。

Ponte Vecchio GPU示意圖（來源：Wccftech）

英特爾首席架構師Raja Koduri曾經説Ponte Vecchio GPU採用了7項先進技術，技術媒體Wccftech給出了具體名單：

英特爾7nm工藝、台積電7nm工藝、Foveros 3D封裝、EMIB（嵌入式多芯片互連橋接）技術、英特爾增強型10nm SuperFin工藝、Rambo Cache（蘭博緩存）與HBM2顯存。

Raja Koduri也在推特上公佈了47顆Tile分別是什麼：16顆Xe HPC（internal/external）、8顆Rambo（internal、2顆Xe Base（internal）、11顆EMIB（internal）、2顆Xe Link（external）和8顆HBM（external）。

Ponte Vecchio GPU各Tile示意圖（來源：Wccftech）

Ponte Vecchio實際上由兩個獨立GPU芯片組成，每個GPU包含六個Xe-HPC計算單元。

一對Xe-HPC計算單元直接與蘭博緩存相連，蘭博緩存採用了英特爾增強型10nm SuperFin工藝。

每個GPU還連接了四個HBM2顯存，HBM2採用4Hi或8Hi堆疊（可以簡單理解為4層或8層）。一共八個HBM2可以提供多GB的內存容量和帶寬負載。此外，每個GPU上還有8個Passive Die Stiffeners。

總體來説，英特爾Xe HPC這款MCM結構GPU處理器使用了最先進的Foveros 3D封裝技術，將多個來自不同代工廠，使用不同工藝製作的Tile集成在一個平台上，EMIB技術則將HBM2、Xe Link I/O等Tile與GPU互連。

所有這些整合形成了Ponte Vecchio Xe-HPC GPU，Raja Koduri發佈了一個有趣的樂高示意圖，其中顯示了Ponte Vecchio GPU的各個Tile。

Raja Koduri推特上的樂高示意圖（來源：Wccftech）

二、執行單元數量將超1000，提供40倍雙精度浮點算術能力

英特爾此前曾介紹過，其Xe-HPC GPU將具有1000個執行單元（EU）。到目前為止，Xe LP有96個EU，它們構成了總共768個內核。

新GPU的每個子層（subslice）有8個EU。第12代GPU中的subslice類似於英偉達SM單元或AMD的CU單元。

而在英特爾的9.5和11代GPU上，每個subslice具有8個EU，因此如果12代保持相同的層次結構，人們將能看到大量由subslice組成的超級切片。從目前的圖片上看，英特爾第12代GPU將有8個算術邏輯單元（ALU），與11代和9.5代保持一致。

Ponte Vecchio GPU實物圖（來源：Wccftech）

大致來説，一個GPU芯片將有1000個EU單元，8000個內核，而實際內核數量還要更多。而Xe HP GPU的HPC尺寸也將更大。

Wccftech列出了英特爾GPU的實際EU單元、對內核數量的估計。功率和TFLOPS（每秒浮點運算次數）等數據：

英特爾Xe HP (12.5) 2-Tile GPU: 1024個EU單元，8192個內核，20.48 TFLOPS，1.25 GHz，300W；
英特爾Xe HP (12.5) 4-Tile GPU: 2048個EU單元，16384個內核，36 TFLOPS，1.1 GHz，400W-500W。

英特爾Xe類GPU具有下面幾種可變矢量寬度（vector width）：SIMT（GPU）、SIMD（CPU）、SIMT+SIMD（最高性能）。

Raja Koduri談到，英特爾的Xe HPC GPU能夠擴展到1000個EU，EU通過幾個高帶寬內存通道與XE內存結構相連，並且每個EU單元都進行了升級，可以提供40倍的雙精度浮點計算能力。

蘭博緩存則將在整個雙精度工作負載中提供可持續的FP64計算性能。

就工藝優化而言，以下是英特爾針對7納米工藝節點的一些關鍵改進：

1、相較10nm節點具有兩倍的密度縮放優勢；

2、內部的節點優化；

3、DR（Design Rules）的4倍縮減；

4、採用了EUV光刻技術；

5、新一代Foveros和EMIB封裝。

英特爾的Ponte Vecchio GPU將首先在Aurora超級計算機中使用，並於今年的晚些時候實現量產出貨。

英特爾9代GPU與英偉達V100、AMD GPU的架構比較（來源：Wccftech）

在HPC（高性能計算）領域，英特爾Ponte Vecchio GPU將與英偉達的Ada Lovelace和AMD的CDNA 2圖形架構競爭，Ada Lovelace和CDNA 2也將使用類似的設計。

結語：英特爾GPU版圖擴大，GPU市場又起波瀾

相較於英特爾的CPU內核，其GPU的市場關注度一直比較低。本次英特爾花費2年時間打造出了這款Ponte Vecchio GPU，可能將是英特爾擴展GPU版圖的重要一步。

前文提到的Aurora超級計算機由美國能源部與英特爾聯手打造，是Ponte Vecchio GPU推廣中的重要一步。但是英特爾的GPU版圖能否成功擴充，還是要看Ponte Vecchio GPU與英偉達、AMD等公司GPU產品的競爭情況。

來源：Wccftech