智東西(公眾號:zhidxcom)
編譯 | 高歌
編輯 | 雲鵬
智東西3月26日訊息,本週三,英特爾的新任CEO帕特·基辛格(Pat Gelsinger)公開了基於7nm的Ponte Vecchio Xe-HPC GPU細節,該GPU將具有1000個執行單元(EU),核心數量超過8000個。
Ponte Vecchio GPU採用了7種關鍵技術,包含47個Tile,是有史以來尺寸最大、最複雜的GPU。
一、英特爾新GPU:Foveros 3D封裝不同代工廠Tile英特爾的Ponte Vecchio GPU集成了超過1000億個電晶體,47顆XPU Tile以及各種製程節點的混搭。這款GPU採用了Xe-HPC圖形架構,該架構是基於英特爾7nm EUV節點的旗艦產品。
除此之外,該晶片還有大量基於不同工藝節點的Tile,其中一些Xe-HPC Tile由臺積電等外部晶圓代工廠生產。
目前,尚無法確定英特爾是否會採用臺積電的7nm或7nm+ EUV工藝節點,但是鑑於臺積電代工的Xe Link I/O Tile採用了標準的非EUV 7nm工藝,英特爾可能會繼續採用標準7nm工藝。
Ponte Vecchio GPU示意圖(來源:Wccftech)
英特爾首席架構師Raja Koduri曾經說Ponte Vecchio GPU採用了7項先進技術,技術媒體Wccftech給出了具體名單:
英特爾7nm工藝、臺積電7nm工藝、Foveros 3D封裝、EMIB(嵌入式多晶片互連橋接)技術、英特爾增強型10nm SuperFin工藝、Rambo Cache(蘭博快取)與HBM2視訊記憶體。
Raja Koduri也在推特上公佈了47顆Tile分別是什麼:16顆Xe HPC(internal/external)、8顆Rambo(internal、2顆Xe Base(internal)、11顆EMIB(internal)、2顆Xe Link(external)和8顆HBM(external)。
Ponte Vecchio GPU各Tile示意圖(來源:Wccftech)
Ponte Vecchio實際上由兩個獨立GPU晶片組成,每個GPU包含六個Xe-HPC計算單元。
一對Xe-HPC計算單元直接與蘭博快取相連,蘭博快取採用了英特爾增強型10nm SuperFin工藝。
每個GPU還連線了四個HBM2視訊記憶體,HBM2採用4Hi或8Hi堆疊(可以簡單理解為4層或8層)。一共八個HBM2可以提供多GB的記憶體容量和頻寬負載。此外,每個GPU上還有8個Passive Die Stiffeners。
總體來說,英特爾Xe HPC這款MCM結構GPU處理器使用了最先進的Foveros 3D封裝技術,將多個來自不同代工廠,使用不同工藝製作的Tile整合在一個平臺上,EMIB技術則將HBM2、Xe Link I/O等Tile與GPU互連。
所有這些整合形成了Ponte Vecchio Xe-HPC GPU,Raja Koduri釋出了一個有趣的樂高示意圖,其中顯示了Ponte Vecchio GPU的各個Tile。
Raja Koduri推特上的樂高示意圖(來源:Wccftech)
二、執行單元數量將超1000,提供40倍雙精度浮點算術能力英特爾此前曾介紹過,其Xe-HPC GPU將具有1000個執行單元(EU)。到目前為止,Xe LP有96個EU,它們構成了總共768個核心。
新GPU的每個子層(subslice)有8個EU。第12代GPU中的subslice類似於英偉達SM單元或AMD的CU單元。
而在英特爾的9.5和11代GPU上,每個subslice具有8個EU,因此如果12代保持相同的層次結構,人們將能看到大量由subslice組成的超級切片。從目前的圖片上看,英特爾第12代GPU將有8個算術邏輯單元(ALU),與11代和9.5代保持一致。
Ponte Vecchio GPU實物圖(來源:Wccftech)
大致來說,一個GPU晶片將有1000個EU單元,8000個核心,而實際核心數量還要更多。而Xe HP GPU的HPC尺寸也將更大。
Wccftech列出了英特爾GPU的實際EU單元、對核心數量的估計。功率和TFLOPS(每秒浮點運算次數)等資料:
- 英特爾Xe HP (12.5) 2-Tile GPU: 1024個EU單元,8192個核心,20.48 TFLOPS,1.25 GHz,300W;
- 英特爾Xe HP (12.5) 4-Tile GPU: 2048個EU單元,16384個核心,36 TFLOPS,1.1 GHz,400W-500W。
英特爾Xe類GPU具有下面幾種可變向量寬度(vector width):SIMT(GPU)、SIMD(CPU)、SIMT+SIMD(最高效能)。
Raja Koduri談到,英特爾的Xe HPC GPU能夠擴充套件到1000個EU,EU通過幾個高頻寬記憶體通道與XE記憶體結構相連,並且每個EU單元都進行了升級,可以提供40倍的雙精度浮點計算能力。
蘭博快取則將在整個雙精度工作負載中提供可持續的FP64計算效能。
就工藝最佳化而言,以下是英特爾針對7奈米工藝節點的一些關鍵改進:
1、相較10nm節點具有兩倍的密度縮放優勢;
2、內部的節點最佳化;
3、DR(Design Rules)的4倍縮減;
4、採用了EUV光刻技術;
5、新一代Foveros和EMIB封裝。
英特爾的Ponte Vecchio GPU將首先在Aurora超級計算機中使用,並於今年的晚些時候實現量產出貨。
英特爾9代GPU與英偉達V100、AMD GPU的架構比較(來源:Wccftech)
在HPC(高效能計算)領域,英特爾Ponte Vecchio GPU將與英偉達的Ada Lovelace和AMD的CDNA 2圖形架構競爭,Ada Lovelace和CDNA 2也將使用類似的設計。
結語:英特爾GPU版圖擴大,GPU市場又起波瀾相較於英特爾的CPU核心,其GPU的市場關注度一直比較低。本次英特爾花費2年時間打造出了這款Ponte Vecchio GPU,可能將是英特爾擴充套件GPU版圖的重要一步。
前文提到的Aurora超級計算機由美國能源部與英特爾聯手打造,是Ponte Vecchio GPU推廣中的重要一步。但是英特爾的GPU版圖能否成功擴充,還是要看Ponte Vecchio GPU與英偉達、AMD等公司GPU產品的競爭情況。
來源:Wccftech