訓練利用率超80%!IBM推“全球首款”高能效AI芯片,採用超低精度“黑科技”

訓練利用率超80%!IBM推“全球首款”高能效AI芯片,採用超低精度“黑科技”

芯東西(ID:aichip001)

作者 | 温淑

編輯 | Panken

芯東西2月18日報道,本屆集成電路設計領域頂會“國際固態電路會議(ISSCC 2021)”正在進行中(2021年2月13日到22日)。作為已有近70年曆史的集成電路產學屆盛會,ISSCC 2021亦被許多廠商視為發佈其領先芯片技術的權威舞台。

本屆會議上,IBM發表了據稱是“全球首款”的高能效AI芯片,該芯片採用7nm製程工藝,可達到80%以上的訓練利用率和60%以上的推理利用率,而通常情況下,GPU的利用率在30%以下。

性能參數方面,IBM新品的運算密度高於同樣採用7nm工藝的NVIDIA A100 GPU;其在多種精度下的整數運算性能,還優於聯發科7nm專用AI芯片等產品。

據IBM官網分享,其新款7nm高能效AI芯片該款芯片在多種場景中均有較好的應用前景,比如,可用於混合雲環境中的低能耗AI訓練、或用於實現更接近邊緣的雲端訓練等。

一、IBM新款高能效AI芯片:能效比高過NVIDIA A100

對比結果顯示,IBM新款7nm高能效AI芯片的性能和能效,不同程度地超越了IBM此前推出的14nm芯片、韓國科學院(KAIST)推出的65nm芯片、阿里巴巴旗下芯片公司平頭哥推出的12nm芯片含光800、NVIDIA推出的7nm芯片A100、聯發科推出的7nm芯片。

IBM新款7nm高能效AI芯片支持fp8、fp16、fp32、int4、int2混合精度。

在fp32和fp8精度下,IBM新款高能效AI芯片的每秒浮點運算次數,分別達到16TFLOPS和25.6TFLOPS;運算密度分別為0.82TFLOPS/mm^2和1.31TFLOPS/mm^2;能效比分別為3.5TFLOPS/W和1.9TFLOPS。

在int2和int4精度下,IBM新款高能效AI芯片的運算密度分別為3.27TOPS/mm^2和5.22TOPS/mm^2;能效比分別為16.5TOPS/W和8.9TOPS/W。

對比之下,IBM此前推出的14nm芯片在fp32和fp8精度下的每秒浮點運算次數,分別為2TFLOPS和3TFLOPS;在在fp32精度下的能效比為1.4TFLOPS/W。

另外,在7nm芯片陣營中,NVIDIA A100 GPU在fp16精度下的能效比為0.78TFLOPS/W,在int4精度下的能效比為3.12TOPS/W,均低於IBM新款高能效AI芯片。

訓練利用率超80%!IBM推“全球首款”高能效AI芯片,採用超低精度“黑科技”

IBM新款高能效AI芯片與同類產品的性能參數對比

二、採用IBM自研超低精度訓練/推理設計

IBM官網文章寫道,其新款AI芯片之所以能夠兼顧能效和性能,是因為該芯片支持超低精度混合8位浮點格式((HFP8,hybrid FP8)。這是IBM於2019年發佈的一種高度優化設計,允許AI芯片在低精度下完成訓練任務和不同AI模型的推理任務,同時避免任何質量損失。

據悉,目前IBM將超低精度混合8位浮點格式用於訓練、超低精度混合4位浮點格式用於推理,並開發了數據通信協議,以提升多核心AI芯片上不同核心間的數據交換效率。

據IBM官網文章,自2015年起,該公司每年將芯片的功耗性能提升2.5倍。這背後,IBM致力於實現算法、架構、軟件堆棧等各方面的創新。

訓練利用率超80%!IBM推“全球首款”高能效AI芯片,採用超低精度“黑科技”

IBM在低精度AI訓練、推理方面的研究歷程

除了採用超低精度混合8位浮點格式外,IBM新款高能效AI芯片添加了電源管理功能。IBM研究顯示,在同等功率的情況下,通過減緩計算階段的功率消耗,可以最大限度地提升芯片性能。

結語:AI發展對芯片能耗提出更高要求

隨着智能化浪潮席捲各個領域,AI模型的複雜性日趨提高。相應地,AI應用的能源消耗水平亦水漲船高。這一背景下,如何最大限度提升能效,成為AI芯片設計玩家們面臨的重要命題。

IBM通過採用超低精度混合8位浮點格式和內置電源管理功能,為其新款AI芯片實現了業界領先的高能效。但是,這一芯片尚未實現規模化量產,仍有待市場檢驗。

來源:IBM

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 1621 字。

轉載請註明: 訓練利用率超80%!IBM推“全球首款”高能效AI芯片,採用超低精度“黑科技” - 楠木軒