訓練利用率超80%!IBM推“全球首款”高能效AI芯片,採用超低精度“黑科技”
芯東西(ID:aichip001)
作者 | 温淑
編輯 | Panken
芯東西2月18日報道,本屆集成電路設計領域頂會“國際固態電路會議(ISSCC 2021)”正在進行中(2021年2月13日到22日)。作為已有近70年曆史的集成電路產學屆盛會,ISSCC 2021亦被許多廠商視為發佈其領先芯片技術的權威舞台。
本屆會議上,IBM發表了據稱是“全球首款”的高能效AI芯片,該芯片採用7nm製程工藝,可達到80%以上的訓練利用率和60%以上的推理利用率,而通常情況下,GPU的利用率在30%以下。
性能參數方面,IBM新品的運算密度高於同樣採用7nm工藝的NVIDIA A100 GPU;其在多種精度下的整數運算性能,還優於聯發科7nm專用AI芯片等產品。
據IBM官網分享,其新款7nm高能效AI芯片該款芯片在多種場景中均有較好的應用前景,比如,可用於混合雲環境中的低能耗AI訓練、或用於實現更接近邊緣的雲端訓練等。
一、IBM新款高能效AI芯片:能效比高過NVIDIA A100對比結果顯示,IBM新款7nm高能效AI芯片的性能和能效,不同程度地超越了IBM此前推出的14nm芯片、韓國科學院(KAIST)推出的65nm芯片、阿里巴巴旗下芯片公司平頭哥推出的12nm芯片含光800、NVIDIA推出的7nm芯片A100、聯發科推出的7nm芯片。
IBM新款7nm高能效AI芯片支持fp8、fp16、fp32、int4、int2混合精度。
在fp32和fp8精度下,IBM新款高能效AI芯片的每秒浮點運算次數,分別達到16TFLOPS和25.6TFLOPS;運算密度分別為0.82TFLOPS/mm^2和1.31TFLOPS/mm^2;能效比分別為3.5TFLOPS/W和1.9TFLOPS。
在int2和int4精度下,IBM新款高能效AI芯片的運算密度分別為3.27TOPS/mm^2和5.22TOPS/mm^2;能效比分別為16.5TOPS/W和8.9TOPS/W。
對比之下,IBM此前推出的14nm芯片在fp32和fp8精度下的每秒浮點運算次數,分別為2TFLOPS和3TFLOPS;在在fp32精度下的能效比為1.4TFLOPS/W。
另外,在7nm芯片陣營中,NVIDIA A100 GPU在fp16精度下的能效比為0.78TFLOPS/W,在int4精度下的能效比為3.12TOPS/W,均低於IBM新款高能效AI芯片。
IBM新款高能效AI芯片與同類產品的性能參數對比
二、採用IBM自研超低精度訓練/推理設計IBM官網文章寫道,其新款AI芯片之所以能夠兼顧能效和性能,是因為該芯片支持超低精度混合8位浮點格式((HFP8,hybrid FP8)。這是IBM於2019年發佈的一種高度優化設計,允許AI芯片在低精度下完成訓練任務和不同AI模型的推理任務,同時避免任何質量損失。
據悉,目前IBM將超低精度混合8位浮點格式用於訓練、超低精度混合4位浮點格式用於推理,並開發了數據通信協議,以提升多核心AI芯片上不同核心間的數據交換效率。
據IBM官網文章,自2015年起,該公司每年將芯片的功耗性能提升2.5倍。這背後,IBM致力於實現算法、架構、軟件堆棧等各方面的創新。
IBM在低精度AI訓練、推理方面的研究歷程
除了採用超低精度混合8位浮點格式外,IBM新款高能效AI芯片添加了電源管理功能。IBM研究顯示,在同等功率的情況下,通過減緩計算階段的功率消耗,可以最大限度地提升芯片性能。
結語:AI發展對芯片能耗提出更高要求隨着智能化浪潮席捲各個領域,AI模型的複雜性日趨提高。相應地,AI應用的能源消耗水平亦水漲船高。這一背景下,如何最大限度提升能效,成為AI芯片設計玩家們面臨的重要命題。
IBM通過採用超低精度混合8位浮點格式和內置電源管理功能,為其新款AI芯片實現了業界領先的高能效。但是,這一芯片尚未實現規模化量產,仍有待市場檢驗。
來源:IBM