英特爾宣布推出專為高性能計(jì)算(HPC)和人工智能(AI)優(yōu)化的新型8位浮點(diǎn)處理格式——FP8。這一創(chuàng)新旨在顯著提升數(shù)據(jù)處理效率和存儲支持能力,為日益復(fù)雜的AI模型和高性能計(jì)算工作負(fù)載提供關(guān)鍵的技術(shù)支撐。
隨著AI模型規(guī)模不斷擴(kuò)大,對計(jì)算精度、內(nèi)存帶寬和能效的要求也日益嚴(yán)苛。傳統(tǒng)的16位半精度(FP16)或32位單精度(FP32)浮點(diǎn)格式雖然能保證較高的數(shù)值精度,但在處理大規(guī)模數(shù)據(jù)時(shí),往往面臨存儲空間占用大、數(shù)據(jù)傳輸延遲高、能耗較高等挑戰(zhàn)。英特爾的FP8格式應(yīng)運(yùn)而生,它通過將浮點(diǎn)數(shù)壓縮至8位,在保持足夠精度的前提下,大幅減少了數(shù)據(jù)存儲空間和內(nèi)存帶寬需求。
從技術(shù)角度看,F(xiàn)P8格式平衡了數(shù)值范圍和精度。它通常支持兩種子格式:一種側(cè)重動態(tài)范圍(如E5M2,即5位指數(shù)、2位尾數(shù)),適用于需要較大數(shù)值范圍的場景;另一種側(cè)重精度(如E4M3,即4位指數(shù)、3位尾數(shù)),更適合對精度要求較高的計(jì)算。這種靈活性使得FP8能夠根據(jù)不同的AI訓(xùn)練和推理任務(wù)進(jìn)行優(yōu)化選擇,從而在模型準(zhǔn)確性和計(jì)算效率之間取得最佳平衡。
英特爾此次推出FP8格式,并非孤立行動,而是其全面AI與HPC戰(zhàn)略的重要組成部分。該格式將與其硬件平臺(如至強(qiáng)可擴(kuò)展處理器、GPU加速器)和軟件棧(如oneAPI工具包)深度集成,提供端到端的支持。對于開發(fā)者而言,這意味著他們可以更輕松地將現(xiàn)有模型遷移至FP8,利用更小的數(shù)據(jù)位寬實(shí)現(xiàn)更快的訓(xùn)練速度和更低的推理延遲,同時(shí)降低數(shù)據(jù)中心的總擁有成本(TCO)。
在數(shù)據(jù)處理方面,F(xiàn)P8能夠加速矩陣乘法和卷積等核心AI運(yùn)算,這對于深度學(xué)習(xí)中的前向傳播和反向傳播至關(guān)重要。在存儲支持上,數(shù)據(jù)位寬的減半直接轉(zhuǎn)化為模型和中間數(shù)據(jù)存儲空間的節(jié)省,使得在有限的內(nèi)存容量下能夠部署更大或更多的模型,特別有利于邊緣計(jì)算和移動設(shè)備上的AI應(yīng)用。
行業(yè)分析認(rèn)為,F(xiàn)P8格式的推出正值A(chǔ)I計(jì)算從“粗放式”增長轉(zhuǎn)向“精細(xì)化”優(yōu)化的關(guān)鍵節(jié)點(diǎn)。隨著OpenAI、谷歌等機(jī)構(gòu)發(fā)布的模型參數(shù)達(dá)到萬億級別,對高效數(shù)值格式的需求愈發(fā)迫切。英特爾此舉也與英偉達(dá)、AMD等競爭對手在低精度計(jì)算領(lǐng)域的布局形成呼應(yīng),共同推動著行業(yè)向更高效的計(jì)算范式演進(jìn)。
FP8格式有望在大型語言模型(LLM)、推薦系統(tǒng)、科學(xué)模擬等領(lǐng)域得到廣泛應(yīng)用。英特爾計(jì)劃通過持續(xù)的軟件優(yōu)化和生態(tài)系統(tǒng)合作,推動FP8成為AI與HPC社區(qū)的新標(biāo)準(zhǔn)之一。廣泛采用仍需解決工具鏈支持、算法適應(yīng)性以及不同硬件平臺間的兼容性等挑戰(zhàn)。
英特爾FP8浮點(diǎn)格式的推出,標(biāo)志著其在高效能計(jì)算領(lǐng)域又邁出了堅(jiān)實(shí)一步。通過縮小數(shù)據(jù)位寬而不犧牲關(guān)鍵性能,F(xiàn)P8將為下一代AI創(chuàng)新和復(fù)雜科學(xué)計(jì)算提供更強(qiáng)的數(shù)據(jù)處理與存儲支持,助力各行業(yè)在數(shù)字化浪潮中挖掘更深層的價(jià)值。