IEEE計算機(jī)運(yùn)算研討會。
32位與16位格式的混合精度訓(xùn)練,正是當(dāng)前深度學(xué)習(xí)的主流。
最新的英偉達(dá)核彈GPU H100,剛剛添加上對8位浮點數(shù)格式FP8的支持。
英偉達(dá)首席科學(xué)家Bill Dally現(xiàn)在又表示,他們還有一個“秘密武器”:
在IEEE計算機(jī)運(yùn)算研討會上,他介紹了一種實驗性5nm芯片,可以混合使用8位與4位格式,并且在4位上得到近似8位的精度。
目前這種芯片還在開發(fā)中,主要用于深度學(xué)習(xí)推理所用的INT4和INT8格式,對于如何應(yīng)用在訓(xùn)練中也在研究了。
相關(guān)論文已發(fā)表在2022 IEEE Symposium on VLSI Technology上。
新的量化技術(shù)
降低數(shù)字格式而不造成重大精度損失,要歸功于按矢量縮放量化(per-vector scaled quantization,VSQ)的技術(shù)。
具體來說,一個INT4數(shù)字只能精確表示從-8到7的16個整數(shù)。
其他數(shù)字都會四舍五入到這16個值上,中間產(chǎn)生的精度損失被稱為量化噪聲。
傳統(tǒng)的量化方法給每個矩陣添加一個縮放因子來減少噪聲,VSQ則在這基礎(chǔ)之上給每個向量都添加縮放因子,進(jìn)一步減少噪聲。
關(guān)鍵之處在于,縮放因子的值要匹配在神經(jīng)網(wǎng)絡(luò)中實際需要表示的數(shù)字范圍。
英偉達(dá)研究人員發(fā)現(xiàn),每64個數(shù)字為一組賦予獨立調(diào)整過的縮放因子可以最小化量化誤差。
計算縮放因子的開銷可以忽略不計,從INT8降為INT4則讓能量效率增加了一倍。
Bill Dally認(rèn)為,結(jié)合上INT4計算、VSQ技術(shù)和其他優(yōu)化方法后,新型芯片可以達(dá)到Hopper架構(gòu)每瓦運(yùn)算速度的10倍。
還有哪些降低計算量的努力
除了英偉達(dá)之外,業(yè)界還有更多降低計算量的工作也在這次IEEE研討會上亮相。
馬德里康普頓斯大學(xué)的一組研究人員設(shè)計出基于Posits格式的處理器核心,與Float浮點數(shù)相比準(zhǔn)確性提高了多達(dá)4個數(shù)量級。
Posits與Float相比,增加了一個可變長度的Regime區(qū)域,用來表示指數(shù)的指數(shù)。
對于0附近的較小數(shù)字只需要占用兩個位,而這類數(shù)字正是在神經(jīng)網(wǎng)絡(luò)中大量使用的。
適用Posits格式的新硬件基于FPGA開發(fā),研究人員發(fā)現(xiàn)可以用芯片的面積和功耗來提高精度,而不用增加計算時間。
ETH Zurich一個團(tuán)隊的研究基于RISC-V,他們把兩次混合精度的積和熔加計算(fused multiply-add,F(xiàn)MA)放在一起平行計算。
這樣可以防止兩次計算之間的精度損失,還可以提高內(nèi)存利用率。
FMA指的是d = a * b + c這樣的操作,一般情況下輸入中的a和b會使用較低精度,而c和輸出的d使用較高精度。
研究人員模擬了新方法可以使計算時間減少幾乎一半,同時輸出精度有所提高,特別是對于大矢量的計算。
相應(yīng)的硬件實現(xiàn)正在開發(fā)中。
巴塞羅那超算中心和英特爾團(tuán)隊的研究也和FMA相關(guān),致力于神經(jīng)網(wǎng)絡(luò)訓(xùn)練可以完全使用BF16格式完成。
BF16格式已在DALL·E 2等大型網(wǎng)絡(luò)訓(xùn)練中得到應(yīng)用,不過還需要與更高精度的FP32結(jié)合,并且在兩者之間來回轉(zhuǎn)換。
這是因為神經(jīng)網(wǎng)絡(luò)訓(xùn)練中只有一部分計算不會因BF16而降低精度。
最新解決辦法開發(fā)了一個擴(kuò)展的格式BF16-N,將幾個BF16數(shù)字組合起來表示一個數(shù),可以在不顯著犧牲精度的情況下更有效進(jìn)行FMA計算
關(guān)鍵之處在于,F(xiàn)MA計算單元的面積只受尾數(shù)位影響。
比如FP32有23個尾數(shù)位,需要576個單位的面積,而BF16-2只需要192個,減少了2/3。
另外這項工作的論文題目也很有意思,BF16 is All You Need。
審核編輯 :李倩
-
芯片
+關(guān)注
關(guān)注
455文章
50762瀏覽量
423372 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3773瀏覽量
91021
原文標(biāo)題:英偉達(dá)首席科學(xué)家:5nm實驗芯片用INT4達(dá)到INT8的精度
文章出處:【微信號:ICViews,微信公眾號:半導(dǎo)體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論