蓬勃發(fā)展的機(jī)器學(xué)習(xí)和人工智能新興用例有望通過(guò)加速信息處理和提高決策準(zhǔn)確性為行業(yè)創(chuàng)造重大價(jià)值。但機(jī)器學(xué)習(xí)模型是計(jì)算密集型、需要高頻和實(shí)時(shí) AI 分析場(chǎng)景,這導(dǎo)致企業(yè)依賴(lài)于使用每秒萬(wàn)億次操作 (TOPS) 指標(biāo)的性能指導(dǎo)。TOPS 捕捉到“加速器在一秒鐘內(nèi)可以提供多少數(shù)學(xué)運(yùn)算?” 比較和確定給定推理任務(wù)的最佳加速器。
雖然 TOPS 是一個(gè)“容易”計(jì)算的指標(biāo),但它通常無(wú)法為實(shí)際工作負(fù)載提供可靠的性能指標(biāo)。受限于加速器中乘法器和加法器的數(shù)量,該指標(biāo)無(wú)法考慮處理神經(jīng)網(wǎng)絡(luò)模型的計(jì)算硬件結(jié)構(gòu)。隨著數(shù)據(jù)網(wǎng)絡(luò)模型更快地處理數(shù)據(jù),企業(yè)如何通過(guò)更快、更可靠的決策進(jìn)行擴(kuò)展,尤其是在邊緣?
在這篇文章中,我們將回顧 TOPS、它在測(cè)量延遲方面的挑戰(zhàn)以及它與現(xiàn)實(shí)世界的性能計(jì)算有何不同,并提供一種通過(guò)基準(zhǔn)測(cè)試來(lái)計(jì)算性能的替代方法,它提供了一種更可靠的方法來(lái)解釋計(jì)算硬件結(jié)構(gòu)。
TOPS 作為績(jī)效衡量標(biāo)準(zhǔn)的現(xiàn)實(shí)
TOPS 是一個(gè)簡(jiǎn)化指標(biāo):它告訴您 AI 加速器在一秒鐘內(nèi)可以處理多少計(jì)算操作,并且利用率為 100%。本質(zhì)上,它著眼于加速器可以在很短的時(shí)間內(nèi)解決多少數(shù)學(xué)運(yùn)算問(wèn)題。
例如,如果一個(gè) AI 加速器提供 5 TOPS,另一個(gè)提供 15 TOPS,則推斷后者比前者快三倍。但是,就像 CPU 速度的兆赫茲和千兆赫茲一樣,TOPS 也失去了確定整體計(jì)算機(jī)性能的相關(guān)性。隨著人們對(duì) AI 應(yīng)用的興趣日益濃厚,最新的 AI 加速器可以比簡(jiǎn)單的算術(shù)更快地處理數(shù)據(jù),并且更復(fù)雜。
然而,TOPS 很少準(zhǔn)確地捕捉到 AI 處理器在整個(gè)硬件設(shè)備中的重要性。如今,相機(jī)、邊緣服務(wù)器和計(jì)算機(jī)中的 AI 處理器通常是決定計(jì)算能力和能源效率的關(guān)鍵組件之一。事實(shí)上,TOPS 未能考慮到現(xiàn)實(shí)世界的工作量。通常,由于諸如空閑計(jì)算機(jī)單元等待來(lái)自?xún)?nèi)存的數(shù)據(jù)、加速器不同部分之間的同步開(kāi)銷(xiāo)和控制開(kāi)銷(xiāo)等因素,實(shí)際性能可能會(huì)顯著低于 TOPS 值。根據(jù)加速器的架構(gòu)和工作負(fù)載特性,
更高的 TOPS 不等于更高的性能
雖然較高的 TOPS 值可以表示具有更多計(jì)算元素的更大 AI 加速器,但現(xiàn)實(shí)情況可能恰恰相反。更高的 TOPS 通常會(huì)導(dǎo)致更大的加速器具有更多的計(jì)算元素和內(nèi)存塊,以將數(shù)據(jù)饋送到這些計(jì)算單元,這會(huì)導(dǎo)致更高的成本和功耗。另一方面,高效的加速器使用較少數(shù)量的計(jì)算資源提供更高的性能,因此 TOPS 評(píng)級(jí)較低。最終,理想的 AI 加速器是使用低 TOPS 提供高性能的加速器。
TOPS 不包括所有計(jì)算類(lèi)型
TOPS 指標(biāo)考慮了加速器的乘法器和加法器,這通常會(huì)導(dǎo)致性能指標(biāo)不準(zhǔn)確,因?yàn)榧铀倨骺梢該碛谐酥獾钠渌?jì)算資源。例如,Kinara 的架構(gòu)采用歸約樹(shù)而不是加法器陣列,從而顯著降低能耗。由于在此計(jì)算中未捕獲歸約樹(shù)的計(jì)算能力,TOPS 指標(biāo)將不夠準(zhǔn)確。ResNet50、MobileNet V1 和 YOLO_v3 等標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)在比較不同的加速器時(shí)非常有用,因?yàn)樗鼈円部梢杂米鳌安聹y(cè)”給定加速器是否能夠滿(mǎn)足開(kāi)發(fā)人員自身工作負(fù)載需求的代理。
推理延遲是評(píng)估 AI 加速器性能的指標(biāo)
對(duì)于在 Edge AI 上進(jìn)行投資的企業(yè),通過(guò)基準(zhǔn)測(cè)試計(jì)算性能提供了一種可靠的方法來(lái)計(jì)算計(jì)算硬件結(jié)構(gòu)與 TOPS。由于大多數(shù)實(shí)際應(yīng)用程序需要極快的推理時(shí)間,因此衡量性能的最佳方法是運(yùn)行特定的工作負(fù)載,通常是 ResNet-50、EfficientDet、Transformer 或自定義模型,以了解加速器的效率。使用不同類(lèi)型、大小、拓?fù)浜洼斎敕直媛实木W(wǎng)絡(luò)進(jìn)行實(shí)時(shí)處理,可以得出推理延遲度量。該指標(biāo)計(jì)算加速器完成一個(gè)特定 AI 模型的干擾的執(zhí)行時(shí)間。
隨著 AI 工作負(fù)載及其支持計(jì)算架構(gòu)的發(fā)展,通過(guò)準(zhǔn)確的性能測(cè)量確保其可預(yù)測(cè)性具有重大影響,可以引導(dǎo)開(kāi)發(fā)人員做出更優(yōu)化的決策。通過(guò)使用推理延遲計(jì)算,它有助于處理和預(yù)測(cè)現(xiàn)代 AI 工作負(fù)載中的數(shù)據(jù)流,即使這些工作負(fù)載碎片化并且新架構(gòu)的發(fā)展導(dǎo)致更多的不可預(yù)測(cè)性。最終,基準(zhǔn)測(cè)試應(yīng)用程序提供了一種可信且更可靠的 TOPS 替代方案,而 AI 加速器支持更有效的評(píng)估。
審核編輯 黃昊宇
-
加速器
+關(guān)注
關(guān)注
2文章
796瀏覽量
37838 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268886
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論