作者:金磊
什么樣的技術(shù)能經(jīng)歷時間洗禮還歷久彌新?
答案或許可以歸總為一個“三部曲”般的規(guī)律——興起、發(fā)展和大規(guī)模應(yīng)用,外加這個過程再一次演進式的迭代。
以史為鑒,引領(lǐng)第一次工業(yè)革命的是蒸汽機,當(dāng)它演進成為內(nèi)燃機并開始普及時,第二次工業(yè)革命的顛覆者——電能本身以及與它相關(guān)的各種設(shè)備正處于初創(chuàng)期,而在電力設(shè)備走向微電子的迭代革新時,各種燃油引擎還在持續(xù)改良和普及中。
從這個規(guī)律來看,大語言模型(簡稱LLM)出現(xiàn)后雖然霸占了所有與AI相關(guān)的關(guān)鍵詞,吸引了所有人的注意力,但這并不代表“LLM之前無AI”。
在大模型出盡風(fēng)頭的同時,此前以決策為特長的老一代機器學(xué)習(xí)應(yīng)用,以及側(cè)重感知能力的“傳統(tǒng)”深度學(xué)習(xí)應(yīng)用也沒閑著,它們正走過喧囂的青春期,步入穩(wěn)扎穩(wěn)打的實戰(zhàn)階段。
何以為證?
某芯片大廠就推出了一連串的AI實戰(zhàn)手冊,分別鎖定制造與能源、醫(yī)藥、金融、交通與物流,以及教育行業(yè)的AI實踐。
在今年更新的物流交通和醫(yī)療健康A(chǔ)I實戰(zhàn)手冊中,就記錄了很多已經(jīng)或正在落地的AI應(yīng)用,及如何將它們順利部署和充分釋放其性能加速潛力,當(dāng)然還有它們在一些耳熟能詳?shù)念^部企業(yè)深入一線的應(yīng)用實例。
所以,AI不是只有大模型。AI的大模型時代也 ≠ 只有大模型的AI時代。
成熟的AI,早就已經(jīng)上崗了
或許你還不敢相信,現(xiàn)在哪怕小小的快遞背后,都已經(jīng)有AI技術(shù)在加持了。
沒錯,而且近乎涉足了物流全流程:下單、發(fā)貨、分揀、轉(zhuǎn)運、配送……AI現(xiàn)在統(tǒng)統(tǒng)都要“管一管”。
以經(jīng)典的OCR(光學(xué)字符識別)技術(shù)為例,它在物流“技術(shù)界”的地位可謂是舉足輕重,大幅提高了工作效率。
比如發(fā)貨時的寄件人填報地址、身份信息,電商倉庫核對出貨的貨品信息,都可以借助OCR,“啪地一下”,實現(xiàn)一鍵錄入。
隨著AI技術(shù)的愈發(fā)完善和應(yīng)用的加深,這種速度做到了“沒有最快只有更快”。
我們熟知的韻達快遞就是如此,在三段碼OCR識別過程中,它原本希望AI能將OCR識別的準(zhǔn)確率達到95%。
結(jié)果現(xiàn)在的AI卻給韻達“上了一課”,不僅準(zhǔn)確率直接飆到接近98%,甚至?xí)r間也給“打了下去”:從130ms降至114ms。
性能測試結(jié)果基于韻達于2022年10月進行的測試
而且OCR識別還僅僅是AI涉足物流行業(yè)的小小一隅,一張圖來看感受下它現(xiàn)在所起到的power:
嗯,AI如此all in,怪不得國內(nèi)物流的速度都要起飛了呢。
不過朋友,這還僅僅是AI加速千行百業(yè)的一個案例,其實我們現(xiàn)在每天的出行,同樣也是充斥著AI的“味道”。
例如AI視頻分析技術(shù),可以針對高速公路上的路況做到實時地分析。
不論是車流流量監(jiān)控、車輛車牌識別,亦或是事故預(yù)警等等,AI可謂是將一切盡收眼底。
如此一來,便可以有效且精準(zhǔn)地對路面狀況做到把控。
再如機場,在AI技術(shù)加持下的攝像頭,也可以細粒度識別航空器、車輛、人員,以及違邊等情況,這樣便對飛行區(qū)域的安全提供了一定的保障。
從以上幾個小小用例中不難看出,“成熟”的AI,或者說幾年前那些當(dāng)紅明星類的AI應(yīng)用看似風(fēng)光不在,但它們實則已深入到我們生活中的方方面面,并且主打的就是一個“節(jié)支增效”。
那么如此“節(jié)支增效”背后,到底是怎么做到的?
不賣關(guān)子,直接上答案——
提供幫助的正是英特爾的平臺,特別是至強?可擴展處理器。同樣,我們前文所指的某芯片大廠也是英特爾,給出多個行業(yè)AI實戰(zhàn)手冊的還是它。
但解鎖如此能力的,可不僅僅是一顆CPU這么簡單,而是有英特爾軟件層面上的優(yōu)化加成;換言之,就是“軟硬一體”后的結(jié)果。
簡單歸結(jié):至強?可擴展處理器及其內(nèi)置的AI加速器,以及OpenVINO?,oneAPI等一系列AI框架和優(yōu)化軟件打輔助。
當(dāng)前影響AI應(yīng)用性能的要素?zé)o非兩個:算力和數(shù)據(jù)訪問速度。
目前最新的第四代至強?可擴展處理器的單顆CPU核數(shù)已經(jīng)增長到最高60核。而在數(shù)據(jù)訪問速度上,各級緩存大小、內(nèi)存通道數(shù)、內(nèi)存訪問速度等都有一定程度的優(yōu)化,另外在CPU Max系列中還集成了HBM高帶寬內(nèi)存技術(shù)。
此外,在CPU指令集上也做了優(yōu)化,內(nèi)置了英特爾?高級矩陣擴展(英特爾 AMX)等硬件加速器,負責(zé)矩陣計算,加速深度學(xué)習(xí)工作負載,堪稱CPU加速AI應(yīng)用的C位。
AMX由兩部分組成,一部分是1kb大小的2D寄存器文件,另一部分是TMUL模塊,用來執(zhí)行矩陣乘法指令。它可同時支持INT8和BF16數(shù)據(jù)類型,且BF16相較于FP32計算性能更優(yōu)。
有了AMX指令集加持,性能比前一代至強?可擴展處理器內(nèi)置的矢量神經(jīng)網(wǎng)絡(luò)指令集VNNI提升達8倍,甚至更高。
除了核心硬件平臺外,實際情況中幫助這些行業(yè)實戰(zhàn)AI應(yīng)用落地的,還有一系列英特爾“親生”但不“私享”的AI軟件工具。
例如前面提到的OCR加速就離不開OpenVINO?的優(yōu)化,它刪減了很多訓(xùn)練部分所需的冗余計算,主要支持推理部分。
而且也是專門針對英特爾硬件打造的優(yōu)化框架,只需5行代碼就可以完成原有框架的替換。
用戶可以針對不同業(yè)務(wù)場景,來優(yōu)化OpenVINO?運行參數(shù)。
這樣一套軟硬件組合拳打下來,英特爾不僅充分釋放了CPU計算潛力,而且在實際的推理場景中也實現(xiàn)了近乎GPU的性能,同時還有成本低、門檻低、易上手等附加優(yōu)勢。
然而,這些僅僅是已經(jīng)成熟上崗的AI技術(shù)在英特爾?平臺得到的優(yōu)化,英特爾的能力還遠不止如此。
這就要說回大模型了。
當(dāng)紅大模型,也在被加速
目前大語言模型正被全球各大科技公司競相追逐,畢竟現(xiàn)在科技圈都將它視為未來發(fā)展的趨勢所在。
雖然相比那些成熟的AI技術(shù)和應(yīng)用,它距大規(guī)模落地還有段距離,但其技術(shù)領(lǐng)先性不容置疑,乃至“老一輩”的AI應(yīng)用也有望在與它結(jié)合,或被它改造后重?zé)ㄐ律?/p>
英特爾作為基礎(chǔ)算力輸出者和應(yīng)用性能加速器,同樣在這場你追我趕的競技場中未雨綢繆,早有布局。
首先,大模型再先進,也需要有更多人用上它,才可充分變現(xiàn)其價值。要想“玩轉(zhuǎn)”它,在其龐大的體量面前,成本便是一個老大難的問題。
因此,英特爾就祭出了一款增強型的“減(量)重(化)神(工)器(具)”,可以讓一個十億參數(shù)的大語言模型瘦身3/4,增強其準(zhǔn)確性,還能有效地提升大模型在英特爾?平臺上的推理性能。
具體而言,所用到的是SmoothQuant技術(shù),英特爾將其適配到自己的平臺,并實現(xiàn)其增強。此方法已經(jīng)整合至英特爾 Neural Compressor。這是一個包含量化、剪枝(稀疏性)、蒸餾(知識提煉)和神經(jīng)架構(gòu)搜索等多種常用模型壓縮技術(shù)的開源Python庫,它已經(jīng)支持多款英特爾?架構(gòu)的硬件,并且已經(jīng)兼容TensorFlow、PyTorch、ONNX Runtime 和MXNet等主流框架。
其次,在硬件層面上,英特爾也有所發(fā)力。
例如最近大火的ChatGLM-6B,其借助第四代至強?可擴展處理器內(nèi)置的英特爾?AMX,讓模型微調(diào)計算速度得以大幅提升;利用至強 CPU Max系列處理器集成的HBM,滿足大模型微調(diào)所需的大內(nèi)存帶寬。
英特爾 AMX 技術(shù)架構(gòu)
除了CPU,英特爾還有專用的深度學(xué)習(xí)加速芯片Habana Gaudi2 ,其能在單個服務(wù)器內(nèi)部署8張加速卡(稱為Habana處理單元,即Habana Processing Unit,簡稱為HPU),每張卡內(nèi)存高達96 GB,可提供足夠的空間來容納大模型。
因此即使是BLOOMZ這樣擁有1760億參數(shù)的千億級大語言模型,經(jīng)英特爾優(yōu)化后也能將性能時延控制在3.7秒。對于參數(shù)量為70億的較小模型BLOOMZ-7B,在Gaudi2的單設(shè)備時延約為第一代Gaudi?的37.21%;而當(dāng)設(shè)備數(shù)量都增加為8后,這一百分比進一步下降至約24.33%。
BLOOMZ 在 Gaudi2 和第一代 Gaudi?上的推理時延測試結(jié)果
而后在軟件層面上,針對像ChatGLM這樣大受歡迎的大語言模型,英特爾還可以通過為其創(chuàng)建 OpenVINO stateful模型來實現(xiàn)優(yōu)化:壓縮權(quán)重以降低內(nèi)存帶寬使用率,提升推理速度。
這便是英特爾“軟硬一體”打法在大模型應(yīng)用上的直接體現(xiàn)了。而且硬件還不再僅限于CPU,更是有可在訓(xùn)練和推理性能上都可與GPU比肩,在性價比上饞哭大家的Gaudi?。
最后在安全方面,英特爾也是做到了“魚與熊掌兼得”:基于英特爾?SGX/TDX的可信執(zhí)行環(huán)境(TEE)可為大模型提供更安全的運行環(huán)境,還不需要拿性能做交換。
這便是英特爾在AI大模型時代中的“加速之道”了。
還會帶來怎樣的變革?
縱觀AI技術(shù)的發(fā)展之路,不難發(fā)現(xiàn)英特爾在其中履行著一條非常清晰的準(zhǔn)則——用起來才是硬道理。甚至只在數(shù)據(jù)中心和邊緣中用都不夠,最好每個人的每臺電腦,每個信息終端設(shè)備都有獨立加速AI應(yīng)用的能力才能“芯”滿意足。
因此英特爾已將創(chuàng)新使命調(diào)整為:在各種硬件產(chǎn)品中加入AI能力,并通過開放、多架構(gòu)的軟件解決方案,推動AI應(yīng)用的普及,促進“芯經(jīng)濟”的崛起。
英特爾的“加速之道”不僅是讓技術(shù)更快落地和普及,更是要以用促用,以用促新,以用促變,為下一世代的技術(shù)變革埋下伏筆。
那么英特爾這條路上是否有一個終極目標(biāo)?
或許正如Intel Innovation 2023上不斷重復(fù)和強調(diào)的:讓AI無處不在(AI Everywhere)。
編輯:黃飛
評論
查看更多