AI將如何改變PC市場格局,以及對內存和存儲的影響
AI幾乎已經無處不在。每一天,我們都能看到或聽到AI的新進展,或者使用由AI驅動的應用。從智能助手到自動駕駛汽車,AI正在改變人類與世界互動的方式。當AI與PC相結合,將為我們帶來什么?AI能否讓PC變得更智能、運行速度更快、更好地滿足我們的個性化需求?在本篇博客中,我們將探討AI如何改變PC市場格局,以及對內存和存儲的影響。在2024年美國國際消費電子展 (CES) 上,所有熱門話題都圍繞AI展開,超過50% 的報道都與AI有關。
AI的背后是各種大語言模型 (LLM) ,這些模型的開發基于人類過往積累的海量未標記文本。您可以使用自然語言向LLM提問,它們能以同樣自然的語言做出回答,就像人類之間的交互一樣。這種能力建立在具有數十億個參數的神經網絡之上,在某些情況下,多個神經網絡連接在一起,合作生成內容。當前最熱門的LLM是ChatGPT和DALL-E,它們能夠根據用戶輸入的提示,生成仿佛真人作答的文本內容,亦或是逼真且富有創意的圖像。為實現這些令人驚嘆的功能,LLM需要海量的算力和數據。因此,目前的LLM大都托管在云端,那里有它們需要的大量硬件基礎設施和網絡帶寬。
但是,AI的實現之地不應局限在云端。將部分AI處理過程轉移到邊緣設備(即用戶端設備)上,具有很多優勢。例如,邊緣AI處理可減少網絡延遲、保護用戶隱私、節省網絡成本,還支持在離線狀態使用AI功能。設想一下,如果可以使用自己的PC生成高質量內容、編輯照片和視頻、轉錄語音、過濾噪音、識別人臉等等,而無需依賴云,是不是將更加方便和靈活?
為何看好AI PC?
PC并非唯一可從邊緣AI技術中受益的設備。智能手機、平板電腦、智能手表和其他小型電子設備也可利用AI來增強功能和性能。相比之下,PC具有一些獨特優勢,使其成為更適合邊緣AI落地的平臺。首先,PC擁有更大的屏幕,可顯示更多信息,能夠提供更好的用戶體驗。其次,PC擁有更大容量的電池,可運行更多需要更長時間的AI任務。第三,PC擁有更強的計算能力,可運行更復雜、對算力要求更高的AI模型。
芯片制造商和軟件開發商正在利用PC的這些優勢。英特爾、AMD、高通、聯發科和Nvidia等公司正在其面向PC平臺的CPU和芯片組中嵌入性能越來越強的神經處理引擎和/或集成顯卡,可提供數十TOPS(每秒萬億次操作)的AI性能。微軟表示,今年發布的Windows 11操作系統新版本將利用CPU中內嵌的AI引擎進行優化。微軟在AI時代的野心不難理解,該公司正在大力推廣旗下的Copilot,這是一項利用AI技術幫助用戶編寫代碼、調試錯誤并提出改進建議的功能。一些頭部廠商還積極與獨立軟件供應商 (ISV) 合作,幫助ISV推出更多AI優化的應用和功能,包括增強的視頻會議體驗、照片編輯、語音到文本轉換、背景環境和噪音抑制,以及面部識別等等。這些正在開發中的應用將會給我們帶來怎樣的驚喜?是否會出現“殺手級應用”?一切尚需觀察。但目前確實存在一些重要的現實問題。例如,如何才能在PC上高效運行AI模型?以及…?…
AI PC需要什么樣的硬件?
在PC上運行AI模型的主要挑戰之一是模型的大小。AI模型(尤其是LLM)可能有數十億甚至數萬億個參數,需要大量存儲空間和內存來存儲和加載。美光的內部實驗表明,一個擁有700億個參數、4位精度的Llama2模型(用于自然語言生成的主流LLM)需要大約42GB的內存才能完成加載并執行推理,輸出速度為每秒1.4個Token,而普通PC無法提供這么多的內存。這種矛盾是問題的核心,也為AI PC的未來指明了方向。未來將會出現針對特定功能的模型,可在保持準確性的同時減小模型的大小。未來的模型很可能會分化。700億參數級別的大模型可用于內存和存儲空間較大的高級系統,運行經過精細微調并針對對話用例進行優化的應用(如聊天補全)。此外,本地設備上的個人助理也可能需要大參數模型。少于100億參數的模型可用于主流設備,托管模型所需的內存增加量較少(大約2GB),可用于文本補全、完成列表以及分類等語言類任務。
很顯然,不同大小的模型需要與之相匹配的內存容量,至少對PC而言如此。除了容量之外,內存的帶寬和能效同樣非常重要。隨著PC(尤其是移動設備)的內存從DDR轉向LPDDR,帶寬和能效均不斷提升。例如,與DDR5相比,LPDDR5X在主動使用期間的功耗降低了44-54%,自刷新期間的功耗降低了86%。DDR5的帶寬為4.8Gb/s,而LPDDR5帶寬高達6.4Gb/s。如果AI能夠快速進入PC,那么LPDDR5也將加速普及。如果將部分處理過程轉移到內存中,還可進一步提高能源效率,相關研究和開發工作正在進行中。這個過程可能需要很長時間,也可能永遠無法實現。行業需要融合各廠商的技術,形成一組通用的原語,用來將任務卸載到內存中,并需要開發相關的軟件堆棧。任何一組給定原語,很難做到對所有應用都是最佳選擇。因此,我們可以說,目前PC上的“存內處理”技術還處在“問題多于答案”階段。
一個更重要的問題是:AI模型的最佳切入點在哪里?如果模型仍然相對較大,有沒有辦法減少對內存的依賴,將部分模型放在存儲設備里?如果這種辦法可行,則需要增加存儲帶寬,以滿足模型數據輪換加載的需求。這種情況可能促進Gen5 PCIe存儲設備在主流PC中的普及,或者加速Gen6 PCIe存儲設備的引入。近日Apple就該主題1發表了一篇論文:“閃存中的LLM:在有限內存中進行高效的大型語言模型推理”(作者:Alizadeh等),提出了一種在容量大于可用DRAM的設備上運行大型語言模型 (LLM) 的方法。論文作者建議將模型參數存儲在閃存中,然后根據需要將它們加載到DRAM中。他們還提出了多種優化數據傳輸量以及提升讀取吞吐量的方法,以大幅提高推理速度。論文中,用于評估各種閃存加載策略的主要指標是延遲,并分為三個不同的部分來討論:從閃存加載數據的I/O成本;使用新加載數據時的內存管理開銷;以及推理操作的計算成本。總之,該論文提出了將模型參數存儲在閃存中,然后根據需要載入DRAM的方法,為“有效運行超過可用DRAM容量的LLM”這一難題提供了一種解決方案。
PC中的AI能力仍在不斷發展中。當前將嵌入式NPU集成到CPU和獨立GPU中的方案僅僅只是開始。Kinara、Memryx和Hailo推出的AI加速卡,為在PC中卸載AI工作負載提供了一種替代實現方式。模型方面,一種可能的發展方向是面向特定功能的模型。此類模型體積較小,并且針對特定功能進行了優化。這些模型可根據需要從存儲設備載入內存,但對存儲設備性能的要求類似于大型模型。
獨立NPU的優勢包括:
·可處理復雜的AI模型和任務,功耗和發熱量比CPU和GPU更低。
·可為圖像識別、生成式AI、聊天機器人和其他應用提供更快、更準確的AI處理性能。
·可加強現有CPU和GPU的功能,增強用戶的整體AI體驗。
聯想將在2024年6月推出的ThinkCentre Neo Ultra臺式機中搭載NPU加速卡,并稱這些卡能夠提供更強大的AI處理能力,且更加節能,優于當前的CPU和GPU解決方案。2
將TOPS作為AI硬件性能評估的唯一標準,可能并不全面。就AI計算而言,更重要的是單位時間內的推理次數、準確度和能源效率。對于生成式AI,關注的指標可能是每秒輸出的Token數量,或者是在幾秒內完成穩定擴散的能力。以行業普遍接受的方式測量這些指標,需要開發相關的基準測試程序。典型案例:在本屆CES上,我參觀了所有CPU供應商、獨立NPU供應商的展位和演示。在每個演示中,廠商都聲稱他們的實現方式在某方面具有優勢。
各方對于AI PC的橫空出世確實充滿熱情和期待。PC OEM廠商將此視為一大賣點,希望AI PC能夠刺激PC更新換代,自己能夠借此獲取更高利潤。英特爾稱到2025年AI PC的出貨量將達到1億臺,幾乎占整個PC總潛在市場的30%。無論最終的市場占有率如何,對消費者而言,2024年推出的AI PC還是值得期待的。
本文作者:Prasad Alluri
VP and GM for Client Storage at SBU
-
PC
+關注
關注
9文章
2076瀏覽量
154147 -
內存
+關注
關注
8文章
3019瀏覽量
74003 -
硬件
+關注
關注
11文章
3312瀏覽量
66200 -
AI
+關注
關注
87文章
30728瀏覽量
268886
原文標題:AI PC:PC行業的顛覆性變革?
文章出處:【微信號:gh_195c6bf0b140,微信公眾號:Micron美光科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論