在數智化時代,“數據”算得上是絕對的“C位”......
作為一種重要的生產要素,數據在規模化激增的同時,其價值也正在得到釋放:新近印發的《“數據要素×”三年行動計劃(2024—2026年)》提出,到2026年底,數據要素應用廣度和深度大幅拓展,在經濟發展領域數據要素乘數效應得到顯現;以ChatGPT為代表的大模型持續火熱,在帶動算力,尤其是智能算力需求爆發的同時,也帶來了用于大模型訓練與大模型推理的海量大數據的需求。
這也僅僅是數據價值得到釋放的案例之一。而隨著AI大模型的進一步發展和普及,數據的規模將持續擴大,數據的價值還將得到進一步釋放。在人工智能領域,西部數據認為,數據的質量與數量決定了人工智能的整體水平。然而,筆者注意到,大模型訓練、推理所需的算力基礎設施除了提供算力、運力等資源外,還需要提供存力,也就是數據存儲力,這對數據存儲的性能、容量、成本以及能耗提出新的要求。
“木桶效應”里,數據存力不做“短板”
算力、數據、算法是支撐AI大模型落地的三大要素,在大模型爆發初期,企業普遍將注意力放在價格高昂、供不應求的智能算力上,容易被忽略的數據存力同樣起著至關重要的作用。事實上,大模型的訓練與推理需要依托計算芯片、存儲與網絡共同構成的大規模算力集群,這其中,算力、存力、運力都不應該成為“木桶效應”的“短板”。
事實上,算力集群也是存在短板效應的,假如存儲和網絡無法支撐大規模數據存儲、讀寫與傳輸,即使計算芯片的性能再強,也不會有用武之地,同時還會影響大模型訓練的效率。之所以這樣說是有原因的,相關調查顯示,大模型場景對于數據存力有著高吞吐、高IOPS、高帶寬、低延時的極致性能需求。如若存儲性能達不到要求,會使得數據存力成為“短板”。
西部數據進一步指出,目前AI應用場景的存儲架構主要建立在分層存儲、存算分離的基礎上,整套數據存儲架構必須同時滿足容量、性能、成本以及能耗的多樣化要求,搭配多樣化的產品組建數據存儲基礎設施。下面,筆者也將從大模型訓練的數據所擁有的特征來驗證西部數據的這一觀點。
我們需要承認的事實是,大模型訓練所需的數據規模是龐大的:以文檔、圖片、音視頻為代表的非結構化數據,其規模可以達到幾億至幾十億量級;從純文本的TB級到多種數據類型的PB級都需要占據大量的存儲空間。
因此,海量數據需要存儲系統支持高吞吐、大容量,同時支持多種協議數據互通,讓數據能夠快速地在各個環節流轉,避免數據等待產生算力閑置的狀況。
大模型訓練對存儲帶寬也是有要求的,據悉,大模型訓練存儲帶寬的要求比電商業務頂峰時段高出幾百甚至幾千倍,存儲性能的高低可能造成模型訓練周期數倍的差異。此外,大模型落地的成本也是關注的焦點,千億級別參數、動輒以月來計算的訓練周期,意味著極大的存儲成本,降低成本成為關鍵所在。
破解存力短板,西部數據有哪些解決方案?
滿足AI時代數據存儲的需求,存儲解決方案提供商需要從容量、性能、成本、能耗等方面出發,打造多樣化、差異化的解決方案。西部數據以企業部署AIGC應用工作負載為例,對其所需的存儲解決方案進行說明。西部數據認為,未來,以AIGC為代表的先進數字化應用產生的以存為主、低頻使用且價值不太明顯的非結構化數據的價值挖掘也將成為企業中的關鍵性問題。
西部數據預計,高效可靠地進行海量非結構化數據的存儲和分析,將成為企業數據治理的一個重要考量。面對AI大模型的進一步發展和普及,西部數據將繼續憑借在存儲領域的多年積累和核心優勢,提供多樣化的數據存儲解決方案和產品,為AI大模型進一步發展提供數據存儲基礎架構的堅實底座。具體來看,西部數據所提供的低時延、更高IOPS的SSD產品和大容量滿足更低TCO和功耗的HDD產品能夠為相關基礎設施建設提供存儲解決方案支持。
在Flash領域,西部數據打造的企業級SSD擁有三大核心技術優勢,也就是集成完全自主的NAND Flash、先進的SSD控制器和高性能固件于一體,這樣集成能夠讓SSD實現性能和穩定性的極致優化,確保SSD生命周期穩定的I/O一致性。同時,西部數據攜手鎧俠成功地推出第八代218層3D閃存,在性能、密度和成本效益方面實現了重大飛躍。西部數據還提供包括SN840、SN650、SN655在內的針對不同需求的企業級SSD產品,從而滿足豐富多樣的應用需求。
而在HDD領域,西部數據借助創新的OptiNAND技術、能量輔助磁記錄(ePMR)、三階尋軌定位系統(TSA)、氦氣封裝(HelioSeal)以及全新的UltraSMR技術,能夠更好地幫助云服務客戶降低存儲總體擁有成本(TCO),從而持續、快速地擴展業務。同時,由于在面密度技術上的獨特優勢,西部數據能夠更好地幫助客戶獲得更低的每TB容量功耗,幫助數據中心客戶提高PUE(電源使用效率)。
在HDD產品上,西部數據可提供容量高達24TB 的Ultrastar DC HC580 CMR HDD、及28TB 的Ultrastar DC HC680 SMR HDD。據了解,UltrastarDC HC680 SMR HDD為超大規模云、云服務提供商和企業級客戶提供了更高的存儲密度,廣泛應用于大容量存儲、在線備份、智慧視頻、在線歸檔、云存儲、合規性存儲、大數據存儲以及其他可能不常訪問數據的應用。
西部數據透露,自2023年8月出樣以來,28TB SMR HDD正在快速進入市場,它將進一步增強西部數據在SMR HDD市場的地位與發展勢頭。在公司2024財年第1季度,西部數據26TB SMR HDD總出貨量將達到其數據中心產品總出貨量的近50%。
攜手合作伙伴,打造AI時代的存儲方案
數據存儲離不開合作伙伴,西部數據一直以來積極與合作伙伴在產品、技術和市場方面持續合作。在產品上,西部數據積極地與重要的軟件開發商、云服務提供商都在做進一步方案系統升級的優化合作,并將最新的技術和產品交付樣品給合作伙伴做聯合測試,持續優化可能存在的問題,最終打造出符合合作伙伴和市場需要的解決方案。
比如,越來越多的客戶將SMR添加到其數據中心發展路線之中,通過優化堆棧以發揮SMR技術的優勢。因此,這些客戶還可以通過采用目前市場上更大容量的HDD產品,以更低的功耗擴展產品組合部署,從而在上市速度方面持續保持優勢。
據悉,西部數據UltrastarDC HC680已由部分超大規模云、云服務提供商和OEM客戶進行驗證,西部數據也希望以較低的每TB功耗,想要獲得更大存儲容量的大型企業級客戶供貨,用以構建更高效的存儲系統和數據中心。
此外,西部數據還在上海浦東打造了西部數據解決方案賦能中心,以此來支持企業級、OEM客戶進行產品與解決方案的測試,進一步支持本土市場。
除了合作伙伴,用戶的反饋也是至關重要的。在西部數據看來,存儲技術的發展離不開每一位應用和創造出數據的用戶。為此,西部數據將持續聆聽市場的聲音和用戶的反饋,不懈地創新、共同地開發滿足未來存儲需求的產品和解決方案。
面向未來,西部數據透露,也將積極地與行業內的頭部云服務商、OEM以及其他合作伙伴保持緊密的合作關系,通過幫助部署西部數據創新的企業級存儲產品,打造符合當前AI技術快速增長、多元AI應用不斷涌現時代下的存儲解決方案,進一步賦能新型計算與綠色算力的發展。
寫在最后
如今的AI賽道可謂異常火熱,這種火熱不僅是端側的大模型數量與規模的持續擴大,也不僅是大模型的訓練與推理帶來的智能算力的需求,同時還是AI持續賦能云、網、邊、端的持續升級。而在這場關于AI賦能的競賽中,我們不可否認的是,AI在帶來新的機遇的同時也帶來挑戰,這包括算力、大模型質量、安全,這也包括數據存儲。
換言之,隨著AI的迅猛發展,數據存儲需求的持續增加正在成為一個不可忽略的事實。據統計,AI服務器所需的DRAM和NAND閃存容量分別是常規服務器的8倍和3倍。這也意味著存儲系統必須具備足夠的容量來存儲海量的訓練數據和模型參數,以支持人工智能應用的高性能運行。
在這個背景下,我們看到以西部數據為代表的存儲解決方案廠商充分整合積累的專業技術能力與各行業的合作經驗,通過技術創新、解決方案的持續打造、與合作伙伴持續深入地合作和賦能,持續提供針對AI應用領域存儲需求的定制化解決方案,為AI時代貢獻著自己的力量。
審核編輯 黃宇
-
存儲
+關注
關注
13文章
4296瀏覽量
85800 -
數據存儲
+關注
關注
5文章
970瀏覽量
50894 -
西部數據
+關注
關注
5文章
528瀏覽量
46143
發布評論請先 登錄
相關推薦
評論