摘要
當前,新型計算業務如AIGC正在蓬勃發展,算力網絡的發展也呈現出新的趨勢與特點以滿足新型業務的發展需求。重點探討面向AIGC類新型計算業務的算力網絡挑戰與設計,首先介紹AIGC類業務引入算力網絡的必要性,以及二者結合發展的意義和價值;其次設計了承載AIGC類業務的新型算力網絡架構,最后根據目前的發展趨勢和挑戰,為后續研究工作提供參考。
引言
2023年是人工智能(Artificial Intelligence,AI)大模型應用元年,多個維度的技術發展推動了人工智能生成內容(Artificial Intelligence Generated Content,AIGC)的產生,其在知識問答、翻譯、摘要說明、內容創作等諸多應用中有著非凡的性能表現,成為數字經濟時代的新引擎。目前,AIGC技術已經成為人工智能領域的熱點話題,并延伸至多個應用領域,如智能家居、自動駕駛、智能醫療等。
當前,AI應用計算量呈幾何級數增長,算法模型向巨量化發展,人工智能模型參數在過去十年增長了十萬倍[1]。因此,AIGC類新型計算業務對算力和通信的要求非常高,需要相匹配的算力網絡來支持其發展。隨著數字化程度加快以及大模型對算力需求的不斷提高,未來數字經濟的發展將會越發依賴于算力網絡,AIGC類新型業務與算力網絡的結合將會創造出更加智能化、數字化和人性化的業務應用。本文將重點探討面向AIGC類新型計算業務的算力網絡挑戰與設計,為相關領域的技術人員提出研究和發展方向的建議。未來,期待算力網絡和AIGC有更加廣泛和深入的應用,同時,需要關注技術發展中的風險和挑戰,推動相關部門制定政策和采取措施,確保人工智能技術的發展能夠更好地為人類社會服務。
1 AIGC類業務和算力網絡的必要性
1.1 AIGC類業務的發展和應用
通用人工智能(Artificial General Intelligence,AGI)是指一種可以具備人類智能水平的人工智能系統。AGI的主要特點是可以通過學習、理解、推理和創造等方式,來處理各種復雜任務,包括語言理解、圖像識別、自然語言處理(Natural Language Processing,NLP)等。而AIGC作為AGI發展的第一步,將人工智能、通信技術和云計算等技術進行融合,實現智能化的數據處理和分析,AIGC既是從內容生產者視角進行分類的一類內容,又是一種內容生產方式,還是用于內容自動化生成的一類技術集合[2]。雖然目前AGI技術還處于研究階段,但是AIGC的相關應用隨著大模型的出現實現了快速發展。
當前AIGC類業務的發展和應用已經非常廣泛,包括音頻、文本、圖像、視頻生成及圖像、視頻、文本間的跨模態生成,同時AIGC已經在許多實際應用中取得了顯著成果,如文本生成、藝術創作、游戲開發等。許多公司和研究人員已經成功將AIGC技術應用于實際項目和產品。
其中較為著名的生成式預訓練轉換模型(Generative Pre-trained Transformer,GPT)主要基于三個技術:自然語言處理中基于注意力機制的序列到序列模型Transformer[3];采用Prompt機制用于指導模型生成特定類型的輸出;利用Fine-tune微調技術針對預訓練模型通過少量的標記數據集,在新的任務或領域上訓練模型來改進其性能。
以GPT[4]為例,2023年涌現了大量的大型語言模型(Large Language Models,LLMs)[5-6]和AIGC相關領域[7-8]的研究。以GPT-3、GPT-4為代表的超大規模預訓練模型,以數據和算力優勢取代了一些小型算法模型,展示了一條通向通用人工智能的可行路徑[9]。表1列舉了國內外主流AIGC大模型和應用概況。
表1 主流AIGC大模型和應用概況
AIGC大模型的集體涌現為在算力網絡中部署AIGC相關應用的研究提供了方向和實踐,同時也對業務的算力要求、數據安全以及隱私保護提出了挑戰。總之,隨著人工智能、物聯網、云計算等技術的不斷發展,AIGC技術的應用將會越來越廣泛,將為各行各業帶來更高效、安全、智能的服務。 1.2 AIGC類業務的特點 AIGC類業務通過使用具有大量算力的大模型,從海量數據中提取出有效信息,實現自動化的數據處理和決策,如圖1所示。AIGC類業務具有以下特點。
圖1 AIGC類業務流程 1.2.1 大量、多樣的數據上傳和下發 在AIGC類業務中,數據上傳通常是指數據的采集和傳輸,包括對各類數據進行預處理和標注等操作。如來自傳感器、監控設備、社交網絡、移動設備等不同來源的結構化、非結構化和半結構化數據。數據需要進行清洗、轉換和整合,以便進行深度學習和機器學習算法的應用。由于傳輸的數據量通常很龐大,需要高帶寬和低延遲的網絡來支持。數據下發是指將訓練好的模型、算法和結果傳輸回客戶端或其他系統,隨著數據規模的增大和多樣化,處理數據的能力也需要不斷提升。 1.2.2 不斷擴大的模型需要大量算力來支持 在AIGC領域應用的大模型通常由多層級的復雜結構組成,需要處理數以百萬計的參數和變量,這些模型和算法通常需要大量的計算資源來進行訓練和推理。為了處理海量的數據和復雜的模型,需要使用并行計算和分布式計算技術,以利用多個計算機或處理器來同時處理數據。此方式可以顯著提高計算效率,縮短訓練模型的訓練時間,并幫助解決計算能力的瓶頸問題。同時,也需要高效的算法設計和優化,以減少計算和存儲的成本,提高系統的可擴展性和穩定性。因此,對于AIGC類業務,大量算力是其發展和應用的基礎和核心,對算力的需求也是其面臨的主要挑戰之一。 在普通的計算任務和業務中,傳統的計算方法如邊緣計算和云計算具有一定的局限性,無法完全滿足AIGC類業務的需求。例如在解決數據延遲問題上,云計算和邊緣計算在處理大量的AIGC類業務數據時無法保證低延遲;在傳輸帶寬方面,云計算和邊緣計算通常依賴于網絡連接進行數據傳輸,而網絡帶寬有限,尤其是在邊緣計算中,邊緣設備通常只有較低的帶寬和存儲能力,難以處理大量的數據傳輸任務;在數據隱私與安全方面,模型的私有化以及AIGC類業務中的數據往往包含敏感信息,傳輸到數據中心或邊緣設備進行處理時增加了數據被竊取或篡改的風險。 云計算和邊緣計算在許多常見的計算任務和業務中發揮著重要作用。然而,對于一些復雜和大規模的計算任務,傳統的計算方式受限于計算能力、數據處理能力和模型表達能力等。因此,針對這些場景,引入人工智能技術配合算力網絡的交易分發,基于AIGC類業務的算網架構可以提供更高效、準確和自動化的解決方案。 綜上所述,AIGC類業務有大量數據需要上傳和下發,大模型也需要大量算力。傳統的計算方法已經無法滿足AIGC類業務的需求,需要一種高效的數據傳輸和處理方法來支持業務的快速發展,而算力網絡正是具備強大的算力、數據處理和自動化的工具,同時具有高度可擴展、可靠和彈性的系統設計能力。 算力網絡作為構建AIGC落地的基礎設施,將云—邊—端三層算力結構組織調度成具有高效和安全性能的網絡,共同完成大規模計算任務。算力網絡的主要作用是提供分布式計算服務,可以處理各種復雜計算任務,例如人工智能、機器學習和大數據分析等。 在算力網絡中,為了解決數據上傳和下發以及大模型的算力問題,AIGC類業務通常采用分布式系統和云—邊—端協同計算等技術來支持數據的高效傳輸和處理。例如,通過分布式存儲和計算等技術,可以將數據和計算任務分散到多臺計算機上,從而提高數據處理和模型訓練的效率。同時,邊、云服務器也提供了豐富的計算資源和服務,包括高速網絡、高性能計算等,可以提高數據處理和模型訓練的效率,進而滿足AIGC類業務的需要。
2 承載AIGC類業務的算力網絡架構和設計
傳統的算力網絡從邏輯功能上可分為算力服務層、算網管理層、算力資源層、算力路由層和網絡資源層。其中,算力路由層包含控制面和轉發面,以實現泛在計算和服務的感知、動態分布計算與存儲資源的互聯。如何將遍布在云—邊—端泛在部署的異構多樣算力資源以及繁多碎片化AIGC類業務間進行有效協同,驅使業務應用能平滑地在各級算力資源上進行流轉運行,充分利用巨量算力資源,是承載AIGC類業務算力網絡架構設計的關鍵點[10]。與傳統的算力網絡架構設計相比,承載AIGC類業務的算力網絡架構把網絡資源層和算力資源層合并為網絡基礎設施層,以實現由網絡資源、計算資源分治管理到算網統一控制和管理;由網絡調度過渡到網絡和計算聯合調度,由網絡的度量過渡到網元和算力節點的互聯、度量和建模;AIGC需要大規模的計算資源,在算網融合層設計時通過分布式服務和存儲以提高大模型的訓練效率。 AIGC類業務通常需要大規模的計算資源來支持其復雜的計算需求[11]。AIGC類業務的流程是用戶上傳原始數據任務(包括文本、圖像、視頻)至算力網絡的算力節點,由算力提供商接受任務后利用模型訓練生成內容,其中模型包括自回歸模型、生成對抗網絡、變分自動編碼器、基于流的生成模型、擴散模型等大模型;在交易達成后,AIGC類服務提供商將生成的內容分發給用戶。 承載AIGC類業務的算力網絡架構和設計需要充分考慮業務需求和技術實現,提供高性能、高可靠性、安全的計算資源支持。如圖2所示,新型算力網絡架構可分為網絡基礎設施層、算網融合層和應用服務層。
圖2 面向AIGC類新型算力網絡架構設計 2.1 網絡基礎設施層網絡基礎設施層是新型算力網絡架構的基礎底座,可構建多層次的異構算力網絡,包括云算力節點、邊緣算力節點、端側算力節點等異構多層次算力節點構成的算力資源池。其中網絡基礎設施包括5G/超5代移動通信系統(B5G)接入網絡、確定性邊緣網絡、確定性廣域網絡、確定性數據中心網絡等。 2.2 算網融合層算網融合層是新型算力網絡架構的中樞系統,主要實現算網狀態感知、算網資源調度以及算網智能決策三大功能。算網狀態感知方面,在面向AIGC的算力網絡設計中,通過對計算與網絡資源狀態信息的采集或監測,實現對邊緣計算節點和網絡設備運行狀態的精準感知,進而為計算任務的調度決策提供支撐,同時為邊緣計算節點和網絡設備的運營維護提供數據支撐。算網資源調度方面,通過對計算與網絡資源狀態信息的采集、處理和分析,結合機器學習相關算法,實現對邊緣計算節點算力狀況以及網絡狀況的預測,進而提升對計算與網絡資源狀態的感知能力,實現資源的精細化分配、計算任務的實時調度。算網智能決策方面,基于算網狀態智能感知,算力網絡中進行自動化分析建模和決策并將決策結果反饋至算力網絡控制系統,提供智能化、自動化決策治理能力,實現算網資源的智能決策。 2.3 應用服務層應用服務層主要包括智能運維、可信交易、開發支撐、綜合管控四大功能,其中AIGC類業務通過算力網絡交易平臺進行交易。為了保證安全性和可靠性,交易采用區塊鏈分布式賬本記賬的方式,以鏈式數據結構存儲交易信息,并將信息保存在鏈上,確保任何數據都是真實且不可篡改的。
3挑戰與展望
在面向AIGC類新型計算業務的算力網絡設計中,AIGC類新型計算業務對算力網絡具有高計算、高帶寬、高存儲、低延遲、可靠性等要求,而算力網絡在面向AIGC類新型計算業務中的瓶頸和挑戰包括:計算資源的分布分散、資源調度的復雜度較高、數據傳輸存在帶寬限制、保障數據隱私和安全等。其中調整卸載調度算法和路由策略、保障安全和優化服務交易是三大關鍵問題。 在調整卸載調度算法和路由策略方面,由于AIGC類業務的特殊性,傳統的調度算法和路由策略不再適用。由于大模型需要大量算力支持,選擇合適的節點和路徑至關重要,以確保業務能夠高效地運行并最大化利用計算資源。這涉及到算力網絡中的資源分配、協調和管理,需要設計新的算法和協議來解決上述問題。根據具體的應用場景和需求,提出以下3項方案。 ·基于網絡拓撲結構的靜態調度方案:根據AIGC類業務和網絡拓撲結構的不同,將計算任務調度到不同的節點上執行,以實現負載均衡和最小化數據傳輸成本。 ·基于機器學習算法的動態調度方案:利用機器學習算法對計算任務進行預測,實現任務的動態調度和資源的自適應分配,以提高整個系統的性能和效率。 ·采用分層架構的路由方案:將網絡按照層次結構劃分,根據不同的層次對數據進行路由轉發處理,實現低延遲和高吞吐量的數據傳輸。 在保障安全方面,AIGC類業務的大規模數據上傳和下發以及大模型的計算過程可能涉及機密數據和敏感信息。因此,保障數據的安全和隱私至關重要。此外,由于AIGC類業務對算力網絡的高要求,攻擊者可能會利用算力網絡中的弱點來發動攻擊,如分布式拒絕服務攻擊(Distributed Denial of Service,DDoS)和惡意節點攻擊。因此,需要設計和實現高效的安全機制來保護算力網絡和AIGC類業務的安全。 在優化服務交易方面,由于AIGC類業務的特殊性質和大規模需求,交易模式和機制需要重新設計和優化。需要實現高效的服務匹配和交易,并確保交易的公正性和透明性。同時需要建立高效的自動化服務管理和監控機制,以提高服務的質量和可靠性。 通過設計智能合約結合區塊鏈的算力交易方案,應用區塊鏈去中心化以及分布式數據同步及存儲的技術優勢,將算力交易分布在各個算力資源節點。為確保交易的安全可信,算力需求方與資源提供方都要向第三方的數字證書簽發機構申請數字證書和私鑰,用于對交易結果進行簽名確認,之后才能進行算力交易,如圖3所示。
圖3 基于區塊鏈智能合約的算力交易模型 因此,在算力網絡與AIGC結合的過程中,通過跨學科的研究和合作,利用機器學習、區塊鏈等先進技術,可以創新地調整卸載調度算法和路由策略用于保障安全和優化服務,確保算力網絡和AIGC類業務的高效、安全和可靠運行。
4 結束語
本文面向AIGC類新型計算業務的算力網絡設計與挑戰,提出AIGC類業務引入算力網絡的必要性,設計未來承載AIGC類業務的算力網絡架構,討論了目前遇到的挑戰和未來的發展趨勢。未來,業界將緊跟算力網絡技術和AIGC類業務及其應用領域的需求,持續關注相關的算力網絡設計與實現方案。
-
人工智能
+關注
關注
1791文章
47183瀏覽量
238266 -
自然語言處理
+關注
關注
1文章
618瀏覽量
13552 -
AIGC
+關注
關注
1文章
361瀏覽量
1539
原文標題:面向AIGC類新型計算業務的算力網絡挑戰與設計
文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論