在大規(guī)模生產(chǎn)中部署人工智能支持的服務(wù),如基于語音的助手、電子商務(wù)產(chǎn)品推薦和呼叫中心自動(dòng)化,是一項(xiàng)挑戰(zhàn)。在降低運(yùn)營成本的同時(shí)提供最佳的最終用戶體驗(yàn)需要考慮多個(gè)因素。其中包括底層基礎(chǔ)設(shè)施的組成和性能、基于用戶需求擴(kuò)展資源的靈活性、集群管理開銷和安全性。
為了應(yīng)對(duì)大規(guī)模部署人工智能的挑戰(zhàn),企業(yè) IT 團(tuán)隊(duì)已采用 Kubernetes ( K8s )進(jìn)行容器編排和 NVIDIA 加速計(jì)算,以滿足生產(chǎn)人工智能部署的性能需求。此外,人們?cè)絹碓疥P(guān)注操作系統(tǒng)( OS )在生產(chǎn)基礎(chǔ)設(shè)施中的作用。生產(chǎn)環(huán)境的主機(jī)操作系統(tǒng)對(duì)安全性、資源利用率以及調(diào)配和擴(kuò)展額外資源所需的時(shí)間有直接影響。隨著用戶需求的增加,這會(huì)影響用戶體驗(yàn)、安全性和部署成本。
Botterocket :基于 Linux 的容器優(yōu)化操作系統(tǒng)
Bottlerocket 是 AWS 開發(fā)的基于 Linux 的最小開源操作系統(tǒng),專門為運(yùn)行容器而構(gòu)建。它非常強(qiáng)調(diào)安全性,只包括運(yùn)行容器的基本軟件。
這減少了攻擊面和漏洞的影響,從而減少了滿足節(jié)點(diǎn)合規(guī)性要求的工作量。此外, Bottlerocket 的最小主機(jī)占用空間有助于提高節(jié)點(diǎn)資源利用率和引導(dǎo)時(shí)間。
對(duì) Bottlerocket 的更新只需一步,必要時(shí)可以回滾。這將降低錯(cuò)誤率,并改善容器應(yīng)用程序的正常運(yùn)行時(shí)間。它們還可以使用容器編排服務(wù)(如 Amazon 彈性庫伯內(nèi)特斯服務(wù)( EKS )和 Amazon 彈性容器服務(wù)( ECS ))實(shí)現(xiàn)自動(dòng)化。
在 NVIDIA GPU 支持的 Amazon EC2 實(shí)例中使用瓶裝火箭
AWS 和 NVIDIA 已經(jīng)合作,使 Bottlerocket 能夠支持所有由 NVIDIA 供電的系統(tǒng) Amazon EC2 實(shí)例 包括 P4d 、 P3 、 G4dn 和 G5 。這種支持將 NVIDIA 驅(qū)動(dòng)的 GPU 實(shí)例的計(jì)算能力與容器優(yōu)化操作系統(tǒng)的優(yōu)勢(shì)結(jié)合起來,可以在 K8s 集群上大規(guī)模部署 AI 模型。
其結(jié)果是增強(qiáng)了安全性和更快的啟動(dòng)時(shí)間,尤其是在運(yùn)行人工智能工作負(fù)載時(shí),實(shí)時(shí)擴(kuò)展其他基于 GPU 的實(shí)例。
對(duì) NVIDIA GPU 的支持以 GPU 優(yōu)化的 AMI 的形式提供。這包括 NVIDIA 驅(qū)動(dòng)程序、 K8s GPU 設(shè)備插件,以及內(nèi)置在基礎(chǔ)映像中的 containerd 運(yùn)行時(shí)。
AMI 提供了提供和注冊(cè)自我管理節(jié)點(diǎn)的一切, NVIDIA 支持的 GPU 實(shí)例和 Amazon EKS 集群的虛擬操作系統(tǒng)。
此外,您還可以利用 AWS 市場(chǎng)上的 NVIDIA NGC 目錄 中的 NVIDIA 優(yōu)化軟件,這是一個(gè)用于預(yù)訓(xùn)練模型、腳本、掌舵圖以及各種 AI 和 HPC 軟件的中心。
對(duì)于 AWS 上的人工智能推理部署,您可以利用 NVIDIA Triton 推理服務(wù)器 。使用開源推理服務(wù)軟件在任何 CPU 或 CPU 基礎(chǔ)設(shè)施上部署來自多個(gè)框架的經(jīng)過培訓(xùn)的人工智能模型,包括 TensorFlow 、 TensorRT 、 PyTorch 、 ONNX 、 XGBoost 和 Python 。
關(guān)于作者
Uttara Kumar 是 NVIDIA 的高級(jí)產(chǎn)品營銷經(jīng)理,專注于 GPU - 云計(jì)算中的人工智能加速應(yīng)用。她非常關(guān)心讓每個(gè)人都能獲得技術(shù)的民主化,讓開發(fā)者能夠利用 NVIDIA 數(shù)據(jù)中心平臺(tái)的力量來加快創(chuàng)新步伐。在 NVIDIA 之前,她領(lǐng)導(dǎo)半導(dǎo)體和科學(xué)計(jì)算軟件公司的軟件產(chǎn)品營銷。她擁有安娜堡密歇根大學(xué)的 Eel CTR 工程碩士學(xué)位。
審核編輯:郭婷
-
Linux
+關(guān)注
關(guān)注
87文章
11313瀏覽量
209753 -
操作系統(tǒng)
+關(guān)注
關(guān)注
37文章
6838瀏覽量
123399 -
人工智能
+關(guān)注
關(guān)注
1792文章
47354瀏覽量
238832
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論