大陸集團使用 IBM Storage Scale 和 NVIDIA DGX 系統將 AI 訓練時間縮短了 70%
與此前相比,大陸集團每月可同時進行至少多 14 倍的深度學習實驗
北京2024年6月25日 /美通社/ -- 對大多數人來說,駕駛屬于第二天性,其中涉及一系列自動決策。訓練 AI 進行自動駕駛需要 PB 級的數據,以便比人類做出同樣決策時快 1/10 秒,且讓駕駛更為安全。
針對自動駕駛優化的 IT 基礎架構
據世界衛生組織(WHO)統計,每年約有 135 萬人死于道路交通事故,另有 5千萬人受傷。為了降低這種風險,歐盟已經要求到 2030 年大力推廣自動駕駛汽車。為全自動駕駛提供最佳技術路徑的競賽已經拉開序幕。
大陸集團(Continental)高級駕駛輔助系統 (ADAS) 人工智能主管 Robert Thiel 表示:"在發生嚴重事故的情況下,高級駕駛輔助系統的反應速度比駕駛員要快。這可以通過使用大量數據訓練 AI 來實現,使其比人類駕駛更安全。因此,智能數據管理意味著智能汽車和挽救生命。"
大陸集團是全球眾多汽車生產商的汽車零部件主要供應商,同時也是自動駕駛智能領域的領導者。其 ADAS 業務部門早在 20 多年前便已著手開發智能傳感器和數據驅動式交通安全解決方案,并致力于利用深度學習以及訓練人工神經網絡來提高開發速度。大陸集團Vision Zero計劃旨在通過開發 ADAS 技術,從根本上消除交通事故造成的死亡事件。
在汽車行業,與自動駕駛相關的最大挑戰之一是,管理位于世界各地的數據并在需要的地方使用這些數據。大陸集團的 ADAS Vision Zero 計劃聘用了一支配備傳感器的測試車隊,他們每天行駛 15,000 公里,生成和記錄了超過 100 TB 的數據,然后對這些數據進行攝取、處理、選擇、評估和注釋,并用于系統的訓練和驗證。
打造智能安全的自動駕駛解決方案
為了檢測任何給定場景中發生的情況并做出安全控制車輛的決策,該團隊使用NVIDIA DGX系統進行訓練和驗證。為了加速開發 AI 并縮短上市時間,大陸集團需要高性能的 AI 處理和數據訪問以及強大的存儲解決方案,以利用 NVIDIA GPU 計算實現每秒分析數十萬張圖像的目標。
針對自動駕駛優化的IT基礎架構
大陸集團的 ADAS 解決方案可支持駕駛員完成眾多典型駕駛任務,甚至還可控制車輛以免發生事故。但隨著駕駛員輔助系統與車輛安全系統自動化程度的提升,軟件復雜性也隨之上升,同時多個地區的安全要求數量也隨之增多。此時,大陸集團意識到自身亟需擴展其技術和團隊,以便開發出更具全球擴展性的 AI 解決方案。此外,并行數據訪問的需求也意味著會面臨日益增長的數據管理挑戰。
IBM 助力大陸集團實現更高效的數據存儲和 AI 訓練
大陸集團需要一個強大的并行文件系統來滿足 AI 的高速需求并保護敏感數據。與此同時,它還必須創建一個更易于集中訪問的位置來存儲數據并提高可追溯性,為開發人員提供多種安全連接方式。
因此,大陸集團需要可擴展的深度學習基礎架構,以及與高速網絡連接的存儲空間來提高性能。該解決方案需要提供快速隨機訪問功能,支持服務器消息塊 (SMB) 和 Amazon Simple Storage Service (S3) 等協議,并提供多種不同的訪問管理選項。
大陸集團確定了全面的測試標準,并評估了多種存儲解決方案。為了解 IBM Storage Scale System的性能,大陸集團與 IBM 合作伙伴 SVA System Vertrieb Alexander GmbH 進行了合作。結果證明,結合 NVIDIA DGX 技術的 IBM Storage for Data and AI 解決方案可以實現"并行"高性能架構和易于擴展的節點部署,不僅滿足現有AI 基礎架構的要求,還能保證未來所需的彈性和可擴展性。
IBM Storage 與 Kubernetes 容器的靈活性和無縫集成,確保大陸集團實現應用開發的現代化的同時,無需放棄性能、可擴展性或簡單性等要求。IBM Storage Scale 軟件確保其IT基礎架構支持增長,無論是在云中還是本地部署都不受影響。IBM 在汽車行業的豐富經驗,也是大陸集團選擇IBM解決方案的重要因素。
借助新的解決方案,大陸集團可以通過多節點訓練來優化深度學習,從而在不影響生產時間的情況下提高模型精度,實現更高的安全級別。大陸集團將 DGX 集群的規模擴大到每月可處理 14 倍以上的實驗,能夠在多種環境條件(例如雨、雪、晴天和多云天氣)和瞬態(例如汽車在變道時彼此靠得太近)下測試數百萬種排列, 縮短了產品的上市時間。
得益于IBM 數據管理解決方案帶來的性能改進、靈活性和可擴展性,大陸集團正在借助不斷發展的 AI 基礎設施改變未來出行方式。
提高開發周期的效率
大陸集團高級駕駛輔助系統人工智能主管Robert Thiel表示:"考慮到安全要求,如果沒有能力驗證龐大的數據集,即對數百萬公里或數十 PB 的數據集進行定期處理、重新模擬、收集和生成某種 KPI 的能力,我們今天銷售的任何系統都無法銷售出去。"
提高開發周期的效率
"得益于全新的基礎設施,我們現在可以同時運行 20、40、80 個 GPU,從而真正加快我們的訓練速度。"大陸集團 ADAS 布達佩斯 AI 開發中心主管 Balazs Lorand 博士表示。借助這一新的基礎設施,大陸集團每月的深度學習實驗數量增加了 14 倍,并將訓練時間從幾周縮短到幾天,極大提高了開發生命周期的效率。而且該解決方案足夠靈活,可以支持容器化混合云環境、本地部署以及多個數據中心。
大陸集團在位于德國法蘭克福的 Equinix 公司的 AI 就緒數據中心建設了一套全新的基礎設施。Equinix 是一家全球性的托管基礎設施提供商。在 SVA 的支持下,大陸集團實現了集群存儲解決方案的整體集成,包括安裝、部署、配置、調試以及運營和管理培訓。
這一新解決方案包括多模式 GPU 集群、非阻塞性InfiniBand 網絡基礎設施、具有高速NVMe(非易失性內存主機控制器接口規范)驅動器的 IBM Storage Scale System、NVIDIA DGX 系統和 NVIDIA V100 Tensor Core GPU。大陸集團還在其 Kubernetes 環境中使用 IBM Spectrum Scale 軟件進行現代應用開發。
這些改進為大陸集團帶來了強大的競爭優勢,使其能夠比以往更快地推進新的、更安全的自動駕駛解決方案的開發。
點擊鏈接閱讀案例原文,部分內容有調整 https://www.ibm.com/case-studies/continental-automotive
IBM Corporation logo.
審核編輯 黃宇
-
IBM
+關注
關注
3文章
1755瀏覽量
74679 -
數據存儲
+關注
關注
5文章
970瀏覽量
50894 -
AI
+關注
關注
87文章
30728瀏覽量
268886 -
智能安全
+關注
關注
0文章
32瀏覽量
7951 -
汽車
+關注
關注
13文章
3493瀏覽量
37252
發布評論請先 登錄
相關推薦
評論