我們將通過《NVIDIA 加速計算,百萬倍加速行業應用》系列文章,為您詳解 NVIDIA 如何通過數據中心規模的全棧加速計算,助力多個行業實現百萬倍計算性能飛躍,高效解決人類挑戰。
自從生命的“密碼”—基因組被科學家破解以來,人類追求速度更快、成本更低的基因測序技術的腳步一直都在繼續。
在 1 月 13 日剛剛結束的摩根大通醫療健康大會上,NVIDIA 發布了與初創公司 InstaDeep、慕尼黑工業大學(TUM)在基因組學大型語言模型方面的聯合研究成果。研究團隊使用NVIDIA 超級計算機 Cambridge-1,在各種基因組數據集上,訓練了參數規模從 500M 到 2.5B 不等的各種大型語言模型(LLM),經過基因組學訓練的大型語言模型可將應用擴展到大量基因組學任務, 這些任務有助于了解 DNA 如何轉錄生成 RNA 和蛋白質,從而開啟新的臨床應用。
基因測序 夢想照進現實
作為人類醫療技術發展的重要一步,基因測序可通過提取人體血液或唾液,對人類的 DNA、RNA、蛋白質及代謝物進行分析,從而鎖定個人病變基因,以診斷、預測或預防遺傳性疾病的發生。基因蘊含了人類諸多病癥的秘密,使人類有機會盡早預防疾病,并多元化治療疾病。
2001 年,被譽為生命科學“登月計劃”的“人類基因組計劃”(HGP)歷時 13 年,耗資近 30 億美元,發布了首張人類基因組草圖。此后二十年中,以數字生物學為基礎的基因組測序技術取得巨大進步,將全基因組測序的成本逐步降低至不到 1000 美元。一時間,全球對基因測序與分析的需求量出現暴漲。
加速計算突破基因分析算力瓶頸
隨著基因組測序和分析需求的激增,由此產生的數據也迎來爆發式增長。過去十年間,基因測序的數據量平均每七個月就會翻一倍,2025 年全球測序能力預計將達到 Zb 級別,其中,僅人類全基因組存儲的數據量就將達到每年 2-40 Eb。
要實現精準醫療,就需要對大量基因數據做出精確的計算和分析,這意味著巨大的計算成本和時間。因此,必須有創新的技術,打破全基因組測序數據醫療應用的主要瓶頸,推動行業進一步向前發展。
基因組測序與分析屬于標準的計算密集型任務,而 GPU 擅長并行計算,可以將復雜計算問題分解為很多小任務,在多個 CUDA 內核上同時運行,從而大幅減少處理計算任務的時間,讓基因組測序分析的速度獲得大幅提升。NVIDIA 以 GPU 為核心構建出“全棧加速計算平臺”,與人工智能相結合,在全球包括基因測序在內的多個領域掀起一場加速革命。
除了具有全球領先的硬件加速計算平臺,NVIDIA 還推出了基于 GPU 的基因測序分析加速軟件—NVIDIA Clara Parabricks。Clara Parabricks 是一款 GPU 加速的計算基因組學工具包,可提供多種生物信息學工具和功能,如序列比對、預處理和質量指標、變異檢測、UMI 以及用于胚系、體細胞和 RNA 分析的端到端工作流程。與僅使用 CPU 的解決方案相比,Parabricks 速度提升高達 80 倍,計算成本降低高達 50%。借助 Clara Parabricks 和 GPU,將深度學習的強大功能應用到基因組分析,可為測序中心、臨床團隊、基因組學研究人員以及新一代測序儀器開發者提供快速準確的分析,進而助力更快速、更準確的基因組學分析。
此外,為了更好地幫助科學家了解疾病,為患者找到治療方法,NVIDIA 還推出了BioNeMo 框架,用于訓練和部署超算規模的大型生物分子語言模型。該大型語言模型框架可支持化學、蛋白質、DNA 和 RNA 數據格式,還可提供云 API 服務,用于未來支持越來越多的預訓練 AI 模型。
基因測序領域降本增效創造新記錄
在 NVIDIA 加速計算平臺、人工智能與基因測序專業軟件的賦能下,來自全球的學研機構、政府組織以及相關企業,正在不斷突破基因測序與分析領域的速度與成本極限,創造出一項項新的記錄:
-
斯坦福大學、NVIDIA、牛津納米孔科技公司、谷歌、貝勒醫學院和加州大學圣克魯茲分校的研究人員共同合作推出 DNA 測序技術,實現了創紀錄的測序速度。該方案使用 NVIDIA Clara Parabricks 計算基因組學應用框架,以及 GPU 加速版本的 PEPPER-Margin-DeepVariant 流程,在谷歌云上使用 NVIDIA GPU 加速堿基判定和變體識別,將基因診斷時間從數周縮短到 5.2 小時,使醫生能夠快速判斷如何治療危重病人。
-
麻省理工學院與哈佛大學旗下的博德研究所與 NVIDIA 合作,為擁有超過 2.5 萬用戶的 Terra 云平臺提供快速分析海量醫療數據所需的 AI 能力和加速工具。通過 GPU 加速的 NVIDIA Clara Parabricks 工作流,可助力從事各種基因組數據分析的研究人員降本增效。在博德研究所的 GATK 最佳實踐—生殖細胞突變檢測分析流中,Parabricks 在 GPU 上進行分析的速度提高了 24 倍,而成本減半。
-
阿里云與 NVIDIA 達成合作,成為國內首家在基因分析平臺集成和部署 NVIDIA Clara Parabricks 的公有云廠商。Clara Parabricks 為阿里云基因分析平臺的行業標準基因組分析工具包以及基因調用器等工具帶來了 GPU 加速,據測算用戶可以在 30 分鐘內完成一個 30x 測序深度的全基因組分析,且與 GATK 的最佳實踐結果 99.99% 一致,而在過去基于 CPU 環境中這項工作需要 20 多個小時才能完成,并且計算成本可降低 40%-80%。
-
普渡大學首席研究員 Carpi 博士和團隊將 Clara Parabricks 的表現和瘧疾學界使用的鑒定變體和跟蹤瘧疾傳播的現有方法進行了對比,并使用 1000 個瘧疾基因組監測抗瘧藥物的耐藥性。與只使用 CPU 的傳統方式相比,基于 GPU 加速的 Clara Parabricks 分析速度提高了 27 倍,成本降低了 5 倍,同時準確率達到 99.9%。
-
圣路易斯華盛頓大學的 Tychele Turner 博士與團隊使用基于 GPU 加速的 Clara Parabricks 開發出一種快速基因組學工作流,用于在自閉癥患者中發現 de novo 變異(DNVs)。通過將三重分析整合到 NVIDIA Clara Parabricks 中,Turner 博士將生成 DNV 初始分析的時間從原來的 800 小時(在 CPU 上進行)縮短至 8.5 小時(在 GPU 上使用只有 4 個 GPU 的服務器),加快了 100 倍。
-
為推廣基因組醫學計劃,泰國國家生物庫采用 NVIDIA DGX A100 系統和 NVIDIA Clara Parabricks 來打造 IT 基礎設施,以加速基因組測序。加速方案將全基因組測序的數據處理時間縮短了 4 個月,每位用戶的處理時間也從 30 多個小時縮短到 1 到 2 小時。
-
生物技術領軍企業 Regeneron 高通量測序中心與大規模的生物醫學數據庫和研究資源平臺英國生物樣本庫合作,在 DNAnexus 平臺上使用 NVIDIA Clara Parabricks 運行分析對超過 50 萬名生物庫參與者的外顯子組進行了測序和分析, 5 分鐘內完成了在 32-vCPU 機器上需要花費一小時計算的全外顯子組分析,同時成本降低約 40%。
憑借加速計算領域的全棧能力以及深耕行業所積累的專業知識,NVIDIA 現在已經推出了智能計算平臺 NVIDIA Clara,全面布局醫療健康行業。該平臺涵蓋了用于醫學影像的 Clara Holoscan、基因組學的 Clara Parabricks、患者監控的 Clara Guardian 以及藥物研發的 Clara Discovery,并可端到端部署至本地、嵌入式系統、邊緣以及云端等任何地方,助力行業實現無縫創新,加快實現精準醫療的目標。
無論是尖端醫學研究、大規模基因組分析還是日常應用檢測,NVIDIA Million-X 百萬倍計算性能飛躍的愿景已經在基因測序的各個領域結出累累碩果,并將持續為人類消除疾病、促進健康做出貢獻。
點擊“閱讀原文”或掃描下方海報二維碼,即可免費注冊 GTC 23,切莫錯過這場 AI 和元宇宙時代的技術大會!
原文標題:【百萬倍加速】加速計算助力基因測序突破極限
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3770瀏覽量
90990
原文標題:【百萬倍加速】加速計算助力基因測序突破極限
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論