生命科學是前沿科技創(chuàng)新的關鍵領域。AI、云計算、大數(shù)據(jù)等互聯(lián)網(wǎng)技術的發(fā)展,正在為基因測序、生物醫(yī)藥、AI 與大數(shù)據(jù)應用等方面注入新動能,加速生命科學領域相關企業(yè)的智能化升級。
12 月 27 日,“2022 百度云智峰會·智算峰會”成功舉辦。NVIDIA 資深解決方案架構師翟健分享了以“GPU 加速藥物研發(fā)與基因組學分析”為題的演講,介紹了 NVIDIA 如何利用 GPU 和加速軟件推動 AI 驅動的藥物研發(fā)與基因組學分析,包括 NVIDIA 與百度智能云在賦能藥物研發(fā)、基因測序分析方面的合作。以下為內容概要。
GPU 加速助力藥物研發(fā)
CLARA 是 NVIDIA 在醫(yī)療方向的 SDK 平臺,它借助于 NVIDIA 的基礎軟硬件平臺,為醫(yī)療用戶提供了醫(yī)療設備、制藥、影像、基因以及智慧醫(yī)院等五個方面的能力,從而為醫(yī)療的終端用戶,針對具體的應用場景提供完備的加速能力。
而其中的 CLARA Discovery 是 CLARA 平臺下面向藥物研發(fā)場景的重要解決方案,它基于 NVIDIA 的 AI 和 HPC 能力來輔助加速藥物研發(fā)的工作流程。目前該方案已經(jīng)納入到了百度智能云賦能藥物研發(fā)的解決方案中。
醫(yī)療領域的前期研發(fā)過程當中會涵蓋如下幾個過程:集靶點發(fā)現(xiàn)、化學分子生成、蛋白質性質結構預測、藥物分子與蛋白質進行對接打分,構建自由能 FEP 等。
整個制藥行業(yè)涉及到兩個學科,結構生物學與計算化學。而這兩個學科都涉及到傳統(tǒng)的 HPC 與新興的 AI 方法,而且 AI 的方法相較于 HPC 的方法會有比較明顯的速度上的優(yōu)勢。
目前 AI 正在顛覆整個藥物研發(fā)的過程,包括在靶點發(fā)現(xiàn)方面、虛擬篩選以及分子生成、結構預測,甚至在臨床上應用的自然語言模型,都是 AI 加速的體現(xiàn)。
AI 中 Transformer 模型正在逐漸地應用在藥物研發(fā)領域中。左邊的四張小圖來自于 MegaMolBART 與 Protrans 一系列突破性的論文,表明基于 Transformer 的預訓練模型可以有效地加速分子生成和蛋白質的結構預測。
右上角展示的就是 Transformer 模型的 Encoder-Decoder 的架構形式,它們可以用在諸如右下方的幾個典型領域,包括:小分子模型的生成、反應序列的預測、蛋白質結構預測、生物醫(yī)學領域的 NLP 以及圖像分析等。
NVIDIA 基于在大語言模型上的經(jīng)驗,推出了 BioNeMo 的解決方案,它是一款可以在云端進行訓練和部署的服務框架,主要面向有大語言模型需求的藥物研發(fā)人員。此外,它基于 NVIDIA 的 GPU 硬件也做了很好的優(yōu)化工作,并且提供了多種預訓練模型,支持云原生的服務,極大地加速了藥物研發(fā)的工作流程。
這一頁展示的是 BioNeMo 的邏輯架構,最底層的是 NVIDIA 加速的計算平臺。下面開始第二層是 NVIDIA 的大語言模型平臺 NeMo Megatron,是 BioNeMo 的快速訓練和部署的重要保證。
BioNeMo 提供了多種預訓練的 Transformer 類的模型,分別針對化學分子生成、蛋白質結構序列預測、DNA 的 embedding 等幾個方面。最終這些都服務于我們最上層中,藥物研發(fā)領域里幾個典型應用場景。
BioNeMo 的三個典型特點是:
一,它支持分子、蛋白質和核苷酸的 SMMILES 和 FASTA 的表征。
二,它含有多種預訓練模型,像我們剛才提到的 MegaMolBART 等。
三,它可以在云端部署相應的、可視化界面的服務。
這里跟大家分享一個案例,Vyasa 是一個面向藥物研發(fā)的 AI 解決方案提供商,他們在方案中整合了 BioNeMo 中的 MegaMolBART 模型,從而實現(xiàn)了終端用戶在本地和云端都可以利用 GPU 對藥物分子生成過程進行加速。也正因為如此,他們的用戶 Memorial Solan Kettering 學院采購了 NVIDIA 的 DGX 服務器用于加速這一類型的工作負載。
除了在分子生成、蛋白質結構性質預測方面,NVIDIA 提供了很好的加速優(yōu)化。在虛擬篩選和仿真的過程當中,NVIDIA 也協(xié)同了眾多的開源社區(qū)、高校,加速了傳統(tǒng) HPC 領域當中的對接、分子動力學和量子化學里的常用軟件。
這張圖中展示的就是我們在三個領域當中常用的一些軟件。這些軟件 NVIDIA 都提供了相應的 GPU 加速版本,大家可以在 NVIDIA 的 NGC 平臺(https://catalog.ngc.nvidia.com/ )進行下載。
下面展示的是分子動力學軟件 Gromacs 的 GPU 版本的性能評測。可以看到,在 NVIDIA 的 A100 和 V100 GPU 上,Gromacs 都同比 CPU 獲得了極好的加速。
類似的,這一頁展示的是量子化學軟件 VASP CPU-GPU 的性能對比。NVIDIA 的 V100 和 A100 GPU 同樣都獲得了極高的加速。
GPU 加速突破基因測序分析瓶頸
接下來讓我們介紹一下 NVIDIA GPU 在加速基因組學方面的方案。
在今年春季的 NVIDIA GTC 大會上,來自于斯坦福大學的團隊介紹了他們如何基于 NVIDIA GPU 打破了基因測序的世界紀錄。他們將人類的基因測序縮短到了 7 小時 18 分鐘,完成了濕實驗和在計算機上的數(shù)據(jù)分析等過程。
而在基因測序方面,一般包括如下三個環(huán)節(jié):一,通過測序儀得到數(shù)據(jù)之后進行的一級分析過程,完成四分類任務;二,在計算機上完成一致性對比處理、變體識別等二級分析過程;三,最后的三級分析則是對大量的數(shù)據(jù)進行處理。而這三個過程目前都是可以用 GPU 實現(xiàn)加速的。分別可以通過 GPU 加速的 TensorFlow、PyTorch,以及 TensorRT 進行一級分析加速。通過 CLARA Parabricks 對二級分析進行加速。利用 RAPIDS、MONAI 等可以加速三級分析。
下面讓我們來介紹一下二級分析的軟件 CLARA Parabricks。CLARA Parabricks 是一款利用 GPU 加速高通量、高精度的 DNA 和 RNA 測序分析工具,主要用于人類基因組學分析、癌癥基因篩查、RNA 測序分析等。目前其中含有 60 多個工具模塊,包括基因數(shù)據(jù)的一致性比對、金標準處理和質量把控、高精度遍體識別等范疇類的多種常用工具。
這一頁展示的是 CLARA Parabricks 目前支持的工具模塊的部分內容,基本上涵蓋了主流的基因測序二級分析中的大部分工具。
使用 CLARA Parabricks 可以實現(xiàn)對典型的應用的加速,它是針對金標準的種系、體細胞和 RNA 的加速工具。而且目前使用 Ampere 架構的 GPU 可以實現(xiàn) 80 倍的加速,精度方面也能夠保證,且具有比較靈活的工作流程。
那么談到這里就要說一下 CLARA Parabricks 的幾大特點了。因為它是模塊化的工具,所以可以通過各種傾向性的組合,可以靈活選擇 CLARA Parabricks 當中的各種模塊。
同時剛才提到它的工作流程靈活,是因為它對主流的基因組學分析中的 workflow 管理器都支持,包括 WDL,nextflow 等。此外,它還對 Google 的 DeepVariant 1.4 版本的變體識別工具也做了很好的支持。
接下來我們來看看 Parabricks 的 benchmark??梢钥吹?,列舉的幾個模塊在 GPU 上,同比 CPU 都具有非常好的加速效果。而且在 A100 上可以最高實現(xiàn) 80 倍的加速。這一頁展示的就是分別在 2 張、4 張和 8 張 A100 上同比 CPU 實現(xiàn)加速的效果。
同時,在癌癥的基因篩查中,端到端的流程也可以在 GPU 上實現(xiàn)比較明顯的加速。
2022 年春季 GTC 大會上,NVIDIA 發(fā)布了 Hopper 架構的 GPU。該架構的 GPU 對于動態(tài)編程做了很好的加速,單就動態(tài)編程這一特性,Hopper 架構就比上一代的 Ampere 架構有了 7 倍的理論加速。而在基因組學分析中,動態(tài)編程技術是需要被頻繁使用到的,也因此,Hopper 架構的 GPU 可以給基因測序帶來重大的收益。
上文提到的,斯坦福大學創(chuàng)造的基因測序世界紀錄就是借助 NVIDIA CLARA Parabricks 實現(xiàn)的。
這里再跟大家分享一個案例,就是英國的 BioBank 這家公司,他們要處理 50 萬個外顯子,這些在 CPU 上需要 1 個小時才能得到結果,而 GPU 將這個過程僅僅縮短到了 5 分鐘,成本下降了 60%。
這里展示了 CLARA Parabricks 的資料參考頁,感興趣的聽眾可以登陸 CLARA Parabricks 的網(wǎng)頁了解更多的內容。同時,CLARA Parabricks 已經(jīng)可以在百度智能云上使用了,在云上的 GPU 最佳實踐專欄中還提供了 CLARA Parabricks 的使用方式和詳盡介紹,感興趣的同學可以登陸https://cloud.baidu.com/doc/GPU/s/pl6vzliqu了解更多內容。
在加速三級分析這部分,同樣可以使用 GPU 版本的大數(shù)據(jù)處理 SDK RAPIDS。RAPIDS 是一個端到端的 GPU 加速數(shù)據(jù)科學的 SDK。它包括數(shù)據(jù)處理的 SDK cuDF,用于傳統(tǒng)機器學習的 SDK cuML,圖計算 SDK cuGraph,以及一些可視化的庫、眾多延伸的庫等。基本上 NVIDIA 非深度學習類的 GPU 加速庫都在這里了。
單個細胞的三級分析依賴于眾多的傳統(tǒng)機器學習與大數(shù)據(jù)的方法,比如回歸聚類等算法以及一些可視化的方法。右邊展示的就是針對 scRNA 序列處理的聚類,回歸與可視化端到端運行的時間。可以看到,使用 GPU 可以降低整體的運行時間。
最后讓我們再次回顧一下這張圖,NVIDIA GPU 在一級至三級分析上都有相應的解決方案。尤其在二級分析和三級分析上,NVIDIA 提供 CLARA Parabricks 和 RAPIDS 方案,可以帶給用戶更好的性能與性價比的提升。這也是斯坦福大學利用 GPU 打破基因測序世界紀錄的根本原因。
上面提到的這些軟件,大家可以登陸 NVIDIA NGC 平臺(https://catalog.ngc.nvidia.com/ )下載相應的軟件進行體驗。
原文標題:百度智算峰會精彩回顧:GPU 加速藥物研發(fā)與基因組學分析
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3791瀏覽量
91313
原文標題:百度智算峰會精彩回顧:GPU 加速藥物研發(fā)與基因組學分析
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論