人類外顯子組是理解和治療遺傳疾病的關鍵。盡管外顯子組只占人類基因組的 1% 多一點,但它也包含大約85% 的已知變異具有顯著的疾病相關突變。這就是為什么涉及這些區域的提取和測序的全外顯子組測序在臨床研究和實踐中很受歡迎,其中優化準確性、運行時間和成本很重要。
這篇文章展示了 NVIDIA Parabricks,一套用于高通量數據的加速基因組分析應用程序可以用于外顯子組分析。 NVIDIA Parabricks 顯著降低了運行時間和分析成本,同時最大限度地提高了變體調用的準確性。整個外顯子組測序數據分析可以在 range of GPUs可在本地和每個主要的云提供商中使用。
利用深度學習模型最大限度地提高外顯子組測序分析的準確性
UK Biobank,是世界上最全面的公開可用生物醫學數據資源,為 47 萬名參與者提供外顯子組數據,所有參與者都按 Regeneron Genetics Center (RGC)這些數據可通過英國生物銀行研究分析門戶網站提供給世界各地的研究人員,該門戶網站通過DNAnexus。
人類基因組包含超過 180000 個蛋白質編碼區或外顯子,它們共同組成一個外顯子組。每個外顯子組包含大約 3000 萬個核苷酸。因此,變異呼叫在大規模人群研究中至關重要,在這些研究中,即使是低的假陽性和陰性率也會產生相當大的影響。要了解更多信息,請參閱Sequencing Your Genome: What Does It Mean?
出于這個原因, RGC 使用谷歌 DeepVariant 的定制訓練版本分析了英國生物庫外顯子,這是一種高精度的變體分類深度學習方法。該方法通過 NVIDIA Parabricks 進行了加速和部署,提供了與 CPU 代碼相同的準確結果,具有更快的運行時間和更低的 RGC 每個外顯子組成本。
根據 RGC 基因組信息學和數據工程執行主任 Will Salerno 的說法,“使用 Parabricks 進行優化的關鍵組成部分之一不僅是使其更快、更便宜,而且還可以獲得完全相同的變體。這種再現性對我們來說至關重要,這是透明的。我們不想要秘密醬汁,我們想要對每個人都有效的特殊醬汁,就像對我們一樣。”。我們所做的每一件事,都希望我們的任何合作伙伴都能從這些方法中受益。”
基因組學研究人員可以使用各種各樣的變體調用工具,從統計技術(例如貝葉斯或高斯混合模型)到將外顯子組變體分類為信號或噪聲的深度學習方法(卷積或遞歸神經網絡)
盡管統計技術可以提供一種更具普遍性的方法,但如果原始數據可用于將深度學習算法訓練到給定的數據類型,這些模型可能會非常準確。一個例子是同一生物體/基因組的瓶中基因組細胞系,在同一實驗室用相同的技術和實驗室方案進行測序
因此,深度學習變體調用主導了最近提交的precisionFDA Truth Challenge, 68% 的提交是基于深度學習的。 DeepVariant 本身贏得了多個類別
DeepVariant 使用卷積神經網絡在下一代測序( NGS )讀取或累積窗口中識別變體,并包括所有測序平臺的模型,不僅包括 Illumina 數據,還包括 PacBio 數據、 Oxford Nanopore 數據,以及新興測序平臺、全基因組樣本、外顯子組樣本等
NVIDIA Parabricks 提供 GPU-accelerated DeepVariant,以及其他幾種變體調用工具。它通過 TensorRT 還包括多個此類模型的優化版本。
請參閱下面的 NVIDIA Parabricks DeepVariant 命令示例,如NVIDIA Parabricks documentation。所有 NVIDIA Parabricks 工具都是插入式替換命令,使相同的分析能夠在 GPU 上輕松運行。
# This command assumes all the inputs are in and all the outputs go to . $ docker run --rm --gpus all --volume :/workdir --volume :/outputdir -w /workdir nvcr.io/nvidia/clara/clara-parabricks:4.0.0-1 pbrun deepvariant --ref /workdir/${REFERENCE_FILE} --in-bam /workdir/${INPUT_BAM} --out-variants /outputdir/${OUTPUT_VCF}
使用在適當數據上訓練的非常適合的模型可以對變體調用的后續準確性產生重大影響。例如,與全基因組測序( WGS )數據相比,使用在全外顯子組測序( WES )數據上訓練的 DeepVariant 模型的變體調用外顯子數據產生了 519 個更多的真陽性調用, 42 個更少的假陽性調用, 519 個更少的偽陰性調用
這意味著單核苷酸多態性( SNPs )的 F1 得分增加了 1% ,而 indel 的 F1 得分則增加了近 2% 。用 NVIDIA Parabricks 對瓶內基因組地面實況數據運行的結果如表 1 所示。
HG003-WES-100x | 類 | 總位置 | 真陽性 | 漏報 | 假陽性 | 回憶起 | 精確 | F1 得分 |
WES 模 | 茚 | 1051 | 1020 | 31 | 9 | 0 . 97050 | 0 . 99143 | 0 . 98086 |
WES 模 | SNP | 25279 | 24976 | 303 | 46 | 0 . 98801 | 0 . 99816 | 0 . 99306 |
WGS 模 | 茚 | 1051 | 1006 | 45 | 31 | 0 . 95718 | 0 . 97070 | 0 . 96389 |
WGS 模 | SNP | 25279 | 24471 | 808 | 66 | 0 . 96804 | 0 . 99731 | 0 . 98246 |
表 1 。 DeepVariant 全外顯子組模型顯示,與標準全基因組模型相比,準確性顯著提高
能夠將 DeepVariant 切換到更合適的模型,甚至根據特定的實驗室協議微調模型(就像 Regeneron 為英國生物銀行所做的那樣),這是基于深度學習的變體調用的一個強大功能
一個新的 DeepVariant retraining tool現已在 NVIDIA Parabricks v4 . 1 中提供,使用戶可以在 NVIDIA GPU 上快速輕松地完成此操作。您可以訓練模型來識別由于不同版本的測序儀、濕實驗室試劑盒、試劑等而在數據中產生的任何非隨機偽影。
性價比高的以提高的速度進行分析,得到同等的結果
與小面板分析相比,外顯子組數據的計算分析是時間和成本的逐步增加。對于臨床外顯子組測序分析,加速分析在大規模交付結果方面很重要。
Agilent Alissa Reporter software例如,通過在云中自動縮放,利用 NVIDIA GPU 和 NVIDIA Parabricks 提供外顯子組分析。這意味著安捷倫可以以更低的成本和更快的運行時間為數千個樣本向客戶提供基因組數據的臨床見解
安捷倫報告稱,他們的基礎 GATK 工作流程以前需要 5 個小時,成本高達 10 美元,現在已經減少到 9 分鐘(運行時間減少 96% ),每個樣本只需幾美元。
Alissa Reporter 的產品負責人 Joachim De Schrijver 說:“我們從樣本中獲得的信息越多越好。”。“對整個外顯子組而不是小的基因組進行測序可以很好地實現這一點,但每個樣本的 FASTQ 文件范圍從 5 到 10 GB 不等,這可能意味著需要數小時的計算才能提取有意義的影響生命的結果。”
“安捷倫 Alissa Reporter 利用 GPU 和 Parabricks 來解決這一問題,并在幾分鐘內處理數據。此外,這降低了云計算基礎設施的成本,使我們能夠提供極具競爭力的定價,”他補充道。
除了加速 DeepVariant , NVIDIA Parabricks 還加速了變體呼叫者的 GATK 最佳實踐版本,包括單倍型呼叫者(用于種系)和 Mutect2 (用于體細胞)。在 NVIDIA Parabricks 中,這兩種方法產生的結果與開源版本相當( SNPs 和 Indels 分別為 0 . 999 F1 ),但速度更快,成本更低。
在一個外顯子組上運行 NVIDIA Parabricks 種系管道( BWA-MEM 、排序、標記重復項、 BQSR 和 HaplotypeCaller 或 DeepVariant )可以將運行時間從 3 小時以上(在標準 CPU 實例上使用開源等效程序)減少到 DeepVariation 的 11 分鐘(快 17 倍)和 HaploypeCaller 的 6 . 5 分鐘(快 33 倍)NVIDIA T4GPU 。
這個加速因子轉化為每個外顯子組節省了可觀的成本,因為實例運行的時間更短。如圖 2 所示,在 8 個 NVIDIA T4 GPU 上使用 DeepVariant 運行 NVIDIA Parabricks 種系管道,每個樣本的成本從 4 . 76 美元降低到 1 . 44 美元(便宜 70% ),使用 HaplotypeCaller 從 5 . 52 美元降低到 42 美分(便宜 92% )。
對于更復雜的管道,這些運行時可以堆疊,使測序的分析步驟成為一個非常大的瓶頸。例如,在癌癥研究中,外顯子組是一種常見的測序方法,腫瘤和正常組織都經常測序,覆蓋范圍更廣,這些腫瘤 – 正常對的標準外顯子管道在 CPU 實例上運行可能需要 14 個小時。如圖 3 所示,僅在兩臺 NVIDIA T4 GPU 上即可將時間縮短至 1 . 5 小時。
圖 3 。體細胞管道的運行時間(以分鐘為單位),包括腫瘤文件的對齊、正常文件的對齊,腫瘤文件的處理,正常文件的處理以及用 mutect2 調用變體(分別顯示為深色到淺色)。在與圖 2 相同的情況下,使用 SEQC-2 172x 深度腫瘤外顯子組和 178x 正常外顯子。
-
NVIDIA
+關注
關注
14文章
4994瀏覽量
103194 -
人工智能
+關注
關注
1792文章
47354瀏覽量
238817 -
深度學習
+關注
關注
73文章
5504瀏覽量
121246
發布評論請先 登錄
相關推薦
評論