天天宗合网,天天综合在线视频,在线青青

人類外顯子組是理解和治療遺傳疾病的關鍵。盡管外顯子組只占人類基因組的 1% 多一點，但它也包含大約85% 的已知變異具有顯著的疾病相關突變。這就是為什么涉及這些區域的提取和測序的全外顯子組測序在臨床研究和實踐中很受歡迎，其中優化準確性、運行時間和成本很重要。

這篇文章展示了 NVIDIA Parabricks,一套用于高通量數據的加速基因組分析應用程序可以用于外顯子組分析。 NVIDIA Parabricks 顯著降低了運行時間和分析成本，同時最大限度地提高了變體調用的準確性。整個外顯子組測序數據分析可以在 range of GPUs可在本地和每個主要的云提供商中使用。

利用深度學習模型最大限度地提高外顯子組測序分析的準確性

UK Biobank，是世界上最全面的公開可用生物醫學數據資源，為 47 萬名參與者提供外顯子組數據，所有參與者都按 Regeneron Genetics Center (RGC)這些數據可通過英國生物銀行研究分析門戶網站提供給世界各地的研究人員，該門戶網站通過DNAnexus。

人類基因組包含超過 180000 個蛋白質編碼區或外顯子，它們共同組成一個外顯子組。每個外顯子組包含大約 3000 萬個核苷酸。因此，變異呼叫在大規模人群研究中至關重要，在這些研究中，即使是低的假陽性和陰性率也會產生相當大的影響。要了解更多信息，請參閱Sequencing Your Genome: What Does It Mean?

出于這個原因， RGC 使用谷歌 DeepVariant 的定制訓練版本分析了英國生物庫外顯子，這是一種高精度的變體分類深度學習方法。該方法通過 NVIDIA Parabricks 進行了加速和部署，提供了與 CPU 代碼相同的準確結果，具有更快的運行時間和更低的 RGC 每個外顯子組成本。

根據 RGC 基因組信息學和數據工程執行主任 Will Salerno 的說法，“使用 Parabricks 進行優化的關鍵組成部分之一不僅是使其更快、更便宜，而且還可以獲得完全相同的變體。這種再現性對我們來說至關重要，這是透明的。我們不想要秘密醬汁，我們想要對每個人都有效的特殊醬汁，就像對我們一樣。”。我們所做的每一件事，都希望我們的任何合作伙伴都能從這些方法中受益。”

基因組學研究人員可以使用各種各樣的變體調用工具，從統計技術（例如貝葉斯或高斯混合模型）到將外顯子組變體分類為信號或噪聲的深度學習方法（卷積或遞歸神經網絡）

盡管統計技術可以提供一種更具普遍性的方法，但如果原始數據可用于將深度學習算法訓練到給定的數據類型，這些模型可能會非常準確。一個例子是同一生物體/基因組的瓶中基因組細胞系，在同一實驗室用相同的技術和實驗室方案進行測序

因此，深度學習變體調用主導了最近提交的precisionFDA Truth Challenge， 68% 的提交是基于深度學習的。 DeepVariant 本身贏得了多個類別

DeepVariant 使用卷積神經網絡在下一代測序（ NGS ）讀取或累積窗口中識別變體，并包括所有測序平臺的模型，不僅包括 Illumina 數據，還包括 PacBio 數據、 Oxford Nanopore 數據，以及新興測序平臺、全基因組樣本、外顯子組樣本等

NVIDIA Parabricks 提供 GPU-accelerated DeepVariant，以及其他幾種變體調用工具。它通過 TensorRT 還包括多個此類模型的優化版本。

請參閱下面的 NVIDIA Parabricks DeepVariant 命令示例，如NVIDIA Parabricks documentation。所有 NVIDIA Parabricks 工具都是插入式替換命令，使相同的分析能夠在 GPU 上輕松運行。

# This command assumes all the inputs are in  and all the outputs go to .
$ docker run --rm --gpus all --volume :/workdir --volume :/outputdir
    -w /workdir 
    nvcr.io/nvidia/clara/clara-parabricks:4.0.0-1 
    pbrun deepvariant 
    --ref /workdir/${REFERENCE_FILE} 
    --in-bam /workdir/${INPUT_BAM} 
    --out-variants /outputdir/${OUTPUT_VCF}

使用在適當數據上訓練的非常適合的模型可以對變體調用的后續準確性產生重大影響。例如，與全基因組測序（ WGS ）數據相比，使用在全外顯子組測序（ WES ）數據上訓練的 DeepVariant 模型的變體調用外顯子數據產生了 519 個更多的真陽性調用， 42 個更少的假陽性調用， 519 個更少的偽陰性調用

這意味著單核苷酸多態性（ SNPs ）的 F1 得分增加了 1% ，而 indel 的 F1 得分則增加了近 2% 。用 NVIDIA Parabricks 對瓶內基因組地面實況數據運行的結果如表 1 所示。

HG003-WES-100x	類	總位置	真陽性	漏報	假陽性	回憶起	精確	F1 得分
WES 模	茚	1051	1020	31	9	0 . 97050	0 . 99143	0 . 98086
WES 模	SNP	25279	24976	303	46	0 . 98801	0 . 99816	0 . 99306
WGS 模	茚	1051	1006	45	31	0 . 95718	0 . 97070	0 . 96389
WGS 模	SNP	25279	24471	808	66	0 . 96804	0 . 99731	0 . 98246

表 1 。 DeepVariant 全外顯子組模型顯示，與標準全基因組模型相比，準確性顯著提高

能夠將 DeepVariant 切換到更合適的模型，甚至根據特定的實驗室協議微調模型（就像 Regeneron 為英國生物銀行所做的那樣），這是基于深度學習的變體調用的一個強大功能

一個新的 DeepVariant retraining tool現已在 NVIDIA Parabricks v4 . 1 中提供，使用戶可以在 NVIDIA GPU 上快速輕松地完成此操作。您可以訓練模型來識別由于不同版本的測序儀、濕實驗室試劑盒、試劑等而在數據中產生的任何非隨機偽影。

性價比高的以提高的速度進行分析，得到同等的結果

與小面板分析相比，外顯子組數據的計算分析是時間和成本的逐步增加。對于臨床外顯子組測序分析，加速分析在大規模交付結果方面很重要。

Agilent Alissa Reporter software例如，通過在云中自動縮放，利用 NVIDIA GPU 和 NVIDIA Parabricks 提供外顯子組分析。這意味著安捷倫可以以更低的成本和更快的運行時間為數千個樣本向客戶提供基因組數據的臨床見解

安捷倫報告稱，他們的基礎 GATK 工作流程以前需要 5 個小時，成本高達 10 美元，現在已經減少到 9 分鐘（運行時間減少 96% ），每個樣本只需幾美元。

Alissa Reporter 的產品負責人 Joachim De Schrijver 說：“我們從樣本中獲得的信息越多越好。”。“對整個外顯子組而不是小的基因組進行測序可以很好地實現這一點，但每個樣本的 FASTQ 文件范圍從 5 到 10 GB 不等，這可能意味著需要數小時的計算才能提取有意義的影響生命的結果。”

“安捷倫 Alissa Reporter 利用 GPU 和 Parabricks 來解決這一問題，并在幾分鐘內處理數據。此外，這降低了云計算基礎設施的成本，使我們能夠提供極具競爭力的定價，”他補充道。

除了加速 DeepVariant ， NVIDIA Parabricks 還加速了變體呼叫者的 GATK 最佳實踐版本，包括單倍型呼叫者（用于種系）和 Mutect2 （用于體細胞）。在 NVIDIA Parabricks 中，這兩種方法產生的結果與開源版本相當（ SNPs 和 Indels 分別為 0 . 999 F1 ），但速度更快，成本更低。

在一個外顯子組上運行 NVIDIA Parabricks 種系管道（ BWA-MEM 、排序、標記重復項、 BQSR 和 HaplotypeCaller 或 DeepVariant ）可以將運行時間從 3 小時以上（在標準 CPU 實例上使用開源等效程序）減少到 DeepVariation 的 11 分鐘（快 17 倍）和 HaploypeCaller 的 6 . 5 分鐘（快 33 倍）NVIDIA T4GPU 。

這個加速因子轉化為每個外顯子組節省了可觀的成本，因為實例運行的時間更短。如圖 2 所示，在 8 個 NVIDIA T4 GPU 上使用 DeepVariant 運行 NVIDIA Parabricks 種系管道，每個樣本的成本從 4 . 76 美元降低到 1 . 44 美元（便宜 70% ），使用 HaplotypeCaller 從 5 . 52 美元降低到 42 美分（便宜 92% ）。

對于更復雜的管道，這些運行時可以堆疊，使測序的分析步驟成為一個非常大的瓶頸。例如，在癌癥研究中，外顯子組是一種常見的測序方法，腫瘤和正常組織都經常測序，覆蓋范圍更廣，這些腫瘤 – 正常對的標準外顯子管道在 CPU 實例上運行可能需要 14 個小時。如圖 3 所示，僅在兩臺 NVIDIA T4 GPU 上即可將時間縮短至 1 . 5 小時。

圖 3 。體細胞管道的運行時間（以分鐘為單位），包括腫瘤文件的對齊、正常文件的對齊，腫瘤文件的處理，正常文件的處理以及用 mutect2 調用變體（分別顯示為深色到淺色）。在與圖 2 相同的情況下，使用 SEQC-2 172x 深度腫瘤外顯子組和 178x 正常外顯子。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4994

瀏覽量
103194
人工智能

人工智能

+關注

關注
1792

文章
47354

瀏覽量
238817
深度學習

深度學習

+關注

關注
73

文章
5504

瀏覽量
121246

如何提高工程預算的準確性

例子進行系統整理，并做好工程技術經濟分析的資料積累，為以后工程選擇經濟合理的設計方案施工方法提供重要的數據。總之，快速、準確地編制工程預結算，需要我們認真研究，大膽探索，努力實踐，不斷更新知識和技能，在此基礎上總結出一套提高工程

發表于 07-25 17:35

如何最大限度提高Σ-Δ ADC驅動器的性能

最大限度提高Σ-Δ ADC驅動器的性能

發表于 01-06 07:05

全基因組數據CNV分析簡介精選資料分享

除了利用aCGH和snp芯片來檢測CNV之外，也可以通過NGS數據來分析CNV, 比如全基因組和全外顯子測序。針對全基因

發表于 07-29 08:24

簡單的校準電路最大限度地提高了鋰離子電池管理系統中的準確度

簡單的校準電路最大限度地提高了鋰離子電池管理系統中的準確度在鋰離子電池系統中，為了實現電池組性能和使用壽命的最大化，使每節電池的充電狀態

發表于 12-20 21:09 ?57次下載

如何提高投標報價編制的準確性

施工企業要在激烈的市場競爭中戰勝對手，贏得工程項目，投標報價的準確性是關鍵。下面結合多年工作的實際，談一下如何提高投標報價編制的準確性。

發表于 01-08 15:36 ?13次下載

深圳華大基因研發出猴外顯子測序及分析平臺

深圳華大基因公布其已研發出猴外顯子測序及分析平臺。猴外顯子捕獲芯片和新一代高通量測序技術為該平臺的兩大核心技術，使研究人員可以對每個猴基因

發表于 11-27 16:22 ?717次閱讀

利用NVIDIA模型分析儀最大限度地提高深度學習的推理性能

你已經建立了你的深度學習推理模型并將它們部署到 NVIDIA Triton Inference Serve 最大化模型性能。你如何進一步加

發表于 10-21 19:01 ?652次閱讀

如何將機器學習模型的準確性從80％提高到90％以上

數據科學工作通常需要大幅度提高工作量才能提高所開發模型的準確性。這五個建議將有助于改善您的機器學習模型

發表于 12-10 14:39 ?1141次閱讀

DN471 - 簡單的校準電路最大限度地提高了鋰離子電池管理系統中的準確度

DN471 - 簡單的校準電路最大限度地提高了鋰離子電池管理系統中的準確度

發表于 03-19 08:27 ?0次下載

應用深度學習分析提高基因組分析的準確性

識別基因變異，如可導致疾病的變異片段。我們在 DeepVariant 方面的持續研究因其一流的準確性而獲得肯定。借助 DeepTrio，我們擴展了 DeepVariant，從而能夠在分析母親-父親-子女三人的基因序列數據時考

發表于 05-14 09:49 ?1931次閱讀

蓄能電池管理系統中最大限度提高電池監測精度和數據完整性

蓄能電池管理系統中最大限度提高電池監測精度和數據完整性

發表于 05-18 11:08 ?4次下載

切換以最大限度地利用SAN

電子發燒友網站提供《切換以最大限度地利用SAN.pdf》資料免費下載

發表于 09-01 11:23 ?0次下載

最大限度提高∑-? ADC驅動器的性能

電子發燒友網站提供《最大限度提高∑-? ADC驅動器的性能.pdf》資料免費下載

發表于 11-22 09:19 ?0次下載

最大限度地提高MSP430? FRAM的寫入速度

電子發燒友網站提供《最大限度地提高MSP430? FRAM的寫入速度.pdf》資料免費下載

發表于 10-18 10:09 ?0次下載

如何提升ASR模型的準確性

提升ASR（Automatic Speech Recognition，自動語音識別）模型的準確性是語音識別技術領域的核心挑戰之一。以下是一些提升ASR模型準確性的關鍵方法：一、優化數

發表于 11-18 15:14 ?946次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

利用深度學習模型最大限度地提高外顯子組測序分析的準確性

評論

如何提高工程預算的準確性

如何最大限度提高Σ-Δ ADC驅動器的性能

全基因組數據CNV分析簡介精選資料分享

簡單的校準電路最大限度地提高了鋰離子電池管理系統中的準確度

如何提高投標報價編制的準確性

深圳華大基因研發出猴外顯子測序及分析平臺

利用NVIDIA模型分析儀最大限度地提高深度學習的推理性能

如何將機器學習模型的準確性從80％提高到90％以上

DN471 - 簡單的校準電路最大限度地提高了鋰離子電池管理系統中的準確度

應用深度學習分析提高基因組分析的準確性

蓄能電池管理系統中最大限度提高電池監測精度和數據完整性

切換以最大限度地利用SAN

最大限度提高∑-? ADC驅動器的性能

最大限度地提高MSP430? FRAM的寫入速度

如何提升ASR模型的準確性