發(fā)布人:Google Health Genomics 產(chǎn)品負(fù)責(zé)人 Andrew Carroll 和 Genomics 項(xiàng)目經(jīng)理 Howard Yang
Google Health 的 Genomics 團(tuán)隊(duì)很高興分享我們對(duì) DeepVariant 的最新擴(kuò)展 - DeepTrio。
DeepVariant 于 2017 年首次發(fā)布,是一種開源工具,支持研究人員和臨床醫(yī)生分析個(gè)人的基因組測(cè)序數(shù)據(jù)并識(shí)別基因變異,如可導(dǎo)致疾病的變異片段。我們?cè)?DeepVariant 方面的持續(xù)研究因其一流的準(zhǔn)確性而獲得肯定。借助 DeepTrio,我們擴(kuò)展了 DeepVariant,從而能夠在分析母親-父親-子女三人的基因序列數(shù)據(jù)時(shí)考量基因變異。
人類是二倍體生物,攜帶人類基因組的兩個(gè)副本。每個(gè)個(gè)體都分別繼承了來(lái)自母親和父親的一個(gè)基因組副本。父母遺傳信息有助于分析符合孟德爾遺傳規(guī)律的特征和疾病。DeepTrio 學(xué)習(xí)直接在測(cè)序數(shù)據(jù)中使用孟德爾遺傳的特性,以便在可以共同分析父母和子女樣本的情況下更準(zhǔn)確地識(shí)別基因變異。
修改 DeepVariant 以分析三人樣本
DeepVariant 學(xué)習(xí)到如何將基因組中的位置分類為參考或者“基因組瀏覽器”(相關(guān)專家用于分析的工具)中數(shù)據(jù)表示的變種。“《使用 DeepVariant1.0 提高基因組分析的準(zhǔn)確性》(Improving the Accuracy of Genomic Analysis with DeepVariant 1.0)”一文很好地概述了有關(guān)內(nèi)容。
使用 DeepVariant1.0 提高基因組分析的準(zhǔn)確性
https://ai.googleblog.com/2020/09/improving-accuracy-of-genomic-analysis.html
DeepVariant 接收數(shù)據(jù)作為以候選變異為中心的基因組窗口,并且按照要求將數(shù)據(jù)分類為參考(無(wú)變異)、雜合子(變異的一個(gè)副本)或純合子(兩個(gè)副本均為變異)。DeepVariant 將序列證據(jù)視為代表數(shù)據(jù)特征的通道(請(qǐng)參閱“《透過(guò) DeepVariant 深入觀察》(Looking through DeepVariant’s eyes)”獲取更深入解釋)。
透過(guò) DeepVariant 深入觀察
我們修改了 DeepTrio,以在單個(gè)圖像中表示來(lái)自三人的序列數(shù)據(jù),其中每個(gè)樣本的高度固定,子女的數(shù)據(jù)置于中間。我們使用來(lái)自美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院 (NIST) 瓶中基因組聯(lián)盟 (GIAB) 的黃金標(biāo)準(zhǔn)樣本作為真實(shí)標(biāo)簽,訓(xùn)練一個(gè)模型調(diào)用子女樣本中的變異,并訓(xùn)練另一個(gè)模型調(diào)用頂部父母樣本中的變異。為調(diào)用父母雙方的樣本,我們翻轉(zhuǎn)父母樣本的位置。
衡量 DeepTrio 提高的準(zhǔn)確性
我們研究發(fā)現(xiàn),對(duì)于父母和子女變異檢測(cè),DeepTrio 比 DeepVariant 更準(zhǔn)確,在覆蓋率較低的情況下具有特別明顯的優(yōu)勢(shì)。這使研究人員能夠以更高的準(zhǔn)確性分析樣本,或者在顯著降低費(fèi)用的同時(shí)保持相當(dāng)?shù)臏?zhǔn)確性。
為評(píng)估 DeepTrio 的準(zhǔn)確性,我們借助 NIST 瓶中基因組聯(lián)盟提供的涵蓋廣泛特征的黃金標(biāo)準(zhǔn),將其與 DeepVariant 的準(zhǔn)確性進(jìn)行比較。為獲得在訓(xùn)練中從未見(jiàn)過(guò)的評(píng)估數(shù)據(jù)集,我們?cè)谟?xùn)練中排除了 20 號(hào)染色體,并對(duì) 20 號(hào)染色體進(jìn)行了評(píng)估。
我們訓(xùn)練 DeepVariant 和 DeepTrio,以對(duì)來(lái)自兩種不同儀器 Illumina 和 Pacific Biosciences (PacBio) 的數(shù)據(jù)進(jìn)行測(cè)序。如要詳細(xì)了解這些技術(shù)之間的差異,請(qǐng)參見(jiàn)我們之前的博客。這些測(cè)序儀均以容易錯(cuò)誤的方式隨機(jī)采樣基因組。為準(zhǔn)確分析基因組,我們需要重復(fù)采樣相同區(qū)域。在某個(gè)位置的采樣深度稱為覆蓋范圍。以近似線性的方式測(cè)序來(lái)覆蓋更大的范圍將導(dǎo)致成本更高。因此我們經(jīng)常需要在成本、準(zhǔn)確性和測(cè)序樣本之間進(jìn)行權(quán)衡。而權(quán)衡的結(jié)果是,在三人樣本中,父母樣本通常以較低的深度進(jìn)行測(cè)序。
在下方圖表中,我們繪制了一系列不同覆蓋范圍中 DeepTrio 和 DeepVariant 的準(zhǔn)確性。
圖 2.子女樣本(頂部)和父母樣本(底部)上 DeepTrio(實(shí)線)和 DeepVariant(虛線)的 F1 得分,使用 Illumina(藍(lán)色)和 PacBio(黑色)儀器進(jìn)行測(cè)序。在具有一系列測(cè)序覆蓋范圍(x 軸)的樣本中,對(duì) 20 號(hào)染色體上所有類型的小變異進(jìn)行 F1 測(cè)量
DeepTrio 在 de novo 變異上的表現(xiàn)
相對(duì)于人類參考基因組,每個(gè)人大約有 500 萬(wàn)處變異,其中絕大多數(shù)從父母處繼承而來(lái)。一小部分(大約 100 處)是新變異(稱為 de novo),由 DNA 復(fù)制過(guò)程中的復(fù)制錯(cuò)誤導(dǎo)致。我們的研究證明,DeepTrio 大大減少了 de novo 變異檢測(cè)的假陽(yáng)性情況。對(duì)于 Illumina 數(shù)據(jù),其真陽(yáng)性回收率的下降幅度較小,而對(duì)于 PacBio 數(shù)據(jù),這種權(quán)衡不會(huì)發(fā)生。
為評(píng)估準(zhǔn)確性,我們分析了父母兩人都被稱為非變異但子女被稱為雜合變異的位點(diǎn)。我們觀察到 DeepTrio 更不愿意將變異命名為 de novo,這類似于人類對(duì)于違反孟德爾遺傳規(guī)律的位點(diǎn),需要獲得更高水平的證據(jù)。因此,此類 de novo 變異的假陽(yáng)性率低得多,但 DeepTrio Illumina 的召回率則略低。通常,在發(fā)生這種情況時(shí),子女的樣本仍將稱作變異,但父母樣本則給予“不調(diào)用”的判斷(分類器沒(méi)有足夠的信心進(jìn)行調(diào)用)。
促進(jìn)罕見(jiàn)病研究
通過(guò)將 DeepTrio 作為開源軟件發(fā)布,我們希望這一軟件能夠支持科學(xué)家更準(zhǔn)確地分析樣本,進(jìn)而提升對(duì)基因組數(shù)據(jù)的分析能力。我們希望這能促進(jìn)研究和臨床開發(fā),進(jìn)而更好地解析罕見(jiàn)病病例,并改進(jìn)治療方法的開發(fā)。
除了將 DeepTrio 的代碼作為開放源代碼發(fā)布之外,我們還發(fā)布了為訓(xùn)練這些模型而生成的測(cè)序數(shù)據(jù)。這些數(shù)據(jù)會(huì)在預(yù)印本“《用于基準(zhǔn)測(cè)試和開發(fā)的黃金標(biāo)準(zhǔn)樣本的廣泛序列數(shù)據(jù)集》(An Extensive Sequence Dataset of Gold-Standard Samples for Benchmarking and Development)”中加以說(shuō)明。通過(guò)發(fā)布該生產(chǎn)模型和訓(xùn)練相似復(fù)雜度模型所需的數(shù)據(jù),我們希望能為基因組學(xué)界的方法開發(fā)做出貢獻(xiàn)。
原文標(biāo)題:應(yīng)用深度學(xué)習(xí)分析家庭基因組數(shù)據(jù)
文章出處:【微信公眾號(hào):TensorFlow】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
開源
+關(guān)注
關(guān)注
3文章
3320瀏覽量
42473 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121113
原文標(biāo)題:應(yīng)用深度學(xué)習(xí)分析家庭基因組數(shù)據(jù)
文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論