DNA作為一種數據存儲介質,只有在讀取、復制和發送到其他地方時才有用。從細胞核中傳遞遺傳信息的介質是RNA(https://www.genome.gov/genetics-glossary/RNA-Ribonucleic-Acid)——從DNA轉錄而來,它本身永遠不會離開細胞核。現在,伊利諾伊州埃文斯頓西北大學的研究人員利用深度學習,解開了RNA轉錄過程中的一個復雜部分:細胞如何知道何時停止復制。
在RNA轉錄中,知道何時停止是至關重要的。編碼成RNA的信息在整個細胞中用于合成蛋白質和調節廣泛的代謝過程。要想將正確的信息傳遞給預期的目標,需要這些RNA鏈盡可能多地表達——僅此而已。
“This is a very useful prescreening tool for investigating genetic variants in a high-throughput manner.”
—EMILY KUNCE STROUP, NORTHWESTERN UNIVERSITY
停止RNA復制過程——稱為聚腺苷酸化(polyA,https://en.wikipedia.org/wiki/Polyadenylation),是指它連接在切斷的RNA鏈末端的一系列腺嘌呤分子——涉及一系列相互作用從未被完全理解的蛋白質。
因此,為了幫助解開polyA,西北大學的研究人員Zhe Ji和Emily Kunce Stroup開發了一個機器學習模型,可以定位和識別polyA位點。它的工作原理是將經過訓練以匹配遺傳密碼中重要序列的卷積神經網絡(CNNs,https://spectrum.ieee.org/tag/convolutional-neural-networks)與經過訓練以研究CNN輸出的遞歸神經網絡(RNN,https://spectrum.ieee.org/the-neural-network-that-remembers)配對。
雖然之前的模型采用了類似的方法,同時使用了CNNs和RNN,但這些研究人員隨后將CNN/RNN模型的輸出輸入到另外兩個經過訓練的深度學習模型中,以定位和識別基因組中的polyA位點。
另外兩個模型似乎起到了幫助作用。Stroup說:“擁有這些串聯輸出是我們工作中真正獨特的東西。讓模型向外延伸到兩個獨立的輸出分支,然后我們將其組合起來以高分辨率識別站點,這是我們與現有工作的區別?!?/p>
從他們的模型中,研究人員了解了導致polyA進展順利或不佳的幾個重要方面。模型的CNN部分學習了已知能吸引控制polyA的蛋白質的DNA中的遺傳模式,而模型的RNN部分揭示了可靠地切斷轉錄需要在這些模式之間仔細間隔。由于該模型的核苷酸分辨率,這些研究人員可以得出如此精確的結論。Ji說:“我們的模型能夠準確地捕捉到這一點,這令人震驚。”
該團隊表示,今后他們計劃將他們的模型和類似技術應用于識別可能導致疾病的關鍵基因突變的研究,然后從中開發出一種可能的更有針對性的治療藥物。Stroup說:“這是一種非常有用的預篩選工具,可以以高通量的方式研究基因變異。這有望幫助減少候選突變的數量,使這一過程更加有效。”
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100714 -
DNA
+關注
關注
0文章
243瀏覽量
31026 -
深度學習
+關注
關注
73文章
5500瀏覽量
121111
原文標題:深度學習破解DNA數據復制難題
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論