色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

你去將你的基因組測序了嗎?面臨挑戰(zhàn)的基因組數(shù)據(jù)壓縮技術(shù)

IEEE電氣電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-09-10 10:40 ? 次閱讀

你去將你的基因組測序了嗎?世界上已有數(shù)百萬人去測過了,到2025年,這一數(shù)字可能會達到10億。

研究人員獲得的基因組數(shù)據(jù)越多,個人和公共健康的前景就越好。產(chǎn)前DNA測序已經(jīng)可以篩查出發(fā)育異常。過不了多久,患者將可以對他們的血液進行測序,以發(fā)現(xiàn)任何可能標(biāo)志著某種傳染病的非人類DNA。未來,與癌癥打交道的人將能夠通過每天對來自多個組織的細胞的DNA和RNA進行測序來跟蹤疾病的變化情況。

整個人群的DNA測序?qū)⑹沟梦覀兛梢詫φ麄€社會的健康狀況有更全面的了解。英國Biobank雄心勃勃,其目標(biāo)是對50萬名志愿者的基因組進行測序,并跟蹤研究數(shù)十年。目前,人群范圍的基因組研究通常被用來識別與特定疾病相關(guān)的突變。定期對空氣、土壤和水中的生物進行測序?qū)⒂兄谧粉櫫餍胁 ⑹澄锊≡w、毒素等等。

這樣的愿景的實現(xiàn)有賴于對超大量的數(shù)據(jù)的存儲和分析。通常情況下,DNA測序儀處理一個人的整個基因組就會產(chǎn)生數(shù)十至數(shù)百千兆字節(jié)的數(shù)據(jù)。數(shù)百萬人的基因組數(shù)據(jù)累加起來,所需要的存儲空間將達到數(shù)十艾字節(jié)。

而這僅僅是個開始。發(fā)現(xiàn)基因組數(shù)據(jù)有用的科學(xué)家、醫(yī)生和其他人不會僅對每個人進行一次測序——對于同一個個體,他們會希望隨著時間的推移對多個組織中的多個細胞進行重復(fù)測序。隨著測序速度的提高和成本的下降(現(xiàn)在個人基因組測序只需1000美元,而且價格正在快速下降),他們還希望對其他動物、植物、微生物和整個生態(tài)系統(tǒng)的DNA進行測序。而新應(yīng)用甚至新產(chǎn)業(yè)的出現(xiàn)將帶來更多測序。

雖然很難預(yù)測基因組數(shù)據(jù)的全部未來收益,但我們已經(jīng)看到了一個不可避免的挑戰(zhàn):所需要的存儲空間幾乎是難以想象的大。目前,存儲基因組數(shù)據(jù)的費用仍然只是實驗室總體預(yù)算的一小部分。但是這種費用正在急劇升高,幅度遠遠超過了存儲硬件價格的下降。在未來五年內(nèi),存儲數(shù)十億人、動物、植物和微生物的基因組的成本將輕松達到每年數(shù)十億美元。這些數(shù)據(jù)需要保存幾十年,甚至更長時間。

將數(shù)據(jù)壓縮顯然有助于解決其存儲問題。生物信息學(xué)專家已經(jīng)使用像gzip這樣的標(biāo)準(zhǔn)壓縮工具將文件大小縮小到了原來的1/20。一些研究人員還使用針對基因組數(shù)據(jù)的更專業(yè)的壓縮工具,但這些工具并沒有被廣泛采用。我們兩個人都在研究數(shù)據(jù)壓縮算法,我們認為現(xiàn)在是時候提出一種效率更高、速度更快、更適合基因組數(shù)據(jù)獨特特性的新壓縮方案了。正如專用的視頻音頻壓縮方案對于像YouTube和Netflix這樣的流媒體服務(wù)至關(guān)重要一樣,要從爆炸式增長的基因組數(shù)據(jù)中盡可能多地獲益,專門針對基因組數(shù)據(jù)的高效壓縮方案將是十分必要的。

圖片來源:Stephens ZD,Lee SY,Faghri F,Campbell RH,Zhai C,Efron MJ,et al.2015,PLoS Biol 13(7).

人類基因組測序的增長:自2001年人類基因組序列草圖首次發(fā)表以來,測序的人類基因組數(shù)量和測序能力的增長速度都有了顯著提高。2015年后的三條線代表三種可能的增長曲線。

在我們解釋如何更好地壓縮基因組數(shù)據(jù)之前,讓我們仔細研究一下數(shù)據(jù)本身。“基因組”在這里指的是四種堿基核苷酸——腺嘌呤(adenine)、胞嘧啶(cytosine)、鳥嘌呤(guanine)和胸腺嘧啶(thymine)——的序列,它們分別由我們熟悉的DNA中的A、C、G、T四個字母表示。這些核苷酸出現(xiàn)在A-T和C-G堿基對組成的鏈中,人類基因組中的23對染色體都是由這兩種堿基對構(gòu)成的。大多數(shù)人類細胞中,這些染色體包含約60億個核苷酸,包括編碼基因、非編碼元件(如染色體末端的端粒)、調(diào)節(jié)元件和線粒體DNA。Illumina、Oxford Nanopore Technologies和Pacific Biosciences等公司生產(chǎn)的DNA測序儀器,能夠在數(shù)小時內(nèi)從一個人的DNA樣本中自動完成對其基因組的測序。

這些商業(yè)化的DNA測序儀不會產(chǎn)生整個基因組長度的ACGT字符串,而是產(chǎn)生大量子串或“讀數(shù)”(reads)。這些讀數(shù)會部分重疊,需要序列組裝軟件基于它們重建出完整的基因組。一般來說,當(dāng)進行整個基因組測序時,每個基因組片段長度不超過100個讀數(shù)。

根據(jù)所使用的測序技術(shù),讀數(shù)的長度可能從大約100到100,000個堿基對變化,讀數(shù)的總數(shù)可能從數(shù)百萬到數(shù)百億不等。短讀數(shù)可以發(fā)現(xiàn)單個堿基對突變,而較長的讀數(shù)更適用于檢測復(fù)雜的變異,如數(shù)千個堿基對的刪除或插入。

DNA測序是一個嘈雜的過程,讀數(shù)中包含錯誤是很常見的。因此,除了ACGT核苷酸字符串之外,每個讀數(shù)包含一個質(zhì)量分?jǐn)?shù),表明測序儀對每個DNA核苷酸測序結(jié)果的信任度。測序儀將它們的質(zhì)量分?jǐn)?shù)表示為錯誤概率的對數(shù)。它們使用的算法是專有的,但事后可以檢查。如果質(zhì)量得分為20(對應(yīng)于1%的錯誤概率),用戶可以確認在已知的DNA序列中約1%的堿基對是不正確的。使用這些文件的程序依賴質(zhì)量分?jǐn)?shù)來將測序錯誤和突變區(qū)分開來。真正的突變會比測序錯誤顯示出更高的平均質(zhì)量分?jǐn)?shù),也就是說其錯誤概率更低。

測序儀將字符串和質(zhì)量分?jǐn)?shù)以及一些其他元數(shù)據(jù)逐個讀數(shù)地粘在一起,形成所謂的FASTQ文件。一個完整基因組的FASTQ文件通常包含數(shù)十到數(shù)百千兆字節(jié)。

這些文件也非常冗余,這源于任何兩個人的基因組幾乎完全相同這個事實。平均而言,兩個人的基因組在每1,000個核苷酸中大約有一個核苷酸不同,通常這些基因差異是很有趣的。一些DNA測序針對特定的差異區(qū)域,例如,像23andMe這樣的DNA基因分型應(yīng)用程序只尋找特定的變異,而刑事調(diào)查中的DNA分析則去尋找特定標(biāo)記重復(fù)次數(shù)的變異。

但是,如果你不知道有趣的東西在哪里(比如當(dāng)你試圖診斷一種未知基因來源的疾病時),你就需要對整個基因組進行測序,這就意味著你需要獲取更大量的測序數(shù)據(jù)。

測序數(shù)據(jù)的重復(fù)也來自于為清除錯誤而多次讀取基因組的相同部分。有時,一個樣本中包含一個序列的多個變異,因此你想重復(fù)對其進行測序以捕獲這些變異。比如說你正試圖檢測一個組織樣本中的一些癌細胞或一個孕婦的血液中的胎兒DNA痕跡,這可能就意味著要對每個DNA堿基對多次測序(通常超過100次)以區(qū)分罕見變異與更常見變異,以及它們與測序錯誤的真正區(qū)別。

讀數(shù)和參考基因組:一個DNA“讀數(shù)”(頂部字符串)與人的參考基因組的一小部分(底部字符串)大致匹配。插入、刪除和替換(由于DNA測序過程中的突變或噪聲)導(dǎo)致不完美匹配。為了編碼一個讀數(shù),我們可以聲明其在參考基因組中的起始位置并描述所有變異。

現(xiàn)在,你應(yīng)該更好地理解了為什么DNA測序會產(chǎn)生如此多的冗余數(shù)據(jù)。事實證明,這種冗余對于數(shù)據(jù)壓縮是有利的。對于相同的基因組數(shù)據(jù)塊,你可以只存儲一個副本,而不是存儲多個副本。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 冗余
    +關(guān)注

    關(guān)注

    1

    文章

    112

    瀏覽量

    20396
  • 基因
    +關(guān)注

    關(guān)注

    0

    文章

    95

    瀏覽量

    17348

原文標(biāo)題:面臨挑戰(zhàn)的基因組數(shù)據(jù)壓縮技術(shù)(上)

文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Xilinx FPGA在基因組測序中的優(yōu)勢

    PrecisionFDA平臺是基因組信息學(xué)社區(qū)和共享數(shù)據(jù)平臺,這是一個為研究人員準(zhǔn)備的開源、基于云的工具,它將為下一代測序診斷提供依據(jù),并且為所有開發(fā)者提供統(tǒng)一的、可共享的在線基因組
    發(fā)表于 07-11 08:33 ?1988次閱讀

    基因組數(shù)據(jù)CNV分析簡介 精選資料分享

    除了利用aCGH和snp芯片來檢測CNV之外,也可以通過NGS數(shù)據(jù)來分析CNV, 比如全基因組和全外顯子測序。針對全基因組CNV的檢測,還針對開發(fā)了一種稱之為C...
    發(fā)表于 07-29 08:24

    基因組測序的優(yōu)勢 精選資料分享

    基因組測序的優(yōu)勢目前,隨著高通量測序技術(shù)快速發(fā)展、測序成本的進一步降低以及組裝方法的不斷完善,全基因組
    發(fā)表于 07-29 08:31

    基因組CNV分析的策略是什么?

    基因組CNV分析的策略是什么?
    發(fā)表于 10-27 06:43

    基因組測序的優(yōu)勢是什么?

    基因組測序的優(yōu)勢是什么?
    發(fā)表于 10-27 06:27

    什么是基因組序列數(shù)據(jù)

    什么是基因組序列數(shù)據(jù)庫 GSDB是基因組序列數(shù)據(jù)庫(Genome Sequence Data Base),由美國新墨西哥州Santa Fe的國家
    發(fā)表于 06-17 07:37 ?1504次閱讀

    區(qū)塊鏈對基因組數(shù)據(jù)的保護

    我相信,我是唯一有權(quán)擁有關(guān)于我的基因組信息的人,就像我有表達想法的權(quán)利,選擇工作或宗教的權(quán)利。
    發(fā)表于 07-16 09:12 ?851次閱讀

    FPGA能在實時基因組測序計算中大顯身手,大大縮短時間

    目前,F(xiàn)PGA在實時基因組測序計算大顯身手,把測序時間從30小時縮短到26分鐘,之后基因組測序計算時間將會縮短到10分鐘,預(yù)計一個全序列
    發(fā)表于 10-09 16:51 ?2095次閱讀

    國產(chǎn)芯片助力全球首次實現(xiàn)手機個人全基因組測序分析

    在手機上也能進行全基因組測序分析?沒錯!據(jù)麥姆斯咨詢報道,近日,生命大數(shù)據(jù)高峰論壇暨第四屆基因組云計算技術(shù)開發(fā)者峰會(GCTA 4),在貴州
    的頭像 發(fā)表于 05-30 14:54 ?3050次閱讀

    國產(chǎn)芯片助力全球首次實現(xiàn)手機個人全基因組測序分析

    在手機上也能進行全基因組測序分析?沒錯!近日,生命大數(shù)據(jù)高峰論壇暨第四屆基因組云計算技術(shù)開發(fā)者峰會(GCTA 4)在貴州貴陽新世界酒店隆重舉
    的頭像 發(fā)表于 06-05 15:08 ?3936次閱讀

    華大發(fā)布高精度基因組標(biāo)準(zhǔn)及解決方案 開啟基因組測序“全高清”時代

    基因組測序“全高清”時代!
    的頭像 發(fā)表于 06-19 15:10 ?3402次閱讀

    AI加速推動醫(yī)療個體化轉(zhuǎn)型 基因組學(xué)將有望成為未來發(fā)展主流

    自2003年首次對人類基因組進行測序以來,整個基因組測序流程的成本就一直在下降,而且下降的速度遠快于根據(jù)摩爾定律所預(yù)測的速度。從新生兒基因組
    發(fā)表于 01-02 10:41 ?937次閱讀

    微流控芯片技術(shù)在單細胞基因組學(xué)研究中的應(yīng)用

    單細胞基因組學(xué)包括單細胞全基因組測序和以單細胞和微量細胞為材料的全基因組范圍內(nèi)的基因功能研究。功能基因組
    的頭像 發(fā)表于 03-03 13:04 ?2271次閱讀
    微流控芯片<b class='flag-5'>技術(shù)</b>在單細胞<b class='flag-5'>基因組</b>學(xué)研究中的應(yīng)用

    人工智能如何改變基因組學(xué)?

    人進行測序,還是大規(guī)模人群的遺傳學(xué)研究,全基因組測序正在成為臨床工作流程和藥物研發(fā)的重要一環(huán)。 但基因組測序只是第一步。
    的頭像 發(fā)表于 04-05 00:25 ?714次閱讀

    GPU助力基因組測序分析

    等。隨著近幾年基因測序成本如圖 1所示不斷下降,在萬元內(nèi)即可完成人類的全基因組測序,GPU的技術(shù)發(fā)展也帶來分析成本與時間的下降,于是用于檢測
    的頭像 發(fā)表于 08-01 10:32 ?2016次閱讀
    GPU助力<b class='flag-5'>基因組</b>重<b class='flag-5'>測序</b>分析
    主站蜘蛛池模板: 极品少妇粉嫩小泬啪啪AV | 亚洲国产欧美在线人成aaaa20 | 亚洲综合无码一区二区 | 红杏俱乐部 | 国产人妻人伦精品无码.麻豆 | 免费观看成人毛片 | 黄色网址在线播放 | 国产午夜在线观看视频 | 99久久精品国产一区二区三区 | 野花香HD免费高清版6高清版 | 被滋润的艳妇疯狂呻吟白洁老七 | 别停好爽好深好大好舒服视频 | 国产学生无码中文视频一区 | 伊人伊人伊人 | 国产免费怕怕免费视频观看 | 99精品视频在线免费观看 | 欧洲美女人 一级毛片 | 欧美5g影院天天爽天天看 | 欧美 日韩 无码 有码 在线 | 久久中文字幕人妻熟AV女蜜柚M | 男人和女人一级黄色大片 | 开心久久激情 | 99精品视频在线观看 | 日本熟妇乱妇熟色A片蜜桃亚洲 | 日本欧美高清一区二区视频 | 伊人久久艹 | 擦擦擦在线视频观看 | 男神插曲女生软件完整版 | 成人高清网站 | 袖珍人与大黑人性视频 | 竹菊精品久久久久久久99蜜桃 | 在线播放真实国产乱子伦 | 国精产品一区二区三区有限公司 | 久久re这里视频只精品首页 | 老少配xxxxx欧美 | 免费国产足恋网站 | 看全色黄大色大片免费久黄久 | 日韩影院久久 | 国产午夜精品美女免费大片 | 亚洲 日韩 自拍 视频一区 | 日韩免费精品视频 |