基于邊合成邊測序(Sequencing By Synthesis,SBS)技術,Illumina HiSeq2500高通量測序平臺對cDNA文庫進行測序,能夠產出大量的高質量Reads,測序平臺產出的這些Reads或堿基稱為原始數據(Raw Data),其大部分堿基質量打分能達到或超過Q30。Raw Data通常以FASTQ格式提供,每個測序樣品的Raw Data包括兩個FASTQ文件,分別包含所有cDNA片段兩端測定的Reads。
FASTQ格式文件示意圖如下:
FASTQ格式文件示意圖
注:FASTQ文件中通常每4行對應一個序列單元:第一行以@開頭,后面接著序列標識(ID)以及其它可選的描述信息;第二行為堿基序列,即Reads;第三行以“+”開頭,后面接著可選的描述信息;第四行為Reads每個堿基對應的質量打分編碼,長度必須和Reads的序列長度相同。
測序堿基質量值
堿基質量值(Quality Score或Q-score)是堿基識別(Base Calling)出錯的概率的整數映射。通常使用的Phred堿基質量值公式為:
公式中,P為堿基識別出錯的概率。下表給出了堿基質量值與堿基識別出錯的概率的對應關系:
表1 堿基質量值與堿基識別出錯的概率的對應關系表
堿基質量值越高表明堿基識別越可靠,堿基測錯的可能性越小。比如,對于堿基質量值為Q20的堿基識別,100個堿基中有1個會識別出錯;對于堿基質量值為Q30的堿基識別,1,000個堿基中有1個會識別出錯;Q40表示10,000個堿基中才有1個會識別出錯。
以測序循環為單位,對單個樣品所有Reads平行測序的堿基質量值做分布圖,可以查看單個樣品各個測序循環及整體的測序質量。
堿基質量值分布圖
注:橫坐標為測序堿基在Reads上的位置,縱坐標為堿基質量值。顏色深淺表示堿基比重,顏色越深,說明該位置測定的堿基中為對應質量值的堿基所占的比重越大,反之亦然。
測序質量控制
FASTQ文件中測序Reads需要與指定的參考基因組進行序列比對,定位cDNA片段在基因組或基因上的位置。在序列比對之前,首先需要確保這些Reads有足夠高的質量,以保證后續分析的準確。測序質量控制方式如下:
(1) 去除測序接頭以及引物序列;
(2) 過濾低質量值數據,確保數據質量。
經過上述一系列的質量控制之后得到的高質量Reads或堿基,稱為Clean Data。Clean Data同樣以FASTQ格式提供。
測序數據產出統計
某項目各樣品數據產出統計見下表:
表2 樣品測序數據評估統計表
注:Samples:樣品信息單樣品名稱;ID:樣品編號;Read Number:Clean Data中pair-end Reads(雙末端測序)總數;Base Number:Clean Data總堿基數;GC Content:Clean Data GC含量,即Clean Data中G和C兩種堿基占總堿基的百分比;%≥Q30:Clean Data質量值大于或等于30的堿基所占的百分比。
轉錄組數據與參考基因組序列比對
獲得Clean Reads后,將其與參考基因組進行序列比對,獲取在參考基因組或基因上的位置信息,以及測序樣品特有的序列特征信息。
TopHat2是一個高效的序列比對軟件。它以高通量Reads比對軟件Bowtie為基礎,將轉錄組測序Reads比對到基因組上,然后通過分析比對結果識別外顯子之間的剪接點(Splicing Junction)。這不僅為可變剪接分析提供了數據基礎,還能夠使更多的Reads比對到參考基因組,提高了測序數據的利用率。
轉錄組測序數據中,只有比對到參考基因組上的數據才能用于后續分析。因此,將比對到指定的參考基因組上的Reads稱為Mapped Reads,對應的數據稱為Mapped Data。
比對效率統計
比對效率指Mapped Reads占Clean Reads的百分比,是轉錄組數據利用率的最直接體現。比對效率除了受數據測序質量影響外,還與指定的參考基因組組裝的優劣、參考基因組與測序樣品的生物學分類關系遠近(亞種)有關。因此,通過比對效率,可以評估所選參考基因組組裝是否能滿足信息分析的需求,及后期數據分析的可靠性。
各樣品測序數據與所選參考基因組的序列比對結果統計見下表:
表3 Clean Data與參考基因組比對結果統計表
注:ID:樣品編號;Total Reads:Clean Reads數目,按單端計;Mapped Reads:比對到參考基因組上的Reads數目;Mapped Ratio:比對到參考基因組上的Reads在Clean Reads中占的百分比;Uniq Mapped Reads:比對到參考基因組唯一位置的Reads數目;Uniq Mapped Ratio:比對到參考基因組唯一位置的Reads在Clean Reads中占的百分比。
比對結果作圖
將比對到不同染色體上Reads進行位置分布統計,繪制Mapped Reads在所選參考基因組上的覆蓋深度分布圖。
樣品T01的Mapped Reads在參考基因組部分染色體上的覆蓋深度分布圖如下:
Mapped Reads在參考基因組上的位置及覆蓋深度分布圖
注:橫坐標為染色體位置;縱坐標為覆蓋深度以2為底的對數值,以10kb作為區間單位長度,劃分染色體成多個小窗口(Window),統計落在各個窗口內的Mapped Reads作為其覆蓋深度。
理論上,來自成熟mRNA的Reads應該比對到外顯子區。但是,由于以下原因一部分Reads會比對到內含子區和基因間區:
(1) 樣品提取時將含有Ploy(A)尾而內含子沒有切除完全的mRNA(即mRNA前體)提出,使得來自內含子片段的Reads比對到了內含子區;
(2) 基因組注釋錯誤,原來為外顯子的區域注釋成了內含子區,或者相反;
(3) 基因組注釋水平低,對于使用轉錄組測序數據進行的基因組注釋,由于轉錄組測序不能遍歷所有的時間和空間點,使得用于注釋的轉錄組測序數據中不表達或低表達的基因剛好在該項目的樣品中檢測到較高豐度時,來自這類基因的Reads就比對到了被注釋的基因間區,這也是新基因和新轉錄本發掘的基礎之一;
(4) 測序樣品與參考基因組存在差異,比如測序樣品中突變形成新的轉錄組起始位點形成樣品特有的新基因,或者剪接位點差異形成新的轉錄本,這也是新轉錄本發掘的基礎之一。
統計Mapped Reads在指定的參考基因組不同區域(外顯子、內含子和基因間區)的數目,繪制基因組不同區域上各樣品Mapped Reads的分布直方圖,如下:
基因組不同區域Reads分布直方圖
注:圖中每個直方柱表示一個樣品,粉色區域為外顯子區、綠色區域為基因間區、藍色區域為內含子區,區域的高度表示比對到該區域的Mapped Reads在所有Mapped Reads中所占的百分比。
編輯:hfy
-
sbs
+關注
關注
0文章
15瀏覽量
12531 -
質量控制
+關注
關注
0文章
28瀏覽量
8523
發布評論請先 登錄
相關推薦
評論