illumina平臺數(shù)據(jù)質(zhì)控與比對_第1頁
illumina平臺數(shù)據(jù)質(zhì)控與比對_第2頁
illumina平臺數(shù)據(jù)質(zhì)控與比對_第3頁
illumina平臺數(shù)據(jù)質(zhì)控與比對_第4頁
illumina平臺數(shù)據(jù)質(zhì)控與比對_第5頁
已閱讀5頁,還剩40頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、Illumina平臺數(shù)據(jù)質(zhì)控與比對-張燕艷目 錄下機數(shù)據(jù)的獲取數(shù)據(jù)質(zhì)控數(shù)據(jù)比對結(jié)果展示事例Illunima測序樣本準備(sample fragmentation)文庫構建(library preparation)測序反應(sequencing reaction)數(shù)據(jù)分析(data analysis)實驗流程樣本污染文庫質(zhì)量接頭污染測序質(zhì)量流程框架圖數(shù)據(jù)獲取QC下機數(shù)據(jù)的獲取Illumina測序的基本原理是邊合成邊測序。在Sanger等測序方法的基礎上,通過技術創(chuàng)新,用不同顏色的熒光標記四種不同的dNTP,當DNA聚合酶合成互補鏈時,每添加一種dNTP就會釋放出不同的熒光,根據(jù)捕捉的熒光信號并經(jīng)

2、過特定的計算機軟件處理,從而獲得待測DNA的序列信息。Raw data計算機軟件Illumina控制PC計算機集群控制測序過程,獲取圖像信息,保留在內(nèi)存中RTA軟件: 圖片分析,得到光強信號文件*.cif; basecalling,得到全部可識別的cluster的序列文件*bcl 將*.cif或*bcl文件傳輸?shù)接嬎銠C集群由*cif文件做basecalling,或?qū)?bcl文件轉(zhuǎn)換為*qseq.txt文件將篩選后的reads,輸出到fastq文件;區(qū)分index; (CASAVA)光強信號文件*.cif全部序列文件*.bcl*qseq.txt篩選后的readsfastq文件下機數(shù)據(jù)的獲取分數(shù)據(jù)

3、(demultiplex)軟件:bcl2fastq(v2.16.0.10)功能:將測序的bcl文件轉(zhuǎn)換成fastq,根據(jù)barcode將數(shù)據(jù)分開下機數(shù)據(jù)的獲取參數(shù)參數(shù)說明-i -input-dir argpath to input directory-o -output-dir argpath to demultiplexed output-r -loading-threads argnumber of threads used for loading BCL data-d -demultiplexing-threads argnumber of threads used for demult

4、iplexing-p -processing-threads argnumber of threads used for processing demultiplexed data-w -writing-threads argnumber of threads used for writing FASTQ data-create-fastq-for-index-readscreate FASTQ files also for index reads-ignore-missing-bclsassume N/# for missing calls-barcode-mismatches arg (=

5、1)number of allowed mismatches per index multiple entries下機數(shù)據(jù)的獲取接頭統(tǒng)計(AdapterCheck)軟件:fqcheck_adapter_v2功能:數(shù)據(jù)與Adapter序列比對,找到reads中的Adapter的位置;參數(shù)參數(shù)說明 -a input fasta file of adapters -r input fastq file of reads -l output adapter list file -s output adapter statistics file -c output fqcheck file -q low

6、est quality 33下機數(shù)據(jù)的獲取下機數(shù)據(jù)展示:文庫名:DHG00272Lane號:L4、L5Raw data:DHG00272_L4_1.fq.gz, DHG00272_L4_2.fq.gz;DHG00272_L5_1.fq.gz,DHG00272_L5_2.fq.gz.接頭文件:DHG00272_L4_1.adapter.list.gz, DHG00272_L4_2.adapter.list.gz;DHG00272_L5_1.adapter.list.gz, DHG00272_L5_2.adapter.list.gz;2022/8/14下機數(shù)據(jù)的獲取常見文件格式1:Fastq文件格

7、式文件說明:每4行表示一條reads(一個cluster);第一行以開頭,后面是reads的ID以及其他信息第二行為read的序列,大寫“ACGTN”第三行以+開頭,跟隨者該read的名稱(一般于后面的內(nèi)容相同),但有時可以省略,但+一定不能省第四行代表reads的質(zhì)量。文件事例:HWUSI-EAS100R:6:73:941:1973#0/1GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT+HWUSI-EAS100R:6:73:941:1973#0/1!*(*+)%+)(%).1*-+*)*55CCFCCCCCCC62022

8、/8/14下機數(shù)據(jù)的獲取堿基質(zhì)量值原理Illumina測序儀是按照熒光信號來判斷所測序的堿基是哪一種的,例如紅黃藍綠分別對應ATCG,那么一旦出現(xiàn)一個紫色的信號該怎么判斷呢,因此對每個結(jié)果都有一個概率的問題。質(zhì)量值計算方法2022/8/14下機數(shù)據(jù)的獲取堿基質(zhì)量值表示方式堿基質(zhì)量是使用ASCII碼值表示,包含33位和64位。所謂33位,即如果該堿基測序出錯的概率為0.001,則Q應該為30,那么30+33=63,那么63對應的ASCii碼為“?”,則該堿基對應的質(zhì)量代表值即為?堿基質(zhì)量值分布常見文件格式2:FastaFasta格式首先以大于號“”開頭,接著是序列的標識“gi|187608668

9、|ref|NM_001043364.2|”,然后是序列的描述信息。換行后是序列信息,序列中允許空格,換行,空行,直到下一個大于號,表示該序列的結(jié)束。Fastq轉(zhuǎn)fastazcat DLBC00105-13_L5_1_clean.fq.gz | awk NR%4=1printf %sn, substr($0,2)NR%4=2print output_file.fa下機數(shù)據(jù)的獲取下機數(shù)據(jù)的獲取文件說明:DLBA00154-1_L4_1.fq.gzDLBA00154-1_L4_2.fq.gzDLBA00154-1_L4_1.adapter.list.gz下機數(shù)據(jù)的獲取文件說明:DLBA00154-1

10、_L4_1.adapter.list.gzDLBA00154-1_L4_2.adapter.list.gz接頭統(tǒng)計文件:DLBA00154-1_L4_1.adap.stat接頭統(tǒng)計文件:DLBA00154-1_L4_2.adap.stat2022/8/14數(shù)據(jù)質(zhì)控Raw Data Clean Data QC(pk_qc_new2)目的:(1)Adapter處理;(2)當單端測序read中含有的N的含量超過該條read長度比例的 10% 時,需要去除此對paired reads;(3)當單端測序read中含有的低質(zhì)量(=5)堿基數(shù)超過該條read長度比例的 50% 時,需要去除此對paired

11、reads。2022/8/14數(shù)據(jù)質(zhì)控Adapter處理:(1)添加參數(shù)-k:截掉Adapter,如果adapter在reads開頭,刪除這對reads,如果adapter在reads末尾且大于10bp,截斷adapter,截斷后的長度小于100bp,則去掉這對reads;(參數(shù)-m控制保留的reads的最小長度,默認是100bp)(2)不加參數(shù)-k:adapter序列占總長10%,去掉此對reads.數(shù)據(jù)質(zhì)控數(shù)據(jù)質(zhì)控程序:pk_qc_new2$Bin/pk_qc_new2 -i $RawDataDir/$LibID/$LibID_$LaneID_1.fq.gz,$RawDataDir/$Li

12、bID/$LibID_$LaneID_2.fq.gz -a $RawDataDir/$LibID/$LibID_$LaneID_1.adapter.list.gz,$RawDataDir/$LibID/$LibID_$LaneID_2.adapter.list.gz -N 0.1 -q 33 -k -L 5 -p 0.5 -c -o $OutDir/$ProjectType/$patientID/$SampleID/01.QC2022/8/14數(shù)據(jù)質(zhì)控數(shù)據(jù)質(zhì)控程序參數(shù)說明:必須輸入的參數(shù):-i Raw data;(reads1與reads2用“,”隔開)-a adapter Files;(re

13、ads1與reads2用“,”隔開)其他重要參數(shù):-N |-n-cutoff N堿基的過濾值(0.1) -L |-low-qual最低質(zhì)量值(5) -p 低質(zhì)量堿基占的比例下限(0.5) -k 截取接頭控制參數(shù) -m reads的長度下限(100)數(shù)據(jù)質(zhì)控數(shù)據(jù)質(zhì)控結(jié)果:Clean Reads:DLBA00158_L3_1_clean.fq.gz, DLBA00158_L3_2_clean.fq.gz.質(zhì)控文件:DLBA00158_L3.statraw_DLBA00158_L3.GC, clean_DLBA00158_L3.GC;raw_DLBA00158_L3.QM,clean_DLBA001

14、58_L3.QM;raw_DLBA00158_L3.QD,clean_DLBA00158_L3.QD;質(zhì)控圖:*png數(shù)據(jù)質(zhì)控數(shù)據(jù)質(zhì)控結(jié)果1:DLBA00158_L3.statType Raw data Clean dataNumber of Reads: 15277165 13235125Data Size: 3697414678(80.67%)N of fq1: 0.01% 0.01%N of fq2: 0.02% 0.01%Low qual base of fq1:(=5) 0.01% 0.01%Low qual base of fq2:(=5) 0.02% 0.01%Q20 of fq

15、1: 97.50% 97.76%Q20 of fq2: 94.60% 94.84%Q30 of fq1: 94.51% 94.83%Q30 of fq2: 89.18% 89.72%GC of fq1: 49.02% 48.67%GC of fq2: 48.78% 48.75%Error of fq1: 0.02% 0.02%Error of fq2: 0.03% 0.03%Discard Reads related to N and low qual: 0.03% (設置參數(shù)-k)Discard Reads related to Adapter: 7400132Reads的長度不一.數(shù)據(jù)質(zhì)控

16、數(shù)據(jù)質(zhì)控統(tǒng)計結(jié)果1:QCstat.xlsSampleIDLibIDRaw bases(bp)Clean bases(bp)Effective rate(%)Error rate(%)Q20(%)Q30(%)4799-caDLBA00158 369741467880.670.0396.392.284618-caDLBA00159 383315571489.60.0396.6292.698476ADLBB00031-195173738500506907867497.980.0395.4190.028886ADLBB00053-15 97.590.0395.4790.118476LCDLBC0009

17、7-63433500300339278545898.810.0396.0491.018886LCDLBC00115-82790338400260424408393.330.0495.890.03SampleIDGC content(%)AT separationGC separationSD(A)SD(T)SD(G)SD(C)maxN4799-ca48.710.250.040.530.750.560.61.624618-ca46.340.130.070.510.510.360.371.628476A46.960.10.011.231.350.931.580.018886A47.280.030.

18、051.241.30.911.520.028476LC46.360.230.080.340.390.310.330.018886LC45.520.180.030.360.30.310.360.13數(shù)據(jù)質(zhì)控數(shù)據(jù)質(zhì)控概念介紹:Raw bases:原始數(shù)據(jù)產(chǎn)量;Clean bases:QC過濾之后的有效數(shù)據(jù)量;Effective rate:有效數(shù)據(jù)率(CleanBase/RawBase);Error rate:堿基平均錯誤率;Q20:質(zhì)量值在20以上(錯誤率在1%以下)的堿基所占的百分比;Q30:質(zhì)量值在30以上(錯誤率在0.1%以下)的堿基所占的百分比;GC content:堿基G和C所占的比例;

19、AT/GC separation:表示堿基AT(GC)的分離程度,即堿基含量差的絕對值;SD(A/T/G/C):表示堿基在不同circle中含量的波動,是各個circle堿基含量的標準差;MaxN:N含量最高的circle的N含量。數(shù)據(jù)質(zhì)控數(shù)據(jù)質(zhì)控結(jié)果2:堿基含量分布圖:NormalunNormal1:測序問題導致有偏向性的測序錯誤unNormal1:污染導致堿基含量波動厲害(1.空載adapter較多;2.PCR引物污染)數(shù)據(jù)質(zhì)控數(shù)據(jù)質(zhì)控結(jié)果3:測序質(zhì)量分布圖:Normal 測序堿基質(zhì)量特點:測序reads尾部質(zhì)量低;前6bp測序reads質(zhì)量低;測序開始,儀器不穩(wěn)定,測序reads開頭質(zhì)量

20、低隨著測序的進行,光強度降低,測序reads尾部質(zhì)量低;標準:Q20不小于90%;Q30不小于85%;數(shù)據(jù)質(zhì)控數(shù)據(jù)質(zhì)控結(jié)果4:質(zhì)量值分布圖:Raw dataClean data備注:此張圖不出現(xiàn)在對內(nèi)報告里,可以在質(zhì)控路徑下載查看。數(shù)據(jù)比對數(shù)據(jù)比對:Mapping reads to reference genome, to detect variations比對結(jié)果:序列同源允許變異數(shù)據(jù)比對數(shù)據(jù)比對流程:NormalClean ReadsBam fileBwa、samtools去重后Bam fileMarkDup統(tǒng)計結(jié)果統(tǒng)計程序數(shù)據(jù)比對Step1:Clean reads to bam file

21、使用比對軟件(1)BWANormalBwa軟件參數(shù)說明:數(shù)據(jù)比對流程中使用的參數(shù): -k minimum seed length 19 -M mark shorter split hits as secondary-R STR read group header line such as RGtID:footSM:bar-t INT number of threads 1數(shù)據(jù)比對Step1:Clean reads to bam file軟件(2)samtoolsSamtools軟件命令說明:數(shù)據(jù)比對流程中使用的命令:view SAMBAM conversionsort sort alignme

22、nt filemerge merge sorted alignments數(shù)據(jù)比對常見文件格式3:Bam/Sam(通過samtools view查看bam格式的文件)看上去很類似fastq文件,它也有read名稱,序列,質(zhì)量等信息,但是又不完全一樣。首先,每個read只占一行,只是它被tab分成了很多列,一共有12列,分別記錄了: 1、read名稱(序列的名字,那一行,排序以后read1/2這一個就刪除了)2、SAM標記(描述align結(jié)果的flag) 3、chromosome(ref的名字,如染色體名稱) 4、5端起始位置(本reads在ref的起始位置,最左端) 5、MAPQ(mapping

23、 quality,描述比對的質(zhì)量,數(shù)字越大,特異性越高) 6、CIGAR字串,記錄插入,刪除,錯配以及splice junctions(后剪切拼接的接頭) 7、mate名稱,記錄mate pair信息(如果是成對匹配就是=,單端匹配或未匹配就是*) 8、mate的位置(成對reads中另一條reads在ref的起始位置)9、模板的長度(整條序列的長度,即兩條reads起始位置的差再加上右側(cè)reads的長度,若本條reads就是右側(cè)reads則為負數(shù)) 10、read序列 11、read質(zhì)量 12、程序用標記(對mapping的各類描述)2022/8/14數(shù)據(jù)比對常見文件格式3:Bam/Sam(

24、通過samtools view查看bam格式的文件)BAM文件格式事例:前9列:剩余列:數(shù)據(jù)比對Step2:Mark Duplication(去重)使用軟件包picardDIR/MarkDuplicates.jar數(shù)據(jù)比對必須輸入?yún)?shù)說明:I 比對的Bam文件O 去重后的bam文件M duplication統(tǒng)計文件MarkDuplicates軟件參數(shù)說明:可選參數(shù)說明:REMOVE_DUPLICATES If true do not write duplicates to the output file instead of writing them with appropriate flags set. Default value: false. This option can be set to null to clear the default value. Po

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論