tophat使用_tophat是什么意思(转录组比对软件tophat的使用)
概述:tophat是以bowtie2為核心的一款比對軟件。
tophat工作分兩步:
1.將reads用bowtie比對到參考基因組上。
2.將unmapped-reads打斷成更小的fragments,比對到參考基因組上,如果比對成功,建立剪切點。
用法:tophat [options]* <index_base> <reads1_1[,…,readsN_1]> [reads1_2,…readsN_2]
<index_base>:參考基因組的index文件的具體目錄,例如,index文件存放在當(dāng)前目錄下的index文件夾,文件的名字是hg19.*.*, index數(shù)據(jù)的文件應(yīng)該是:./index/hg19,不用寫到./index/hg19.*.*。參考基因組應(yīng)該和index文件放在同一目錄中。
reads:PE reads必須放在不同的兩個文件中,文件名必須按照*_1, *_2的規(guī)范成對出現(xiàn)。如:A.reads1_1.fastq B.reads1_1.fastq A.reads1_2.fastq B.reads1_2fastq
常用options:
-o | –output default: ./tophat_out輸出的文件夾路徑。
-r |--mate-inner-dist default: 50成對的reads之間的平均inner距離。例如:fragments長度300bp,reads長度50bp,則其inner距離為200bp,該值該設(shè)為200。
–mate-std-dev default:20inner距離的標(biāo)準(zhǔn)偏差。
-a | --min-anchor-length default: 8read的錨定長度:該參數(shù)能設(shè)定的最小值為3;錨定在junction兩邊的reads長度只有都大于此值,才能用于junction的驗證。
--library-typeTophat處理的reads具有鏈特異性。比對結(jié)果中將會有個XS標(biāo)簽。一般Illumina數(shù)據(jù)的library-type為 fr-unstranded。
-G | –GTF提供基因模型的注釋文件,GTF 2.2 或者 GFF 3 格式的文件。如果設(shè)置了該參數(shù),Tophat 則先提取出轉(zhuǎn)錄子序列,然后使用Bowtie2將reads比對到提取的轉(zhuǎn)錄組中;只有不能比對上 的reads再比對到genome;比對上的reads再打斷轉(zhuǎn)變成genomic mappings;再融合新 的mappings和junctions作為最后的輸出。值得注意的是GTF/GFF文件代表chromosome和contig的第一列要和bowtie index中的 參考序列名一致。
參考文章:
http://blog.sina.com.cn/s/blog_8808cae20101amqp.html
總結(jié)
以上是生活随笔為你收集整理的tophat使用_tophat是什么意思(转录组比对软件tophat的使用)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DBeaver – 一款免费
- 下一篇: python3、sqlmap下载与安装教