日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

STAR:转录组数据比对工具简介

發布時間:2024/8/1 编程问答 59 豆豆
生活随笔 收集整理的這篇文章主要介紹了 STAR:转录组数据比对工具简介 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

歡迎關注”生信修煉手冊”!

STAR是一款RNA_seq數據專用的比對軟件,比對速度非???#xff0c;最大的優勢是靈敏度高,GATK推薦采用STAR比對,然后進行下游的SNP分析。軟件的源代碼保存在github上,地址如下

https://github.com/alexdobin/STAR

安裝過程如下

wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz tar xzvf 2.6.1b.tar.gz

解壓縮之后,在bin/Linux_x86_64_static目錄下,提供了編譯好的可執行文件STAR。和hisat等軟件不同,STAR將所有的功能整合在了同一個程序中,通過切換runMode來執行不同的任務。

1. 構建基因組索引

運行比對前,首先需要對基因組建立索引,建立索引對應的runMode為genomeGenerate, 基本用法如下

STAR --runMode genomeGenerate \ --runThreadN ?20 \ --genomeFastaFiles hg19.fasta \ --genomeDir hg19_STAR_db \ --sjdbGTFfile hg19.gtf \ --sjdbOverhang ?149

建立索引需要基因組的fasta和gtf文件,通過genomeFastaFiles和sjdbGTFfile這兩個參數分別指定;STAR構建索引需要指定一個輸出目錄,這個目錄必須事先創建好,在該目錄下,會生成許多文件,所以必須有寫權限;runThreadN指定線程數;sjdbOverhang的值默認為100, 在實際設置時,最佳取值為max(read_length) - 1。

在構建索引時,還支持加入intron的區間信息,通過sjdbFileChrStartEnd指定對應的文件,多個文件用逗號分隔,這種格式的文件是由STAR比對產生的,通常用于2-pass比對模式。

官方推薦基因組的fasta采用primary_assembly版本, 不應該包含alt_scaffold和patches。對于human而言,NCBI的鏈接如下

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_assembly_structure/Primary_Assembly/

Ensembl鏈接如下

ftp://ftp.ensembl.org/pub/release-93/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

2. 運行比對

STAR支持fasta/fastq格式的輸入文件,如果序列文件是壓縮之后的,需要用readFilesCommand參數指定文件解壓縮的方法,對于gzip壓縮的文件而言,有以下兩種下寫法

--readFilesCommand ?zcat --readFilesCommand ?gzip -c

比對完成后,會輸出許多文件,包含4個類別

  • log文件

  • sam文件

  • bam文件

  • 剪切位點文件

  • 每個文件都有事先定義好的名字,當多個樣本同時運行時,為了加以區分,可以通過outFileNamePrefix指定輸出文件的前綴。前3種類型的文件都比較容易理解,剪切位點文件實際上是根據mapping情況,估算出來的intron區間的信息,默認的文件名稱為SJ.out.tab。

    默認輸出的比對文件為SAM格式,為了節省磁盤空間,方便下游分析,可以通過outSAMtype參數指定輸出bam文件,該參數有兩個字段值,第一個值指定文件類型, 取值有SAM和BAM兩種,第二個值指定是否排序,取值范圍包括Unsorted, SortedByCoordinate, 寫法如下

    --outSAMtype BAM SortedByCoordinate

    上述寫法輸出排序之后的bam文件。

    單端數據比對的基本用法如下

    STAR \ --runThreadN ?20 \ --genomeDir hg19_STAR_db \ --readFilesIn reads.fq \ --sjdbGTFfile hg19.gtf \ --sjdbOverhang ?149 \ --outFileNamePrefix sampleA \ --outSAMtype BAM SortedByCoordinate

    雙端數據比對的基本用法如下

    STAR ?\ --runThreadN ?20 \ --genomeDir hg19_STAR_db \ --readFilesIn r1.fq.gz r2.fq.gz \ --readFilesCommand ?zcat \ --sjdbGTFfile hg19.gtf \ --sjdbOverhang ?149 \ --outFileNamePrefix sampleA \ --outSAMtype BAM SortedByCoordinate

    以上只是基本的比對,STAR官方更推薦使用2-pass比對模式,即比對兩次,有以下兩種方式

  • multi-sample 2-pass
    第一次比對和上述的用法一致,比對完之后,每個樣本會產生一個intron的區間文件SJ.out.tab; 在第二次比對之前,重新構建一次基因組的索引,添加所有樣本的SJ.out.tab文件,然后利用新的基因組索引重新比對。這種做法綜合了多個樣本的intron信息,比對的靈敏度會更高,缺點是操作比較繁瑣。

  • per-sample 2-pass
    對于單個樣本,在比對時直接添加--twopassMode Basic參數,軟件會自動進行兩次比對,將第一次比對的SJ.out.tab加入到索引,然后重新比對。這種方法操作簡單,適用于單個樣本的2-pass 比對。

  • 更多參數和用法請參考官方文檔。

    ·end·

    —如果喜歡,快分享給你的朋友們吧—

    掃描關注微信號,更多精彩內容等著你!

    總結

    以上是生活随笔為你收集整理的STAR:转录组数据比对工具简介的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。