2020.12.10丨cufflinks 简介及使用说明
一. 簡介
Cufflinks下主要包含cufflinks,cuffmerge,cuffcompare和cuffdiff等幾支主要的程序。主要用于基因表達(dá)量的計(jì)算和差異表達(dá)基因的尋找。
Cufflinks程序主要根據(jù)Tophat的比對(duì)結(jié)果,依托或不依托于參考基因組的GTF注釋文件,計(jì)算出(各個(gè)gene的)isoform的FPKM值,并給出trascripts.gtf注釋結(jié)果(組裝出轉(zhuǎn)錄組)。
注意:
1. fragment的長度的估測,若為pair-end測序,則cufflinks自己會(huì)有一套算法,算出結(jié)果。若為single-end測序,則cufflinks默認(rèn)的是高斯分布,或者你自己提供相關(guān)的參數(shù)設(shè)置。
2. cufflinks計(jì)算multi-mapped reads,一般a read map到10個(gè)位置,則每個(gè)位置記為10%
3. 一般不推薦用cufflinks拼接細(xì)菌的轉(zhuǎn)錄組,推薦?Glimmer。但是,若有注釋文件,可以用cufflinks和cuffdiff來檢測基因的表達(dá)和差異性。
4.?cufflinks/cuffdiff不能計(jì)算出exon或splicing event的FPKM
5.cuffdiff處理時(shí)間序列data:采用參數(shù)-t
6.當(dāng)你使用cufflinks時(shí),在最后出現(xiàn)了99%,然后一直不動(dòng)。因?yàn)閏uffdiff需要更多的CPU來處理一些匹配很多reads的loci。而這些位點(diǎn)一般要等其他位點(diǎn)全部解決了后,才由cuffdiff來處理。可以用參數(shù)-M來提供相關(guān)的文件,過濾掉rRNA或者線粒體RNA。
7. 當(dāng)使用cufflinks或cuffdiff出現(xiàn)了“crash with a ‘bad_alloc' error”,cuffdiff和cufflinks運(yùn)行了很長時(shí)間才結(jié)束————這表明計(jì)算機(jī)拼接一個(gè)高表達(dá)的基因或定量分析一個(gè)高表達(dá)的基因,運(yùn)行的內(nèi)存使用玩盡了!解決方法:修改選項(xiàng)“-max-bundle-frags”,可以先嘗試500000,若錯(cuò)誤依舊在,可以繼續(xù)下調(diào)!
8. cuffdiff報(bào)道的結(jié)果里面所有的基因和轉(zhuǎn)錄本的FPKM=0,這表明GTF中的染色體名字和BAM里的名字不匹配。
9.??cuffdiff和cufflinks的缺點(diǎn):存在一定的假基因和轉(zhuǎn)錄本(原因:測序深度,測序質(zhì)量,測序樣本的測序次數(shù),以及注釋的錯(cuò)誤)
10. large fold change表達(dá)量不代表數(shù)據(jù)的明顯性(這些基因的isform多或這些基因測序測到的少,整體較低的表達(dá))。cuffdiff中明顯表達(dá)倍數(shù)改變的基因,存在不確定性。
11.??通過cufflinks產(chǎn)生的結(jié)果中transcript.gtf文件中cuff標(biāo)識(shí)的轉(zhuǎn)錄本就是新的轉(zhuǎn)錄本。相應(yīng)的,其他模塊輸出中CUFF標(biāo)識(shí)代表著新的轉(zhuǎn)錄本。
12. 若出現(xiàn)了如下錯(cuò)誤:
You?are?using?Cufflinks?v2.2.1,?which?is?the?most?recent?release.
open:?No?such?file?or?directory
File?30?doesn't?appear?to?be?a?valid?BAM?file,?trying?SAM...
Error:?cannot?open?alignment?file?30?for?reading
這表明,你的參數(shù)有問題。例如“--min-intron-length”,你設(shè)置為了:“-min-intron-length”
二. 參數(shù);
1.? 普通參數(shù)
? -h | --help? ? ?-o | --output-dir default: ./設(shè)置輸出的文件夾名稱? ?-p | --num-threads default: 1用于比對(duì)reads的CPU線程數(shù)? ?-G | --GTF 提供一個(gè)GFF文件,以此來計(jì)算isoform的表達(dá)。此時(shí),將不會(huì)組裝新的transcripts, 程序會(huì)忽略和reference transcript不兼容的比對(duì)結(jié)果? ?-g | --GTF-guide 提供GFF文件,以此來指導(dǎo)轉(zhuǎn)錄子組裝(RABT assembly)。此時(shí),輸出結(jié)果會(huì)包含reference transcripts和novel genes and isforms。? ?-M | --mask-file 提供GFF文件。Cufflinks將忽略比對(duì)到該GTF文件的transcripts中的reads。該 文件中常常是rRNA的注釋,也可以包含線立體和其它希望忽略的transcripts的注釋。將這些不需要的RNA去除后,對(duì)計(jì)算mRNA的表達(dá)量是有利的。? ?-b | --frag-bias-correct 提供一個(gè)fasta文件來指導(dǎo)Cufflinks運(yùn)行新的bias detection and correction algorithm。這樣能明顯提高轉(zhuǎn)錄子豐度計(jì)算的精確性。? ?-u | --multi-read-correct讓Cufflinks來做initial estimation步驟,從而更精確衡量比對(duì)到genome多個(gè)位點(diǎn)的reads。? ?--library-type default:fr-unstranded處理的reads具有鏈特異性。比對(duì)結(jié)果中將會(huì)有個(gè)XS標(biāo)簽。一般Illumina數(shù)據(jù)的lib rary-type為 fr-unstranded。--library-norm-method??? 具體參考官網(wǎng),三種方式:classic-fpkm? 默認(rèn)的方式。geometric? 針對(duì)DESeq。quartile? 計(jì)算時(shí),fragments和總的map的count取75%2.?豐度評(píng)估參數(shù)
-m | --frag-len-mean default: 200 插入片段的平均長度。不過現(xiàn)在Cufflinks能learns插入片段的平均長度,因此不推薦自主 設(shè)置此值。? ?-s | --frag-len-std-dev default: 80 插入片段長度的標(biāo)準(zhǔn)差。不過現(xiàn)在Cufflinks能learns插入片段的平均長度,因此不推薦自 主設(shè)置此值。? ?-N | --upper-quartile-form 使用75%分為數(shù)的值來代替總的值(比對(duì)到單一位點(diǎn)的fragments的數(shù)值),作normalize。這樣有利于在低豐度基因和轉(zhuǎn)錄子中尋找差異基因。? ?--total-hits-norm default: TRUE Cufflinks在計(jì)算FPKM時(shí),算入所有的fragments和比對(duì)上的reads。和下一個(gè)參數(shù) 對(duì)立。默認(rèn)激活該參數(shù)。? ?--compatible-hits-norm Cufflinks在計(jì)算FPKM時(shí),只針對(duì)和reference transcripts兼容的fragments以及比對(duì)上的reads。該參數(shù)默認(rèn)不激活,只能在有 --GTF 參數(shù)下有效,并且作 RABT 或 ab initio 的時(shí)候無效。 --max-mle-iterations ?進(jìn)行極大似然法時(shí)選擇的迭代次數(shù),默認(rèn)為:5000 --max-bundle-frags ?一個(gè)skipped locus/loci在別skipped前可以擁有的最大的fragment片段。默認(rèn)為1000000 --no-effective-length-correction ??Cufflinks will not employ its "effective" length normalization to transcript FPKM.Cufflinks將不會(huì)使用它的“effective” 長度標(biāo)準(zhǔn)化去計(jì)算轉(zhuǎn)錄的FPKM --no-length-correction ? Cufflinks將根本不會(huì)使用轉(zhuǎn)錄本的長度去標(biāo)準(zhǔn)化fragment的數(shù)目。當(dāng)fragment的數(shù)目和the features being quantified的size是獨(dú)立的,可以使用(例如for small RNA libraries, where no fragmentation takes place, or 3 prime end sequencing, where sampled RNA fragments are all essentially the same length).小心使用3.?組裝常用參數(shù)
-L | --label default: CUFFCufflink以GTF格式來報(bào)告轉(zhuǎn)錄子片段(transfrags),該參數(shù)是GTF文件的前綴? -F/--min-isoform-fraction <0.0-1.0> ?在計(jì)算一個(gè)基因的isoform 豐度后,過濾了豐度極低的轉(zhuǎn)錄本,因?yàn)檫@些轉(zhuǎn)錄本不可以信任。也可以過濾一些read匹配極低的外顯子。默認(rèn)為0.1或者10% of the most abundant isoform (the major isoform) of the gene.(一個(gè)基因的主要isoform的豐度的10%) -j/--pre-mrna-fraction <0.0-1.0> ? 內(nèi)含子被aligment覆蓋的最低深度。若小于這個(gè)值則那些內(nèi)含子的alignments被忽略掉。默認(rèn)為15%。 The minimum depth of coverage in the intronic region covered by the alignment is divided by the number of spliced reads, and if the result is lower than this parameter value, the intronic alignments are ignored. The default is 15%. -I/--max-intron-length? 內(nèi)含子的最大長度。若大于該值的內(nèi)含子,cufflinks不會(huì)報(bào)告。默認(rèn)為300000.Cufflinks will not report transcripts with introns longer than this, and will ignore SAM alignments with REF_SKIP CIGAR operations longer than this. The default is 300,000. -a/--junc-alpha <0.0-1.0> ? ?剪接比對(duì)過濾中假陽性的二項(xiàng)檢驗(yàn)中的 alpha value。默認(rèn)為 0.001 -A/--small-anchor-fraction <0.0-1.0> ?在junction中一個(gè)reads小于自身長度的這個(gè)百分比,會(huì)被懷疑,可能會(huì)在拼接前被過濾掉。默認(rèn)為0.09 --min-frags-per-transfrag default: 10組裝出的transfrags被支持的RNA-seq的fragments數(shù)少于該值則不被報(bào)道。? --overhang-tolerance ?當(dāng)決定一個(gè)reads或轉(zhuǎn)錄本與某個(gè)轉(zhuǎn)錄本兼容或匹配的時(shí)候,允許的能加入該轉(zhuǎn)錄本的外顯子的延伸長度。默認(rèn)是8bp和bowtie/tophat默認(rèn)的一致。 --max-bundle-length ?Maximum genomic length allowed for a given bundle. The default is 3,500,000bp. --min-intron-length default: 50最小的intron大小。? --trim-3-avgcov-thresh ?最小的3‘端的平均覆蓋程度。小于該值,則刪除其3’端序列。默認(rèn)10 ?Minimum average coverage required to attempt 3' trimming. The default is 10. --trim-3-dropoff-frac ? 最低百分比的拼接的轉(zhuǎn)錄本的3‘端的平均覆蓋程度。默認(rèn)0.1 ?The fraction of average coverage below which to trim the 3' end of an assembled transcript. The default is 0.1. --max-multiread-fraction <0.0-1.0> ? 若一個(gè)轉(zhuǎn)錄本Transfrags的reads能匹配到基因組的多個(gè)位置,其中該轉(zhuǎn)錄本的reads有超過該百分比是multireads,則不會(huì)報(bào)告這個(gè)轉(zhuǎn)錄本。默認(rèn)為75% ??The fraction a transfrag's supporting reads that may be multiply mapped to the genome. A transcript composed of more than this fraction will not be reported by the assembler. Default: 0.75 (75% multireads or more is suppressed). --overlap-radius default: 50Transfrags之間的距離少于該值,則將其連到一起。 Advanced Reference Annotation Based Transcript (RABT) Assembly Options:當(dāng)你使用-g/--GTF-guide這個(gè)參數(shù)時(shí),需要考慮的選項(xiàng)。 --3-overhang-tolerance ? ?當(dāng)決定一個(gè)拼接的轉(zhuǎn)錄本(這個(gè)轉(zhuǎn)錄本可能不是新的轉(zhuǎn)錄本)和一個(gè)參考轉(zhuǎn)錄本是否合并時(shí),參考轉(zhuǎn)錄本的3‘端允許延伸的長度。默認(rèn)600bp ? The number of bp allowed to overhang the 3' end of a reference transcript when determining if an assembled transcript should be merged with it (ie, the assembled transcript is not novel). The default is 600 bp. ?? --intron-overhang-tolerance ??當(dāng)決定一個(gè)拼接的轉(zhuǎn)錄本(這個(gè)轉(zhuǎn)錄本可能不是新的轉(zhuǎn)錄本)和一個(gè)參考轉(zhuǎn)錄本是否合并時(shí),參考轉(zhuǎn)錄本的外顯子允許延伸的長度。默認(rèn)50bp ? The number of bp allowed to enter the intron of a reference transcript when determining if an assembled transcript should be merged with it (ie, the assembled transcript is not novel). The default is 50 bp. --no-faux-reads ??This option disables tiling of the reference transcripts with faux reads. Use this if you only want to use sequencing reads in assembly but do not want to output assembled transcripts that lay within reference transcripts. All reference transcripts in the input annotation will also be included in the output.這一項(xiàng)將不能掩蓋參考轉(zhuǎn)錄組中的假reads。當(dāng)你只想在拼接中使用測序的reads而不想輸出lay within reference transcripts的拼接的轉(zhuǎn)錄組。輸入時(shí)注釋的所有的參考轉(zhuǎn)錄組也將會(huì)輸入到輸出中。 其他參數(shù)(無關(guān)緊要) -v/--verbose ? 顯示版本信息等等 -q/--quiet ? ? 除了警告和錯(cuò)誤外,其他信息將不會(huì)print --no-update-check ? 關(guān)系cufflinks自動(dòng)更新的能力4.?Cufflinks輸出結(jié)果
cufflinks的輸入文件是sam或bam格式。并且sam或bam格式的文件必須排好序。(The SAM file supplied to Cufflinks must be sorted by reference position.)Tophat的輸出結(jié)果sam或bam已經(jīng)排好了序。針對(duì)其他的未排序的sam或bam文件采用如下排序方式:sort -k 3,3 -k 4,4n hits.sam > hits.sam.sorted1. transcripts.gtf該文件包含Cufflinks的組裝結(jié)果isoforms。前7列為標(biāo)準(zhǔn)的GTF格式,最后一列為attributes。其每一列的意義: 列數(shù) 列的名稱 例子 描述1 序列名 chrX 染色體或contig名; 2 來源 Cufflinks 產(chǎn)生該文件的程序名; 3 類型 exon 記錄的類型,一般是transcript或exon; 4 起始 1 1-base的值; 5 結(jié)束 1000 結(jié)束位置; 6 得分 1000 ; 7 鏈 + Cufflinks猜測isoform來自參考序列的那一條鏈,一般是'+','-'或'.'; ? 8 frame . Cufflinks不去預(yù)測起始或終止密碼子框的位置; 9 attributes ... 詳見下 每一個(gè)GTF記錄包含如下attributes:gene_id?? CUFF.1 ?? Cufflinks的gene id ;? transcript_id?? CUFF.1.1 Cufflinks的轉(zhuǎn)錄子 id?? ; FPKM 101.267 isoform水平上的豐度, Fragments Per Kilobaseof exon model per Million mapped fragments ; frac 0.7647 保留著的一項(xiàng),忽略即可,以后可能會(huì)取消這個(gè);? conf_lo 0.07 isoform豐度的95%置信區(qū)間的下邊界,即 下邊界值 =FPKM * ( 1.0 - conf_lo ) ;? conf_hi 0.1102 isoform豐度的95%置信區(qū)間的上邊界,即 上邊界值 =FPKM * ( 1.0 + conf_hi ) ; cov 100.765 計(jì)算整個(gè)transcript上read的覆蓋度;? full_read_support yes 當(dāng)使用 RABT assembly 時(shí),該選項(xiàng)報(bào)告所有的intr ons和exons是否完全被reads所覆蓋 2. ispforms.fpkm_trackingisoforms(可以理解為gene的各個(gè)外顯子)的fpkm計(jì)算結(jié)果3. genes.fpkm_trackinggene的fpkm計(jì)算結(jié)果總結(jié)
以上是生活随笔為你收集整理的2020.12.10丨cufflinks 简介及使用说明的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 减少USB 1.1 2.0 端口驱动程
- 下一篇: 《google软件测试之道》精彩语句摘抄