日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > c/c++ >内容正文

c/c++

VCF格式解析

發布時間:2023/12/20 c/c++ 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 VCF格式解析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聲明:本文為轉載文章,如有侵權,請聯系,速刪!

VCF是用于描述SNP,INDEL和SV結果的文件,下面所記錄的是以GATK軟件結果的VCF文件,與SAMtools的結果有點不同

VCF文件可以分為兩部分看,最上面#號注釋的的部分是對一些參數的解釋(看英文能懂的話,下面的解釋就不用看了),而下面沒#號注釋的部分則是各個參數對應的具體的值?一般先關注以下幾列信息,從左到右為:

#CHROM POS ID REF ALT QUAL FILTER INFO 1 17538 rs200046632 C A 99.60 PASS 1 54421 rs146477069 A G 88.60 PASS 1 55299 rs10399749 C T 867.60 PASS 1 61442 rs74970982 A G 593.03 PASS 1 63268 rs75478250 T C 357.60 PASS 1 64310 rs367969174 A G 59.60 PASS
  • 顏色 :染色體編號
  • POS:參考基因組上variant堿基的位置,如果是INDEL,則該位置是INDEL第一個堿基的位置
  • ID:variant的ID,如果在dbSNP中有SNP的id,則顯示其id,不然以點表示novel variant。
  • REF:參考序列上該位點對應的堿基
  • ALT:與參考序列上的堿基相比發生了突變的堿基,即Variant的堿基
  • QUAL:Phred格式(Phred_scaled)的質量值,表示該位點存在Variant的可能性,值越高表示突變可能性越大
  • FILTER:理想情況下,QUAL這個值應該是用所有的錯誤模型算出來的,這個值就可以代表正確的變異位點了,但是事實是做不到的。因此,還需要對原始變異位點做進一步的過濾。無論你用什么方法對變異位點進行過濾,過濾完了之后,在FILTER一欄都會留下過濾記錄,如果是通過了過濾標準,那么這些通過標準的好的變異位點的FILTER一欄就會注釋一個PASS,如果沒有通過過濾,就會在FILTER這一欄提示PASS的其他信息(如:LowQual)。如果這一欄是一個"."的話,就說明沒有進行過任何過濾。

以上幾列是最先關注的,接下來還有兩列也是蠻重要的FORMAT和最后一列(最后一列一般為樣品名),兩者和一起則為基因型信息,前者為格式,后者為對應的數據,如:

GT:AD:DP:GQ:PL 0/1:6,5:11:99:138,0,153
  • GT:表示樣品的基因型,對于二倍體生物,GT值表示的是樣本在這個位點所攜帶的兩個等位基因。0表示跟REF一樣,1表示跟ALT一樣,2表示有第二個ALT;當只有一個ALT等位基因時:0/0表示純合子并跟REF一致;0/1表示雜合子,有兩個allele,一個是ALT,另一個是REF;1/1表示純合子并都為ALT
  • AD:兩個以逗號分隔的值,分別表示覆蓋到REF和ALT堿基的reads數,也就是REF和ALT對應的測序深度
  • DP:表示覆蓋在這個位點的總reads數,也就是這個位點的測序深度(并不是指具體有多少個reads數量,而是大概滿足一定質量值要求的reads數)
  • PL:三個逗號分隔的值,分別對應該位點的三個基因型0/0,0/1,1/1的沒經過先驗的標準化Phred-scaled似然值(L),L=-10lgP,P為支持該基因型的概率,3個概率總和為1;因此,L這個值越小,支持概率就越大,也就是說是這個基因型的可能性越大。
  • GQ:表示基因型的質量值,Phred格式(Phred_scaled)的質量值,Phred值 = -10 * log (1-p) p為基因型存在的概率,表示該位點基因型存在的可能性。

最后則是INFO列所包含的信息:

AC=1;AF=0.500;AN=2;BaseQRankSum=0.748;ClippingRankSum=0.000;DB;DP=34;ExcessHet=3.0103;FS=3.424;MLEAC=1;MLEAF=0.500;MQ=31.07;MQRankSum=-0.087;QD=11.87;ReadPosRankSum=-1.349;SOR=2.636 AC=2;AF=1.00;AN=2;DB;DP=14;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=31.60;QD=29.36;SOR=5.421
  • AC:表示該Allele的數目,Allele數目為1表示雙倍體的樣本在該位點只有1個等位基因發生了突變
  • AF:表示Allele的頻率,Allele頻率為0.5表示雙倍體的樣本在該位點只有50%的等位基因發生了突變
  • AN:表示Allele的總數目

即:對于1個二倍體 sample而言:則基因型 0/1 表示sample為雜合子,Allele數為1(雙倍體的sample在該位點只有1個等位基因發生了突變),Allele的頻率為0.5(雙倍體的 sample在該位點只有50%的等位基因發生了突變),總的Allele為2; 基因型 1/1 則表示sample為純合的,Allele數為2,Allele的頻率為1,總的Allele為2。

  • DP:樣本在這個位置的reads覆蓋度,是一些reads被過濾掉后的覆蓋度(跟上面提到的DP類似)
  • FS:使用Fisher's精確檢驗來檢測strand bias而得到的Fhred格式的p值,值越小越好
  • MQ:表示覆蓋序列質量的均方值RMS Mapping Quality
  • BaseQRankSum:來自Wilcoxon的Z分數 Alt與Ref基本質量的秩和測試
  • ClippingRankSum:Z 得分來自 Wilcoxon 的 Alt 與 Ref 硬剪切基數的秩和檢驗
  • 過量Het:用于精確檢驗過量雜合度的Phred標度p值
  • MLEAC:對于每個ALT等位基因,等位基因計數(不一定與AC相同)的最大似然期望(MLE),順序與列出的順序相同
  • MLEAF:對于每個ALT等位基因,等位基因頻率(不一定與AF相同)的最大似然期望(MLE),順序與列出的順序相同
  • MQRankSum:Z 得分來自 Wilcoxon 的 Alt 與 Ref 讀取映射質量的秩和測試
  • QD:變異置信度/深度質量
  • ReadPosRankSum:來自Wilcoxon的Z得分 Alt與Ref讀取位置偏差的Rancoxon秩和測試
  • SOR:2x2 列聯表的對稱比值比,用于檢測鏈偏置

參考:


https://www.biostars.org/p/187068/

本文出自于?http://www.bioinfo-scrounger.com?轉載請注明出處

總結

以上是生活随笔為你收集整理的VCF格式解析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。