VCF格式介绍
歡迎關注"生信修煉手冊"!
VCF全稱為Variant Call Format, 是一種純文本文件,用來存儲變異位點信息,主要包括3個部分的內容
mate-information line
header line
data line
示例文件如下
1. mate-information line
以##開頭,格式為key=value。 fileformat是必須的字段,表明VCF格式的版本,寫法如下
##fileformat=VCFv4.2
其他行主要用來描述INFO, FORMAT, FILTER等字段的具體含義。
2. ?header line
以#開頭,\t分隔,至少包含以下8個字段
CHROM : 染色體名字
POS : 染色體的位置,起始位置為1
ID : ?變異位點在數據庫中的ID,如果是dbsnp數據庫,推薦使用rs號,如果沒有ID,用點號表示缺失值
REF : 參考基因組上的堿基
ALT : 變異之后的堿基
QUAL : 變異位點的質量,質量值越高,為真實的變異位點的概率越大
FILTER : 過濾信息,PASS 代表通過了過濾;對于過濾失敗的位點,會給出對應的過濾失敗的原因,具體的含義可以查看mate-information line 中對FILTER 字段的描述
INFO :額外的信息,具體的含義可以查看mate-information line 中對INFO 字段的描述
3 .data line
每一行記錄一個變異位點的信息,具體的內容可以參考header line 中的解釋。常見的變異類型包括SNP, 插入和缺失這3種,這3者的差別主要體現在REF和ALT兩個字段上。
SNP 示例如下, ?由G突變成A
REF ALT
G ? ? ? A
缺失示例如下,缺失了TC
REF ALT
GTC ? G
插入示例如下, 插入了T堿基
REF ALT
C ? CT
SNP很好理解,REF和ALT單個堿基不同,插入和缺失在表示時,起始位置都會在發生變異的位點的前面幾個堿基,比如上面例子中的TC缺失,在REF中起始位置為前面的G堿基;T堿基的插入,在REF中起始位置為前面的C堿基。
多個樣本的變異分析結果中,有時會看到下面的例子
#CHROM POS ID REF ALT QUAL FILTER INFO
20 2 . TC TG,T . PASS DP=100
在ALT字段中用逗號連接了多個字符,表示在不同的樣本中檢測到了多種變異類型。上述示例中,參考基因組堿基為TC, 共檢測到兩種變異類型,TC代表一個SNP,由C堿基突變成G堿基;T代表缺失,C堿基缺失,由TC變成了T。
在VCF文件中,除了每個變異位點具體的堿基變化信息之外,基因型genotype 信息也是較為關注的。每個樣本1個基因型信息,用GT字段的值來表示。不同的等位基因allel 用|或者\連接,示例如下
FORMAT ? NA01 NA02 ?NA03
GT ? ? ? ?0|0 ? 0|1 ? 0/0
這里為了展示省略掉了VCF必備的8列信息, FORMAT實際是第9列的信息了。FORMAT指定后續字段的含義,GT是genotype 的縮寫,表示基因型,NA01到NA03代筆3個樣本。用數字來表示不同的allel,0代表REF allel, 1代表ALT 中的第一個allel, 2代表ALT中的第二個allel, 依次類推。對于多個allel, 可以用|或者/連接。
以二倍體生物為例,基因型由兩條染色體上的allel構成。當我們知道每一個allel來自于具體哪條染色體時,這種genotype叫做Phased genotype, 用|連接,1|0和0|1代表兩種不同的基因型;不清楚allel對應的染色體的時, genotype叫做unphased genotype, 用/連接,0/1和1/0這兩種寫法是等價的。目前高通量分析鑒定到的基因型,大多數都是unphased genotype。
掃描關注微信號,更多精彩內容等著你!
總結
- 上一篇: Linux性能分析工具top命令详解
- 下一篇: 基于c语言图像边缘检测的程序,图像边缘检