日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > c/c++ >内容正文

c/c++

VCF格式介绍

發布時間:2023/12/20 c/c++ 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 VCF格式介绍 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

歡迎關注"生信修煉手冊"!

VCF全稱為Variant Call Format, 是一種純文本文件,用來存儲變異位點信息,主要包括3個部分的內容

  • mate-information line

  • header line

  • data line

  • 示例文件如下

    1. mate-information line

    以##開頭,格式為key=value。 fileformat是必須的字段,表明VCF格式的版本,寫法如下

    ##fileformat=VCFv4.2

    其他行主要用來描述INFO, FORMAT, FILTER等字段的具體含義。

    2. ?header line

    以#開頭,\t分隔,至少包含以下8個字段

    CHROM : 染色體名字

    POS : 染色體的位置,起始位置為1

    ID : ?變異位點在數據庫中的ID,如果是dbsnp數據庫,推薦使用rs號,如果沒有ID,用點號表示缺失值

    REF : 參考基因組上的堿基

    ALT : 變異之后的堿基

    QUAL : 變異位點的質量,質量值越高,為真實的變異位點的概率越大

    FILTER : 過濾信息,PASS 代表通過了過濾;對于過濾失敗的位點,會給出對應的過濾失敗的原因,具體的含義可以查看mate-information line 中對FILTER 字段的描述

    INFO :額外的信息,具體的含義可以查看mate-information line 中對INFO 字段的描述

    3 .data line

    每一行記錄一個變異位點的信息,具體的內容可以參考header line 中的解釋。常見的變異類型包括SNP, 插入和缺失這3種,這3者的差別主要體現在REF和ALT兩個字段上。
    SNP 示例如下, ?由G突變成A

    REF ALT
    G ? ? ? A

    缺失示例如下,缺失了TC

    REF ALT
    GTC ? G

    插入示例如下, 插入了T堿基

    REF ALT
    C ? CT

    SNP很好理解,REF和ALT單個堿基不同,插入和缺失在表示時,起始位置都會在發生變異的位點的前面幾個堿基,比如上面例子中的TC缺失,在REF中起始位置為前面的G堿基;T堿基的插入,在REF中起始位置為前面的C堿基。

    多個樣本的變異分析結果中,有時會看到下面的例子

    #CHROM POS ID REF ALT QUAL FILTER INFO
    20 2 . TC TG,T . PASS DP=100

    在ALT字段中用逗號連接了多個字符,表示在不同的樣本中檢測到了多種變異類型。上述示例中,參考基因組堿基為TC, 共檢測到兩種變異類型,TC代表一個SNP,由C堿基突變成G堿基;T代表缺失,C堿基缺失,由TC變成了T。

    在VCF文件中,除了每個變異位點具體的堿基變化信息之外,基因型genotype 信息也是較為關注的。每個樣本1個基因型信息,用GT字段的值來表示。不同的等位基因allel 用|或者\連接,示例如下

    FORMAT ? NA01 NA02 ?NA03
    GT ? ? ? ?0|0 ? 0|1 ? 0/0

    這里為了展示省略掉了VCF必備的8列信息, FORMAT實際是第9列的信息了。FORMAT指定后續字段的含義,GT是genotype 的縮寫,表示基因型,NA01到NA03代筆3個樣本。用數字來表示不同的allel,0代表REF allel, 1代表ALT 中的第一個allel, 2代表ALT中的第二個allel, 依次類推。對于多個allel, 可以用|或者/連接。

    以二倍體生物為例,基因型由兩條染色體上的allel構成。當我們知道每一個allel來自于具體哪條染色體時,這種genotype叫做Phased genotype, 用|連接,1|0和0|1代表兩種不同的基因型;不清楚allel對應的染色體的時, genotype叫做unphased genotype, 用/連接,0/1和1/0這兩種寫法是等價的。目前高通量分析鑒定到的基因型,大多數都是unphased genotype。

    掃描關注微信號,更多精彩內容等著你!

    總結

    以上是生活随笔為你收集整理的VCF格式介绍的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。