日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

人群频率 | gnomAD数据库 (二) 后台数据的获取及质量评估

發布時間:2025/3/15 数据库 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 人群频率 | gnomAD数据库 (二) 后台数据的获取及质量评估 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? 在gnomAD數據庫簡介(一)中,我們簡單介紹了基因組學遺傳分析中人群變異頻率的重要性,以及gnomAD數據庫的一些背景。

? 本篇主要側重gnomAD的后臺數據下載和簡單評估。

gnomAD后臺數據下載

gnomAD數據下載的幾個方式:

測試一下gsutil命令:

pip install gsutilcd /home/shw/public/gnomADgsutil?ls?gs://gcp-public-data--gnomad/release/ gsutil?ls?gs://gcp-public-data--gnomad/release/2.1.1/liftover_grch38/vcf/exomes

為了簡便一些,我們還是使用熟悉的wget命令下載:

nohup wget -c https://storage.googleapis.com/gcp-public-data--gnomad/release/2.1.1/liftover_grch38/vcf/exomes/gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz & head?nohup.out

后臺數據簡單測試

查看上述獲取的gnomAD(exomes,?v2.1.1, LiftOver)VCF文件記錄的變異位點個數:

zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | wc -l # 17205543

gnomAD的這個外顯子組數據共收錄了約1,720萬個變異位點!要知道人類總的外顯子組位點數約為3,000萬。這個比例依然很難得。隨便找個基因的外顯子序列,其中一半以上的核苷酸都能在gnomAD查到人群變異頻率!

在該VCF文件中隨機選擇一個位點進行比較和測試,例如:rs1479269360

gnomAD后臺數據(VCF文件的第5000行)

# 查看VCF文件的表頭: zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | head -n 5000 | grep -v '##' | head -n 1# 查看VCF文件某一個變異位點的人群頻率: zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | head -n 5000 | tail -n 1

(人群變異頻率)AF=7.44679e-06

另外注釋有:轉錄本ID、密碼子變化、(反式)調控位點注釋等信息

gnomAD在線檢索(AF完全匹配

另有人群的亞群頻率、年齡分布、基因型質量、測序深度、IGV等展示信息

dbSNP在線檢索(發現居然沒有該位點的AF)

另有臨床意義等其它信息:

提取gnomAD的人群變異頻率

從剛才的gnomAD(exomes, v2.1.1, LiftOver)VCF文件中提取AF信息:

nohup?zcat?gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz?|?sed?'s/AF=/\t/g'?|?cut?-f?9?|?sed?'s/;/\t/g'?|?cut?-f?1?>?gnomad.exomes.r2.1.1.sites.liftover_grch38.AF.txt zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | cut -f 1-7 > gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.1-7col.txt & #?按列合并: paste gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.1-7col.txt gnomad.exomes.r2.1.1.sites.liftover_grch38.AF.txt | grep -v '##' > gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt

測試鐮刀型貧血癥的致病HBB的致病變異位點:rs334

grep?-w?rs334?gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt

chr11? ?5227002 rs334? ?T? ? ? ?A? ? ? ?2136270.15? ? ? PASS? ? 3.47958e-03

完全匹配dbSNP網站上Frequency中的GnomAD_exome,且后者具有最大的人群基數:

https://www.ncbi.nlm.nih.gov/snp/rs334

使用gnomAD(v2.1.1)在線檢索:

令人驚喜的是,gnomAD在線檢索結果也提供了SIFT, Polyphen等in-sillico有害性預測,以及ClinVar相關注釋信息:

關于ClinVar的詳細介紹,及其對rs334注釋,請查看:ClinVar數據庫詳解。

繼續使用gnomAD(v3.1.1)在線檢索:rs334(大小寫敏感!)。結果中居然還有CADD和REVEL(In Silico Predictors)打分:

關于gnomAD的總的變異位點數

上述操作中,從gnomAD(exomes, v2.1.1, LiftOver)的VCF文件提取了AF(等位基因人群頻率)信息,下面是其總的位點數:

wc -l gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt # 17,201,297 gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt

當然,我們更想了解所有3,000萬個位點的變異頻率。因為說不準哪天我們自己的外顯子組測序數據就測到了一個導致氨基酸變異的位點,但恰好未被gnomAD收錄(這種情況是存在的),此時由于不知道其AF,按照通常的思路只好考慮將其舍棄:只保留gnomAD中收錄的、且AF<5%的位點。

那么gnomAD未收錄的位點均被舍棄。也就是說,最終致病位點只能限制在gnomAD所收錄的位點中(這依賴于gnomAD,是比較被動的)。此為“過分的舍棄”

另一個思路只過濾掉gnomAD中收錄的、且AF>10%變異的位點,但保留下來的某些位點仍然可能在人群中存在高頻變異(AF>10%),而這些位點有可能是耐受的、良性的或非致病的位點。此為“過多的保留”

因此一些研究或高水平文獻中不止參考了gnomAD,也參考了1000 Genomes和Bale database等數據庫中收錄的位點,目的就是盡量減少“過分的舍棄”“過多的保留”

因此我們還是希望gnomAD能覆蓋到全部外顯子序列(~3,000萬個位點),這無疑是一個巨大挑戰。

更多人類遺傳學知識、文獻和分析技術

請關注和星標聊生信

總結

以上是生活随笔為你收集整理的人群频率 | gnomAD数据库 (二) 后台数据的获取及质量评估的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。