日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 运维知识 > 数据库 >内容正文

数据库

国际千人基因组计划数据库怎么用起来?

發(fā)布時(shí)間:2025/3/15 数据库 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 国际千人基因组计划数据库怎么用起来? 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

從公共數(shù)據(jù)庫(kù)中下載基因組或外顯子組數(shù)據(jù),一般需注意以下幾項(xiàng):

1.?使用權(quán)限

2. 物種及參考基因組版本

3. 數(shù)據(jù)來源及引用:GEO、千人基因組計(jì)劃等

4. 表型:種族、健康狀況、性別、年齡和家系信息

5. 數(shù)據(jù)類型:遺傳變異、體細(xì)胞變異;SNV、InDel或SNV;基因芯片或測(cè)序(測(cè)序儀、單雙端及讀長(zhǎng))

6. 文件類型:fastq、bam、vcf或gvcf

國(guó)際千人基因組計(jì)劃

項(xiàng)目起始。人類基因組計(jì)劃耗費(fèi)10多年后在2003年繪出人類的完整基因組圖譜。作為某種延續(xù),也得益于測(cè)序通量的提高,國(guó)際千人基因組計(jì)劃(The 1000 Genomes Project, 1000G/1KGP)從2008年啟動(dòng),到2012年即獲得了超過1000人的基因組數(shù)據(jù),是科學(xué)界首次實(shí)現(xiàn)千人規(guī)模以上的基因組對(duì)比分析(2012年)。

1000G建立的人類遺傳變異資源由國(guó)際基因組樣本資源(The International Genome Sample Resource, IGSR)維護(hù)和共享。IGSR官網(wǎng):

http://www.internationalgenome.org/

項(xiàng)目規(guī)劃。1000G旨在繪制當(dāng)時(shí)(2012年)最為詳盡、最有醫(yī)學(xué)應(yīng)用價(jià)值的人類基因組遺傳多態(tài)性圖譜。其后數(shù)據(jù)不斷擴(kuò)充,分析結(jié)果不斷更新和迭代。目前已經(jīng)有超過2500個(gè)人的基因組。2500個(gè)人的全部基因組可產(chǎn)生50TB(5萬(wàn)GB)的數(shù)據(jù)量,包含8萬(wàn)億個(gè)DNA堿基對(duì)。

參與單位。華大基因是1000G的主要發(fā)起單位之一,承擔(dān)了非洲人群和400個(gè)黃種人的全基因組測(cè)序。其它單位有英國(guó)桑格研究所和美國(guó)國(guó)立人類基因組研究所等。

人群分布。每個(gè)亞群一般包含幾十到一百多個(gè)健康人。例如:尼日利亞伊巴丹區(qū)域的約魯巴人;肯尼亞Webuye的Luhya人和Kinyawa的Maasai人;居住于美國(guó)西南部的非洲人后裔;居住于東京的日本人;居住于北京的中國(guó)人;居住于丹佛的中國(guó)人;意大利的Toscani居民;美國(guó)猶他州的北歐和西歐人后裔;美國(guó)休斯頓的Gujarati印第安人;美國(guó)洛杉磯的墨西哥人后裔。項(xiàng)目后期的人群多樣性有大幅增加。

1000G數(shù)據(jù)庫(kù)的應(yīng)用

任何兩個(gè)人在基因水平上99%是一樣的,小部分的基因組序列因人而異。每個(gè)看起來很健康的人其實(shí)都攜有數(shù)百個(gè)罕見的基因變異,其中有些基因變異已證實(shí)與某些疾病風(fēng)險(xiǎn)有關(guān)。這些基因變異究竟在什么情況下才會(huì)實(shí)質(zhì)性地增加患病風(fēng)險(xiǎn),目前不得而知(聊生信:我們會(huì)關(guān)注相關(guān)的研究與應(yīng)用進(jìn)展)。

發(fā)現(xiàn)罕見的基因變異1000G可以幫助發(fā)現(xiàn)一些攜帶者占總?cè)丝诒壤坏?%的基因變異。這些罕見基因變異或許與疾病有關(guān),例如可能增加心臟病或癌癥的患病風(fēng)險(xiǎn)。對(duì)基因變異進(jìn)行研究有助于開發(fā)預(yù)防、治療相關(guān)疾病的方法。

作為人群對(duì)照。可以幫助研究者不再泛泛地找一些人的基因組(幾個(gè)或幾十個(gè))用于對(duì)比,而是直接調(diào)閱他們長(zhǎng)期生活區(qū)域的人群基因組數(shù)據(jù),開展更加有針對(duì)性的比較。

應(yīng)用匯總發(fā)現(xiàn)疾病發(fā)病機(jī)理、疾病的易感性、對(duì)藥物和環(huán)境因素的反應(yīng)性;常見疾病的診斷、個(gè)性化預(yù)測(cè)、預(yù)防和治療;在大的范圍內(nèi)定位人群突變基因、幫助發(fā)現(xiàn)人類遺傳疾病的相關(guān)基因、鑒定特定遺傳病人群中的罕見致病基因、更精確地定位已發(fā)現(xiàn)的遺傳風(fēng)險(xiǎn)因素、挖掘出更多未知的致病遺傳因素;藥物基因組學(xué)、人類群體遺傳學(xué)、人類進(jìn)化史。

樣本列表的選擇和下載

1000G包含的個(gè)體主要是來自不同人群的(自我聲稱)健康的樣本(people who declared themselves to be healthy),可方便地下載到原始數(shù)據(jù)。但作為對(duì)照時(shí)需要注意:只有少部分樣本進(jìn)行了深度測(cè)序,大部分?jǐn)?shù)據(jù)都是低深度測(cè)序。

主要數(shù)據(jù)組成

Pilot:? ? 試點(diǎn),比對(duì)到NCBI36

Phase1:約1000例,低深度和外顯子數(shù)據(jù),GRCh37

Phase2:約1700例,分析方法有更新

Phase3:約3000例,GRCh37,2504例的樣本信息公開

1000 Genomes on GRCh38:約2700例樣本

GRCH38的不同版本(GRCH38.p1, GRCH38.p2等)是對(duì)GRCH38的修補(bǔ)(patch),坐標(biāo)系不會(huì)改變。

數(shù)據(jù)入口(data portal)

https://www.internationalgenome.org/data-portal/sample

先選擇測(cè)序技術(shù):

另有全基因組、小RNA、Nanopore、PacBio和單細(xì)胞測(cè)序,及基因型芯片數(shù)據(jù)

再選擇人群:

最后選擇數(shù)據(jù)集合:

先選擇了外顯子組(Exome);人群:CHB(北京,n=103);CHS(南方漢族人群,n=113);數(shù)據(jù)集合:30x on GRCh38。最終有216個(gè)樣本符合。

點(diǎn)擊Download the list下載得到樣本名稱:

需要根據(jù)這些樣本列表從1000G數(shù)據(jù)庫(kù)下載感興趣的各類變異文件,我們后續(xù)的推文再介紹。

撰寫:宋紅衛(wèi)

校對(duì):宋紅衛(wèi)

更多人類遺傳學(xué)知識(shí)、文獻(xiàn)和分析技術(shù)

請(qǐng)關(guān)注和星標(biāo)聊生信


往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)

機(jī)器學(xué)習(xí)

后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集

總結(jié)

以上是生活随笔為你收集整理的国际千人基因组计划数据库怎么用起来?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。