日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 万象百科 >内容正文

万象百科

imputation的细节

發布時間:2023/11/25 万象百科 47 博士
生活随笔 收集整理的這篇文章主要介紹了 imputation的细节 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
imputation技術主要包括兩個步驟:1. 從SNP參考數據集中推斷出群體的主要Haplotype型及頻率。2. 基于群體的Haplotype的頻率分布和某一個體的(部分)基因型觀察值去推斷這一個體的haplotype,進而推斷這一個體在某些位點的基因型。我們就從這兩個步驟去分析一下用rare SNP做imputation的可行性。先說第一步,從SNP參考數據集中推斷出群體的主要Haplotype型及頻率。利用rare SNP做這一步的主要問題有兩個:1. 獲得一個群體比較完整的rare SNP集太困難了。 2. 如果把rare SNP考慮進去,那么在同樣長度的block中,Haplotype的數量就太多了。第一個問題不多說,在給定樣本量下, 一個rare SNP可以被檢測到的概率與其頻率成正比。在要求達到相同的power的前提下,檢出rare SNP所需的樣本量與其頻率的平方成反比。簡單點說,就是在同一個群體中, 要獲得全部(或95%)的MAF>0.5%的SNP, 所需要的樣本量, 是要獲得全部(或95%)的MAF>5%的SNP所需樣本量的100倍。這兩個數量級的差距導致的結果是,我們現在還沒有某一個人群的比較完整的rare SNP參考集。第二個問題主要跟rare SNP的特征有關。在漢族群體中,rareSNP的總數量大概是commonSNP數量的10倍(在其他幾個主要的的人類群體中也接近這個值,跟有效群體大小有關)。這就是說,在一個固定長度的區段上,當考慮上rare SNP后,haplotype理論上可能的組合數目會上升到原來的10次方(指數關系)。當然,考慮到連鎖因素后不會有這么夸張,但這個數量的增加依然是驚人的。那么我們可不可以縮短每個block的長度來減少復雜度呢?答案是基本不可行。現在主流的算法在做這一步時考慮的SNP的數量都在10個以內,如果我們想在考慮rare SNP的同時把復雜度降到跟現在相當的水平,那么每個block平均就只包含一個common SNP和10個rare SNP了。雖然看起來位點的數量足以做出正確的推斷,但實際情況是,在10個rare SNP位點上,大多數個體9個位點都是ref型的,可用的信息量太少了。貌似上面一段剛好講的就是imputation第二步中的問題。。。就不再展開一段去說了。最后的結論是:rare SNP做imputation不太靠譜。當然這里并不是說它準確率低,而是說它的準確率比直接把所有rare SNP處的的缺失直接補成ref型(準確率為1-MAF)差不多。

總結

以上是生活随笔為你收集整理的imputation的细节的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。