如何使用plink进行连锁不平衡分析
本篇文章為大家展示了如何使用plink進(jìn)行連鎖不平衡分析,內(nèi)容簡(jiǎn)明扼要并且容易理解,絕對(duì)能使你眼前一亮,通過(guò)這篇文章的詳細(xì)介紹希望你能有所收獲。
plink是進(jìn)行連鎖不平衡分析的常用工具之一,需要兩個(gè)基本的輸入文件,后綴分別為ped和map。ped文件格式在之前的文章中已經(jīng)詳細(xì)介紹過(guò),這里只介紹map文件。
map文件主要保存SNP位點(diǎn)的名稱(chēng)和位置信息,內(nèi)容如下
1snp101 1snp202
共4列,每一行代表一個(gè)SNP位點(diǎn),第一列代表SNP位點(diǎn)所在染色體的名字,第二列代表SNP位點(diǎn)的ID,通常是rs編號(hào),也可以是自定義的ID;第三列代表SNP位點(diǎn)的遺傳距離,如果沒(méi)有實(shí)際數(shù)值可以用0填充;第四列代表SNP位點(diǎn)在染色體上的位置。
plink 進(jìn)行LD分析有以下兩種方式:
1. 分析指定的兩個(gè)SNP位點(diǎn)
命令如下
plink--filetest--ldsnp1snp2
在log信息中,會(huì)輸出LD分析的結(jié)果
LDinformationforSNPpair[snp1snp2] R-sq=0.009D'=0.163 HaplotypeFrequencyExpectationunderLE -------------------------------------- AG0.1160.139 CG0.3000.278 AT0.2170.194 CT0.3660.389 InphaseallelesareAT/CG Analysisfinished:SatJun2311:48:352018
給出了R2和D’ 兩個(gè)值,同時(shí)還給出了不同單倍型的頻率。
2. 對(duì)所有的SNP位點(diǎn)進(jìn)行分析
命令如下:
plink--filetest--r plink--filetest--r2
--r會(huì)直接輸出所有LD分析的結(jié)果,而--r2會(huì)根據(jù)R2值對(duì)結(jié)果進(jìn)行過(guò)濾。在實(shí)際分析中,SNP位點(diǎn)個(gè)數(shù)是非常多的,如果不進(jìn)行過(guò)濾,結(jié)果文件會(huì)非常的大。過(guò)濾的參數(shù)有以下幾種
-
--ld-window
默認(rèn)值為10,這個(gè)參數(shù)限定了一個(gè)SNP位點(diǎn)最多和10個(gè)其他的SNP位點(diǎn)進(jìn)行LD分析。 -
--ld-window-kb
默認(rèn)值為1Mb, 只對(duì)距離在1Mb之內(nèi)的SNP位點(diǎn)進(jìn)行分析。 -
--ld-window-r2
這個(gè)參數(shù)只能和--r2參數(shù)搭配使用,默認(rèn)值為0.2, 對(duì)輸出結(jié)果進(jìn)行過(guò)濾,只輸出R2大于該參數(shù)值的LD分析結(jié)果。
輸出文件為plink.ld。這個(gè)文件給出了SNP位點(diǎn)間的R值或者R2值,示例如下
CHR_ABP_ASNP_ACHR_BBP_BSNP_BR 11snp112snp2-0.108465
通過(guò)指定--ld-snp參數(shù),也可以只分析某個(gè)SNP位點(diǎn)與其他位點(diǎn)的連鎖關(guān)系,用法如下
plink--filetest--r2--ld-snpsnp1--ld-window-kb1000--ld-window99999--ld-window-r20
以上兩種方法更有優(yōu)劣,第一種方法會(huì)給出D’和R2兩個(gè)值,第二種方法只會(huì)給出R值;第一種方法一次只能分析兩個(gè)SNP位點(diǎn)間的連鎖關(guān)系,而第二種方法一次可以分析多個(gè)SNP位點(diǎn)間的連鎖關(guān)系。
總結(jié)
以上是生活随笔為你收集整理的如何使用plink进行连锁不平衡分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 电子徽章:融创意、疯狂与电子设计中
- 下一篇: 分析师称微软收购动视暴雪只会伤害索尼,不