这篇被引用近4k次的论文教你如何正确的理解和使用相关系数!
歡迎關(guān)注"R語言和統(tǒng)計"~~
小編前幾天閱讀了一篇論文,名為“A guide to appropriate use of correlation coefficient in medical research” [1],寫的簡單易懂,并且在醫(yī)學(xué)研究的實踐中非常有參考價值,因此決定分享給大家。
雖然相關(guān)(Correlation)容易計算和解釋,但是它的誤用在研究者中也非常的普遍,有些統(tǒng)計學(xué)家甚至認(rèn)為:相關(guān)的概念一開始就沒有被提出可能會更好 [2]?!
所以,在最開始,先了解一下到底什么是相關(guān)。
相關(guān)的定義
在統(tǒng)計學(xué)中,相關(guān)是一種用于評估兩個連續(xù)變量之間的線性關(guān)系的方法 [2]。
而相關(guān)系數(shù)(Correlation coefficient)可用于評估兩個連續(xù)變量之間的線性關(guān)系的強(qiáng)度,它可以取值 -1 到 +1 之間。
假如相關(guān)系數(shù)為0,表示兩個連續(xù)變量之間不存在線性關(guān)系;相關(guān)系數(shù)為 -1或者?+1,表示兩者存在完美的線性關(guān)系。兩者的線性關(guān)系越強(qiáng),數(shù)值將會越往 -1 或?+ 1 匯聚。
如果相關(guān)系數(shù)為負(fù)數(shù),稱為負(fù)相關(guān),即當(dāng)一個變量的數(shù)值增加時,另外一個變量的數(shù)值將會傾向于下降。而相關(guān)系數(shù)為正數(shù),稱為正相關(guān),即當(dāng)一個變量的數(shù)值增加時,另外一個變量的數(shù)值也會傾向于增加。
值得注意的是,如果兩個變量之間的關(guān)系是非線性,根據(jù)統(tǒng)計學(xué)的定義,我們不能稱它們是相關(guān)!
舉個例子,假設(shè)在線性代數(shù)中兩個變量之間的關(guān)系是:y = 0.5*x^3,可以在R中將其作圖:?
如上圖:在數(shù)學(xué)上,x和y當(dāng)然存在某種聯(lián)系(y = 0.5*x^3);但是在統(tǒng)計學(xué)中,將x和y稱為相關(guān)就不是非常的恰當(dāng),因為統(tǒng)計的相關(guān)指的是線性關(guān)系!
相關(guān)系數(shù)的類型
主要有兩種相關(guān)系數(shù):Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)[如果覺得不夠,可以查看往期文章:漲知識!15種相關(guān)分析算法,總有一款適合你!]。?
到底該如何選擇相應(yīng)的方法??
這取決于所要研究的變量,如果兩個變量都是正態(tài)分布,選擇Pearson相關(guān);如果其中一個或兩個不是正態(tài)分布,選擇Spearman相關(guān)。?
Pearson相關(guān)系數(shù)的公式如下:
Spearman相關(guān)系數(shù)的公式如下:
注:di 指的是x和y間排序的差別。
相關(guān)系數(shù)和散點圖
論文作者首先創(chuàng)建了兩組符合正態(tài)分布的數(shù)據(jù),使用Pearson相關(guān)(相關(guān)系數(shù)分別為0.2, 0.5, 0.8, -0.8),并且制作了對應(yīng)的散點圖,如下:?
Pearson相關(guān)系數(shù)為 0.2時:?
圖片來源:[1]的Figure 1
Pearson相關(guān)系數(shù)為 0.5時:?
圖片來源:[1]的Figure 2
Pearson相關(guān)系數(shù)為 0.8時:?
圖片來源:[1]的Figure 3
Pearson相關(guān)系數(shù)為 -0.8時:?
圖片來源:[1]的Figure 4
上述四張圖片可以幫助我們了解不同相關(guān)系數(shù)所對應(yīng)散點圖的樣子,有助于在未來僅根據(jù)散點圖的模樣提前大致推測它們的相關(guān)系數(shù)。
從上述四張圖片可知,相關(guān)系數(shù)越大(絕對值),兩個變量之間的線性關(guān)系越明顯。
實例解析
下面用一個實例,用于解釋兩種相關(guān)系數(shù)在實際應(yīng)用上的差別。
作者使用了產(chǎn)前門診的數(shù)據(jù),共包含了 750 例孕婦,選取了其中兩個變量:血液中血紅蛋白濃度(呈正態(tài)分布)和產(chǎn)次(呈偏態(tài)分布),散點圖如下:?
圖片來源:[1]的Figure 5
因為產(chǎn)次(parity)為偏態(tài)分布,所以在這個例子中,選擇Spearman相關(guān)會更加合適,計算所得相關(guān)系數(shù)為 0.3。?
如果使用Pearson相關(guān),它的相關(guān)系數(shù)為 0.2。
根據(jù)下表,它們的相關(guān)系數(shù)將會得出截然不同的結(jié)論:?
表格來源:[1]的Table 1
如上表所示,如果根據(jù)Spearman相關(guān)系數(shù)為 0.3,可以認(rèn)為變量間的相關(guān)為弱正相關(guān)。而如果根據(jù)Pearson相關(guān)系數(shù)為 0.2,它們間的相關(guān)是可以忽略的!所以,不同的方法可能會造成完全不同的結(jié)論。
好啦,今天的內(nèi)容就到這里。
如果有幫助,記得分享給需要的人!
參考文獻(xiàn)
[1].?M.M Mukaka, A guide to appropriate use of Correlation coefficient in medical research, Malawi Medical Journal; 24(3): 69-71 September 2012
[2].?Altman DG. Practical Statistics for Medical Research. Chapman & Hall/CRC
▌本文由R語言和統(tǒng)計首發(fā),如需轉(zhuǎn)載請聯(lián)系我們
▌編輯:June
▌我們的夢想是讓R語言和統(tǒng)計變得簡單!
往期精品(點擊圖片直達(dá)文字對應(yīng)教程)
機(jī)器學(xué)習(xí)
后臺回復(fù)“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的这篇被引用近4k次的论文教你如何正确的理解和使用相关系数!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux下实用的查看内存和多核CPU状
- 下一篇: 多序列比对软件Jalview的安装及使用