数据分析入门(第一课)
為了我在讀碩士的媳婦入門數據分析,我決定開一門從零開始數據分析的博文。即具有實用性又沒那么復雜的數學公式,拿來主義的博文。要學會數據分析,特別是需要掌握數據的特征,我們首先需要了解一些基本的概念。
第一:數據分析要解決什么問題?
根據數據的特征,來預測數據的走向?分析數據的趨勢或者離散程度?或者僅僅是對比幾組數據在某個指標上的好壞?或者是對用戶進行畫像?
在我媳婦兒的生物化學領域,一般來說就是對比兩個方法在測出來的數據的好壞,或者哪個方法測出來的數據更好。
要學會分析數據,首先要明白有哪些指標可以來度量數據的好壞。
概念:
均值:算數平均數
均值數據對數值型數據計算的,而且利用了全部數據信息,提取的信息最充分,當數據呈對稱分布或近似對稱分布時,三個代表值相等或相近,此時應選擇平均數。但受極端數據的影響,對于偏態分布的數據,平均數的代表性較差,此時應考慮中位數或眾數。
中位數:將數據按大小排列后位于正中間的數描述,描述中等水平
? ? ? 中位數是一組數據中間位置上的代表值,直觀,不受極端數據的影響,但數據信息利用不夠充分,當數據的分布偏斜較大時,使 用中位數也許不錯。主要適合作為順序數據的集中趨勢測度值。
眾數:數據中出現最多的數
眾數一組數據分布的峰值,容易計算,但不是總是存在,眾數只有在數據量較多時才有意義,數據量較少時不宜使用。主要適合作為分類數據的集中趨勢測度值,應用場合較少;
眾數、中位數和均值是分布集中趨勢的三個主要測度,眾數和中位數是從數據分布形狀及位置角度來考慮的,而均值是對所有數據計算后得到的。
方差:
在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是各個數據分別與其平均數之差的平方的和的平均數
標準差:
那么問題來了,既然有了方差來描述變量與均值的偏離程度,那又搞出來個標準差干什么呢?
? ? 標準差是方差的算術平方根。因為方差與我們要處理的數據的量綱是不一致的(因為做了平方),雖然能很好的描述數據與均值的偏離程度,但是處理結果是不符合我們的直觀思維的。
協方差:
在概率論和統計學中,協方差用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
在概率論和統計學中,協方差用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
簡單地來說,協方差就是反映兩個變量 X 和 Y 的相互關系。這種相互關系大致分為三種:正相關、負相關、不相關。
什么是正相關呢?例如房屋面積(X)越大,房屋總價(Y)越高,則房屋面積與房屋總價是正相關的;
什么是負相關呢?例如一個學生打游戲的時間(X)越多,學習成績(Y)越差,則打游戲時間與學習成績是負相關的;
什么是不相關呢?例如一個人皮膚的黑白程度(X)與他的身體健康程度(Y)并無明顯關系,所以是不相關的
標準差和方差一般是用來描述一維數據的,但現實生活我們常常遇到含有多維數據的數據集,最簡單的大家上學時免不了要統計多個學科的考試成績。面對這樣的數據集,我們當然可以按照每一維獨立的計算其方差,但是通常我們還想了解更多,比如,一個男孩子的帥氣程度跟他受女孩子歡迎程度是否存在一些聯系啊,嘿嘿~協方差就是這樣一種用來度量兩個隨機變量關系的統計量,我們可以仿照方差的定義:
來度量各個維度偏離其均值的程度,協方差可以這么來定義:
舉例:協方差的結果有什么意義呢?如果結果為正值,則說明兩者是正相關的(從協方差可以引出“相關系數”的定義),也就是說一個人越帥氣就越受女孩子歡迎,嘿嘿,那必須的~結果為負值就說明負相關的,越帥氣女孩子越討厭,可能嗎?如果為0,也是就是統計上說的“相互獨立”。
男生的帥氣程度Xi :1.1 ,1.9 ,3
受女生的歡迎程度:Yi :5.0 ,10.4 ,14.6
E(X) = (1.1+1.9+3)/3=2
E(Y) = (5.0+10.4+14.6)/3=10
E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02
Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02
當 Cov(X,Y) > 0 時,X 與 Y 正相關;
當 Cov(X,Y) < 0 時,X 與 Y 負相關;
當 Cov(X,Y) = 0 時,X 與 Y 不相關;
3.02>0說明他們是正相關的。
協方差數值大小是否代表了相關程度呢?
也就是說如果協方差為 100 是否一定比協方差為 10 的正相關性強呢?并不是協方差越大,正相關程度越高
出現這種情況的原因是兩種情況數值變化的幅值不同(或者量綱不同)。計算協方差的時候我們并沒有把不同變量幅值差異性考慮進來,在比較協方差的時候也就沒有一個統一的量綱標準。所以,為了消除這一影響,為了準確得到變量之間的相似程度,我們需要把協方差除以各自變量的標準差。這樣就得到了相關系數的表達式:
?
分別計算上面例子X、Y的標準差:
D(X)=E(X^2)-E^2(X)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.6 σx=0.77
D(Y)=E(Y^2)-E^2(Y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93
則X,Y的相關系數:
r(X,Y)=Cov(X,Y)/(σxσy)=3.02/(0.77×3.93) = 0.9979
表明這組數據X,Y之間相關性很好!
為什么除以各自變量的標準差就能消除幅值影響呢?
這是因為標準差本身反映了變量的幅值變化程度,除以標準差正好能起到抵消的作用,讓協方差標準化。這樣,相關系數的范圍就被歸一化到 [-1,1] 之間了。
協方差矩陣
? ? ? 衡量更多變量之間相關性,每個變量和其它每一個變量求協方差組成一個矩陣就是協方差矩陣。
?
?
?
?
?
總結
以上是生活随笔為你收集整理的数据分析入门(第一课)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: API性能优化之异步
- 下一篇: 数据分析入门(二)