當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析入门（第一课）

發布時間：2024/10/5 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了数据分析入门（第一课）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

為了我在讀碩士的媳婦入門數據分析，我決定開一門從零開始數據分析的博文。即具有實用性又沒那么復雜的數學公式，拿來主義的博文。要學會數據分析，特別是需要掌握數據的特征，我們首先需要了解一些基本的概念。

第一：數據分析要解決什么問題？

根據數據的特征，來預測數據的走向？分析數據的趨勢或者離散程度？或者僅僅是對比幾組數據在某個指標上的好壞？或者是對用戶進行畫像？

在我媳婦兒的生物化學領域，一般來說就是對比兩個方法在測出來的數據的好壞，或者哪個方法測出來的數據更好。

要學會分析數據，首先要明白有哪些指標可以來度量數據的好壞。

概念：

均值：算數平均數

均值數據對數值型數據計算的，而且利用了全部數據信息，提取的信息最充分，當數據呈對稱分布或近似對稱分布時，三個代表值相等或相近，此時應選擇平均數。但受極端數據的影響，對于偏態分布的數據，平均數的代表性較差，此時應考慮中位數或眾數。

中位數：將數據按大小排列后位于正中間的數描述，描述中等水平

? ? ? 中位數是一組數據中間位置上的代表值，直觀，不受極端數據的影響，但數據信息利用不夠充分，當數據的分布偏斜較大時，使用中位數也許不錯。主要適合作為順序數據的集中趨勢測度值。

眾數：數據中出現最多的數

眾數一組數據分布的峰值，容易計算，但不是總是存在，眾數只有在數據量較多時才有意義，數據量較少時不宜使用。主要適合作為分類數據的集中趨勢測度值，應用場合較少；

眾數、中位數和均值是分布集中趨勢的三個主要測度，眾數和中位數是從數據分布形狀及位置角度來考慮的，而均值是對所有數據計算后得到的。

方差：

在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望（即均值）之間的偏離程度。統計中的方差（樣本方差）是各個數據分別與其平均數之差的平方的和的平均數

標準差：

那么問題來了，既然有了方差來描述變量與均值的偏離程度，那又搞出來個標準差干什么呢？

? ? 標準差是方差的算術平方根。因為方差與我們要處理的數據的量綱是不一致的（因為做了平方），雖然能很好的描述數據與均值的偏離程度，但是處理結果是不符合我們的直觀思維的。

協方差：

在概率論和統計學中，協方差用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況，即當兩個變量是相同的情況。

簡單地來說，協方差就是反映兩個變量 X 和 Y 的相互關系。這種相互關系大致分為三種：正相關、負相關、不相關。

什么是正相關呢？例如房屋面積（X）越大，房屋總價（Y）越高，則房屋面積與房屋總價是正相關的；

什么是負相關呢？例如一個學生打游戲的時間（X）越多，學習成績（Y）越差，則打游戲時間與學習成績是負相關的；

什么是不相關呢？例如一個人皮膚的黑白程度（X）與他的身體健康程度（Y）并無明顯關系，所以是不相關的

標準差和方差一般是用來描述一維數據的，但現實生活我們常常遇到含有多維數據的數據集，最簡單的大家上學時免不了要統計多個學科的考試成績。面對這樣的數據集，我們當然可以按照每一維獨立的計算其方差，但是通常我們還想了解更多，比如，一個男孩子的帥氣程度跟他受女孩子歡迎程度是否存在一些聯系啊，嘿嘿~協方差就是這樣一種用來度量兩個隨機變量關系的統計量，我們可以仿照方差的定義：

來度量各個維度偏離其均值的程度，協方差可以這么來定義：

舉例：協方差的結果有什么意義呢？如果結果為正值，則說明兩者是正相關的(從協方差可以引出“相關系數”的定義)，也就是說一個人越帥氣就越受女孩子歡迎，嘿嘿，那必須的~結果為負值就說明負相關的，越帥氣女孩子越討厭，可能嗎？如果為0，也是就是統計上說的“相互獨立”。

男生的帥氣程度Xi ：1.1 ，1.9 ，3

受女生的歡迎程度：Yi ：5.0 ，10.4 ，14.6

E(X) = (1.1+1.9+3)/3=2

E(Y) = (5.0+10.4+14.6)/3=10

E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02

Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02

當 Cov(X,Y) > 0 時，X 與 Y 正相關；

當 Cov(X,Y) < 0 時，X 與 Y 負相關；

當 Cov(X,Y) = 0 時，X 與 Y 不相關；

3.02>0說明他們是正相關的。

協方差數值大小是否代表了相關程度呢？

也就是說如果協方差為 100 是否一定比協方差為 10 的正相關性強呢？并不是協方差越大，正相關程度越高

出現這種情況的原因是兩種情況數值變化的幅值不同（或者量綱不同）。計算協方差的時候我們并沒有把不同變量幅值差異性考慮進來，在比較協方差的時候也就沒有一個統一的量綱標準。所以，為了消除這一影響，為了準確得到變量之間的相似程度，我們需要把協方差除以各自變量的標準差。這樣就得到了相關系數的表達式：

分別計算上面例子X、Y的標準差：

D(X)=E(X^2)-E^2(X)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.6 σx=0.77

D(Y)=E(Y^2)-E^2(Y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93

則X,Y的相關系數：

r(X,Y)=Cov(X,Y)/(σxσy)=3.02/(0.77×3.93) = 0.9979

表明這組數據X,Y之間相關性很好!

為什么除以各自變量的標準差就能消除幅值影響呢？

這是因為標準差本身反映了變量的幅值變化程度，除以標準差正好能起到抵消的作用，讓協方差標準化。這樣，相關系數的范圍就被歸一化到 [-1,1] 之間了。

協方差矩陣

? ? ? 衡量更多變量之間相關性，每個變量和其它每一個變量求協方差組成一個矩陣就是協方差矩陣。

總結

以上是生活随笔為你收集整理的数据分析入门（第一课）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。