日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析入门(第一课)

發布時間:2024/10/5 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据分析入门(第一课) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

為了我在讀碩士的媳婦入門數據分析,我決定開一門從零開始數據分析的博文。即具有實用性又沒那么復雜的數學公式,拿來主義的博文。要學會數據分析,特別是需要掌握數據的特征,我們首先需要了解一些基本的概念。

第一:數據分析要解決什么問題?

根據數據的特征,來預測數據的走向?分析數據的趨勢或者離散程度?或者僅僅是對比幾組數據在某個指標上的好壞?或者是對用戶進行畫像?

在我媳婦兒的生物化學領域,一般來說就是對比兩個方法在測出來的數據的好壞,或者哪個方法測出來的數據更好。

要學會分析數據,首先要明白有哪些指標可以來度量數據的好壞。

概念:

均值:算數平均數

均值數據對數值型數據計算的,而且利用了全部數據信息,提取的信息最充分,當數據呈對稱分布或近似對稱分布時,三個代表值相等或相近,此時應選擇平均數。但受極端數據的影響,對于偏態分布的數據,平均數的代表性較差,此時應考慮中位數或眾數。

中位數:將數據按大小排列后位于正中間的數描述,描述中等水平

? ? ? 中位數是一組數據中間位置上的代表值,直觀,不受極端數據的影響,但數據信息利用不夠充分,當數據的分布偏斜較大時,使 用中位數也許不錯。主要適合作為順序數據的集中趨勢測度值。

眾數:數據中出現最多的數

眾數一組數據分布的峰值,容易計算,但不是總是存在,眾數只有在數據量較多時才有意義,數據量較少時不宜使用。主要適合作為分類數據的集中趨勢測度值,應用場合較少;

眾數、中位數和均值是分布集中趨勢的三個主要測度,眾數和中位數是從數據分布形狀及位置角度來考慮的,而均值是對所有數據計算后得到的。

方差

在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是各個數據分別與其平均數之差的平方的和的平均數

標準差:

那么問題來了,既然有了方差來描述變量與均值的偏離程度,那又搞出來個標準差干什么呢?

? ? 標準差是方差的算術平方根。因為方差與我們要處理的數據的量綱是不一致的(因為做了平方),雖然能很好的描述數據與均值的偏離程度,但是處理結果是不符合我們的直觀思維的。

協方差:

在概率論和統計學中,協方差用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。

在概率論和統計學中,協方差用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。

簡單地來說,協方差就是反映兩個變量 X 和 Y 的相互關系。這種相互關系大致分為三種:正相關、負相關、不相關。

什么是正相關呢?例如房屋面積(X)越大,房屋總價(Y)越高,則房屋面積與房屋總價是正相關的;

什么是負相關呢?例如一個學生打游戲的時間(X)越多,學習成績(Y)越差,則打游戲時間與學習成績是負相關的;

什么是不相關呢?例如一個人皮膚的黑白程度(X)與他的身體健康程度(Y)并無明顯關系,所以是不相關的

標準差和方差一般是用來描述一維數據的,但現實生活我們常常遇到含有多維數據的數據集,最簡單的大家上學時免不了要統計多個學科的考試成績。面對這樣的數據集,我們當然可以按照每一維獨立的計算其方差,但是通常我們還想了解更多,比如,一個男孩子的帥氣程度跟他受女孩子歡迎程度是否存在一些聯系啊,嘿嘿~協方差就是這樣一種用來度量兩個隨機變量關系的統計量,我們可以仿照方差的定義:

來度量各個維度偏離其均值的程度,協方差可以這么來定義:

舉例:協方差的結果有什么意義呢?如果結果為正值,則說明兩者是正相關的(從協方差可以引出“相關系數”的定義),也就是說一個人越帥氣就越受女孩子歡迎,嘿嘿,那必須的~結果為負值就說明負相關的,越帥氣女孩子越討厭,可能嗎?如果為0,也是就是統計上說的“相互獨立”。

男生的帥氣程度Xi :1.1 ,1.9 ,3

受女生的歡迎程度:Yi :5.0 ,10.4 ,14.6

E(X) = (1.1+1.9+3)/3=2

E(Y) = (5.0+10.4+14.6)/3=10

E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02

Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02

當 Cov(X,Y) > 0 時,X 與 Y 正相關;

當 Cov(X,Y) < 0 時,X 與 Y 負相關;

當 Cov(X,Y) = 0 時,X 與 Y 不相關;

3.02>0說明他們是正相關的。

協方差數值大小是否代表了相關程度呢?

也就是說如果協方差為 100 是否一定比協方差為 10 的正相關性強呢?并不是協方差越大,正相關程度越高

出現這種情況的原因是兩種情況數值變化的幅值不同(或者量綱不同)。計算協方差的時候我們并沒有把不同變量幅值差異性考慮進來,在比較協方差的時候也就沒有一個統一的量綱標準。所以,為了消除這一影響,為了準確得到變量之間的相似程度,我們需要把協方差除以各自變量的標準差。這樣就得到了相關系數的表達式:

?

分別計算上面例子X、Y的標準差:

D(X)=E(X^2)-E^2(X)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.6 σx=0.77

D(Y)=E(Y^2)-E^2(Y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93

則X,Y的相關系數:

r(X,Y)=Cov(X,Y)/(σxσy)=3.02/(0.77×3.93) = 0.9979

表明這組數據X,Y之間相關性很好!

為什么除以各自變量的標準差就能消除幅值影響呢?

這是因為標準差本身反映了變量的幅值變化程度,除以標準差正好能起到抵消的作用,讓協方差標準化。這樣,相關系數的范圍就被歸一化到 [-1,1] 之間了。

協方差矩陣

? ? ? 衡量更多變量之間相關性,每個變量和其它每一個變量求協方差組成一個矩陣就是協方差矩陣。

?
 

  

?

?

?

?

總結

以上是生活随笔為你收集整理的数据分析入门(第一课)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。