日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

你到底偏哪边的?

發布時間:2023/12/19 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 你到底偏哪边的? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

總第169篇/張俊紅

今天我們來聊聊統計學中的偏態分布,聊偏態分布以前我們先看看正態分布,下面這張圖在公眾號文章中多次出現,就是傳說中的正態分布。

這張圖中的橫軸是隨機變量 x 的具體值,正態分布的中心點是隨機變量 x 的均值 μ,以均值為中心,然后向兩邊擴散,既然是均值,那肯定就有比均值大的值,也有比均值小的點,我們用標準差 σ 表示數據集的離散程度,也就是距離均值 μ 的遠近。

縱軸是 x 對應的概率密度。我們應該都知道概率,是用來表示一個值或一種情況出現的可能性大小。而概率密度等于一段區間(隨機變量 x 的取值范圍)的概率除以該段區間的長度。

橫軸與縱軸圍成的面積表示橫軸 x 對應的這個區間出現的概率。

x 軸標記出了 7 個點,分別為:μ、u+σ、u-σ、u+2σ、u-2σ、u+3σ、u-3σ,即距離均值1倍、2倍、3倍、3倍以上標準差的距離。

可以看到有64.2%(34.1+34.1)的數據集中在(u-σ,u+σ)之間,有27.2%的數據位于(u±σ,u±2σ)之間,有4.2%的數據位于(u±2σ,u±3σ),剩下的就是(u±3σ,∞)。說明大部分數據還是集中在平均值附近的,而我們生活中的很多事情都是符合正態分布的,這也就是為什么可以用平均值來代替整體水平的一個原因,比如平均身高、平均工資等等。

雖然大多數情況下數據是正態分布的,但是也有不是正態分布的情況,這個時候就是偏態分布了,偏態分布有兩種,左偏和右偏。長尾在哪邊就是哪篇,下面第一張圖的長尾在左邊就是左偏,最后一張圖的長尾在右邊就是右偏。

如果是左偏,說明大多數是集中在右邊的,即眾數 > 中位數 > 均值;如果是右偏,說明大多數是集中在左邊的,即眾數 < 中位數 < 均值。

我們可以用偏態系數來衡量具體的偏離程度,偏態系數大于0則右偏,小于0則左偏,值越大越偏。

在 Python 中要計算某一列的偏態系數可以使用如下代碼:

#計算col列的偏態系數 df["col"].skew()

因為現實中很多數據是符合正態分布的,很多模型也都是假設數據是服從正太分布的,比如方差分析中,就是假設數據是服從正態分布的。如果你的數據是偏態分布的時候,這個時候可以對數據進行轉換,從偏態數據轉換成正態數據,常見的轉換就是原始數據取對數。

在 Python 中可以使用下面代碼對數據取對數。

#對x取對數? import?math math.log(?x?)

統計學中為什么要對變量取對數:
https://www.zhihu.com/question/22012482

你還可以看:

聊聊置信度與置信區間

統計學的假設檢驗

一元線性回歸分析

方差分析

卡方檢驗講解

總結

以上是生活随笔為你收集整理的你到底偏哪边的?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。