當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习知识总结系列-机器学习中的数学-概率与数理统计（1-3-1）

發布時間：2023/12/13 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习知识总结系列-机器学习中的数学-概率与数理统计（1-3-1）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

目錄
- 1.概率與統計
- - 1.1 機器學習與概率統計之間的關系
  - 1.2 重要的統計量
  - - 1.2.1 期望
    - 1.2.2 方差
    - 1.2.3 協方差，相關系數
    - - 協方差
      - 相關系數
    - 1.2.4 矩
  - 1.3 重要的定理與不等式
  - 1.4 用樣本估計參數

統計估計的是一個分布，機器學習訓練出來的是一個模型，模型可以包含多個分布。
訓練和預測的核心評價指標是模型的誤差，誤差本身可以為概率的形式
對誤差的不同定義方式可以轉換為對不同損失函數的定義。
機器學習是概率與統計的進階版本（不嚴謹的說法）

1.2 重要的統計量

1.2.1 期望

1.離散型：E(x) = $∑ixipi\sum_{i}x_ip_i$
2.連續型：E(x) = $∫?+xf(x)dx\int _-^+xf(x)d_x$
期望可以理解為數據加權下的平均值
3.性質

無條件成立：E(kx) = kE(x) E(x + y) = E(x) + E(y)
如果x,y為相互獨立：E(XY) = E(X) E(Y)

獨立：P(AB) = P(A)*P(B)
互斥：P(AB) = 0 P(A+B) = P(A) + P(B)

若：E(XY) = E(X)E(Y)只能說明X和Y不相關。

1.2.2 方差

1.定義：
var(x) = $E{(x - E(x))^2}=E(x^2)-E^2(x)$

2.性質

無條件成立：
- $v a r (c) = 0$
- $v a r (x + c) = v a r (c)$
- $var(kx) = k^2var(x)$
當x和y相互獨立的時候：
$v a r (x + y) = v a r (x) + v a r (y)$

方差的平方根稱為標準差

方差可以理解為整體數據偏移平均值的一個程度。

1.2.3 協方差，相關系數

協方差

1.定義：
cov(x,y) = E{[x-E(x)]*[y-E(y)]}

從定義可以看出，協方差是從方差定義擴張而來的，方差只針對的單變量，而協方差則考量的是2個變量之間的關系。

x和y如果是離散的變量，則x和y的維度必須相等。

2.性質

無條件成立：
- $c o v (x, y) = c o v (y, x) 對稱性$
- $c o v (a x + b, c y + d) = a c c o v (x, y)$
- $cov(x_1+x_2,y) = cov(x_1,y) + cov(x_2,y)$
- $c o v (x, y) = E (x y) ? E (x) ? E (y)$
當x,y相互獨立的時候：cov(x,y)=0

cov(x,y)=0 只能得出變量x,y是不相關，無法得出獨立的結論

3.意義：
協方差可以度量兩個變量具在相同方向上的變化趨勢。

如果cov(x,y) > 0: x,y的變化趨勢相同
如果cov(x,y) < 0: x,y的變化趨勢相反
如果cov(x,y) > 0: x,y不相關

可以使用協方差來衡量特征和特征，特征和標簽之間的相關性，即可以基于協方差來進行特征的篩選。
協方差只能用于衡量2個變量之間的相關性，衡量多個變量之間的相關性需要協方差矩陣。

4.協方差的上界
如果： $\theta_1^2$ $\theta_2^2$ 則：|cov(x,y) $≤θ1?θ2\le\theta_1*\theta_2$ |

5.協方差矩陣：
對于n個隨機變量{ $x_1,x_2,....,x_n$ },任意兩個元素 $x_i , x_j$ 都可以得到一個協方差，從而形成一個n*n的矩陣，其中協方差矩陣是對稱陣。

1.2.4 矩

1.定義：對于隨機變量X，X的K階原點矩為： $E(X^K)$
X的K階中心矩為： $E[X-E(X)]^K$
從上面給出的矩的定義，我們可以看出期望是一階原點矩，方差是二階中心距

變異系數：標準差和均值的比值為變異系數
偏度(skewness):三階矩
峰度（kurtosis）:四階矩

1.3 重要的定理與不等式

1.jenson不等式（函數f凸函數）

基本jenson不等式定義：
$f(θx+(1?θ)y)≤θf(x)+(1?θ)f(y)f(\theta x + (1-\theta)y)\le\theta f(x) + (1-\theta)f(y)$

2.如果： $θ1,θ2,...,θk≥0\theta _1,\theta_2,...,\theta_k \ge0$ 且 $θ1+θ2+...+θk=1\theta_1+\theta_2+...+\theta_k=1$ 則： $f(θ1x1+...+θkxk)≤θ1f(x1)+...+θkf(xk)f(\theta_1x_1 + ...+\theta_kx_k) \le\theta_1f(x_1)+...+\theta_kf(x_k)$

2.切比雪夫不等式

度量兩個變量之間的距離方法有很多，但是要滿足一些條件。同時，也可以度量兩個分布之間的距離，即度量兩個分布之間的相關性，這個對于機器學習是非常有用的，常常可以作為損失函數。

定義：設隨機變量X的期望為u ,方差為 $θ2\theta^2$ ，對于任意的正數 $ξ\xi$ ，有： $P(∣X?u∣≤ξ)≤θ2/ξ2P(|X-u|\le\xi)\le\theta^2/\xi^2$
意義：切比雪夫不等式說明，X的方差越小，事件 $(∣X?u∣≤ξ)(|X-u|\le\xi)$ 的發生概率越大。
該不等式證明了方差的意義。
該不等式可以證明大數定理。

3.大數定理

定義：設隨機變量 $x_1,x_2,...,x_n$ 相互獨立，并且具有相同的期望u和方差 $θ2\theta^2$ ，取前K個隨機變量，且該K個隨機變量的期望為 $Yn=1/k∑i=1kxiY_n = 1/k\sum_{i=1}^kx_i$ ,則有： $limn?>∝p(∣Yn?u∣<ξ)=1lim_{n->\propto}p(|Y_n - u| < \xi)=1$
意義：當樣本的數目足夠大時，樣本的期望逼近于整體的期望，這是統計方法的基石。
4.中心極限定理
定義：設隨機變量 $x_1,x_2,...,x_n$ 相互獨立，且服從同一分布，具有相同的期望u和方差 $θ2\theta^2$ ，則有： $Yn=∑i=1n(xi?n?u)/((n)?θ)Y_n=\sum_{i=1}^n(x_i-n*u)/(\sqrt(n)*\theta)$
意義：實際問題中，很多隨機變量現象可以看成很多獨立影響的綜合反應，且這些獨立因素服從正太分布。

1.4 用樣本估計參數

1.矩估計

基本思想：首先假設整體的滿足某個分布，其中給分布中有n個未知的參數。然后，由樣本求出n對中心距和原點矩，接著由假設的分布公式求出這n對中心距和原點矩，通過等式關系，解出這n個參數，得出整體的分布。

該方法的計算量比較大，在實踐過程中用的比較少。常用于兩個分布相關性的比較。

2.最大似然估計

貝葉斯公式： $P (D / A) = (P (A / D) ? P (A)) / P (D)$
物理意義：公式中D為樣本數據，A為模型參數或者隨機事件。則 $P (D / A)$ 表示A在數據D上的后驗概率，P(A/D)為A在數據D上的條件概率，P(A)為A的先驗概率

發生過的概率就是最大的
設問題A中的模型有3個： $m_1,m_2,m_3$ ，抽取的樣本數為K： $x_1,x_2,...,x_k$ ，設3個模型的分布為： $f(m_1),f(m_2),f(m_3)$ ，則已將抽取樣本的概率為 $P=∑i=1kfi(m1)?fi(m2)?fi(m3)P=\sum_{i=1}^kf_i(m_1)*f_i(m_2)*f_i(m_3)$ ，然后求概率P最大時對應的參數既可以求出整體的分布。

總結

以上是生活随笔為你收集整理的机器学习知识总结系列-机器学习中的数学-概率与数理统计（1-3-1）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：算法(15)-leetcode-expl
下一篇：学点数学(5)--线性规划对偶形式的理解