日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习知识总结系列-机器学习中的数学-概率与数理统计(1-3-1)

發布時間:2023/12/13 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习知识总结系列-机器学习中的数学-概率与数理统计(1-3-1) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 目錄
    • 1.概率與統計
      • 1.1 機器學習與概率統計之間的關系
      • 1.2 重要的統計量
        • 1.2.1 期望
        • 1.2.2 方差
        • 1.2.3 協方差,相關系數
          • 協方差
          • 相關系數
        • 1.2.4 矩
      • 1.3 重要的定理與不等式
      • 1.4 用樣本估計參數

目錄

1.概率與統計

1.1 機器學習與概率統計之間的關系

1.什么是概率問題和統計問題

  • 概率問題:已知數據的整體分布,然后求取抽樣數據的概率。
  • 統計問題:是概率問題的逆過程,即已知抽樣數據的概率,求數據的整體分布。

2.監督學習----概率統計

  • 訓練過程:統計的過程
  • 預測過程:概率的過程

3.機器學習與概率統計的關系

  • 統計估計的是一個分布,機器學習訓練出來的是一個模型,模型可以包含多個分布。
  • 訓練和預測的核心評價指標是模型的誤差,誤差本身可以為概率的形式
  • 對誤差的不同定義方式可以轉換為對不同損失函數的定義。
  • 機器學習是概率與統計的進階版本(不嚴謹的說法)

1.2 重要的統計量

1.2.1 期望

1.離散型:E(x) = ∑ixipi\sum_{i}x_ip_ii?xi?pi?
2.連續型:E(x) = ∫?+xf(x)dx\int _-^+xf(x)d_x?+?xf(x)dx?
期望可以理解為數據加權下的平均值
3.性質

  • 無條件成立:E(kx) = kE(x) E(x + y) = E(x) + E(y)
  • 如果x,y為相互獨立:E(XY) = E(X) E(Y)

獨立:P(AB) = P(A)*P(B)
互斥:P(AB) = 0 P(A+B) = P(A) + P(B)

若:E(XY) = E(X)E(Y)只能說明X和Y不相關。

1.2.2 方差

1.定義:
var(x) = E(x?E(x))2=E(x2)?E2(x)E{(x - E(x))^2}=E(x^2)-E^2(x)E(x?E(x))2=E(x2)?E2(x)

2.性質

  • 無條件成立:
    • var(c)=0var(c) = 0var(c)=0
    • var(x+c)=var(c)var(x+c) = var(c)var(x+c)=var(c)
    • var(kx)=k2var(x)var(kx) = k^2var(x)var(kx)=k2var(x)
  • 當x和y相互獨立的時候:
    var(x+y)=var(x)+var(y)var(x+y) = var(x) + var(y)var(x+y)=var(x)+var(y)

方差的平方根稱為標準差

方差可以理解為整體數據偏移平均值的一個程度。

1.2.3 協方差,相關系數

協方差

1.定義:
cov(x,y) = E{[x-E(x)]*[y-E(y)]}

從定義可以看出,協方差是從方差定義擴張而來的,方差只針對的單變量,而協方差則考量的是2個變量之間的關系。

x和y如果是離散的變量,則x和y的維度必須相等。

2.性質

  • 無條件成立:
    • cov(x,y)=cov(y,x)對稱性cov(x,y) = cov(y,x) 對稱性cov(x,y)=cov(y,x)
    • cov(ax+b,cy+d)=accov(x,y)cov(ax+b , cy+d) = accov(x,y)cov(ax+b,cy+d)=accov(x,y)
    • cov(x1+x2,y)=cov(x1,y)+cov(x2,y)cov(x_1+x_2,y) = cov(x_1,y) + cov(x_2,y)cov(x1?+x2?,y)=cov(x1?,y)+cov(x2?,y)
    • cov(x,y)=E(xy)?E(x)?E(y)cov(x,y) = E(xy) - E(x)*E(y)cov(x,y)=E(xy)?E(x)?E(y)
  • 當x,y相互獨立的時候:cov(x,y)=0

cov(x,y)=0 只能得出變量x,y是不相關,無法得出獨立的結論

3.意義:
協方差可以度量兩個變量具在相同方向上的變化趨勢。

  • 如果cov(x,y) > 0: x,y的變化趨勢相同
  • 如果cov(x,y) < 0: x,y的變化趨勢相反
  • 如果cov(x,y) > 0: x,y不相關

可以使用協方差來衡量特征和特征,特征和標簽之間的相關性,即可以基于協方差來進行特征的篩選。
協方差只能用于衡量2個變量之間的相關性,衡量多個變量之間的相關性需要協方差矩陣。

4.協方差的上界
如果:var(x)=θ12var(x) = \theta_1^2var(x)=θ12? var(y)=θ22var(y) = \theta_2^2var(y)=θ22? 則:|cov(x,y) ≤θ1?θ2\le\theta_1*\theta_2θ1??θ2?|

5.協方差矩陣:
對于n個隨機變量{x1,x2,....,xnx_1,x_2,....,x_nx1?,x2?,....,xn?},任意兩個元素xi,xjx_i , x_jxi?,xj?都可以得到一個協方差,從而形成一個n*n的矩陣,其中協方差矩陣是對稱陣。

相關系數

1.peason相關系數

  • 定義:Px,y=cov(x,y)/(var(x)?var(y))P_{x,y}=cov(x,y)/\sqrt(var(x)*var(y))Px,y?=cov(x,y)/(?var(x)?var(y))
  • 性質:
    • 由協方差的上界可知:|P|$\le$1
    • 當且僅當x,y線性相關時,等號成立
    • 相關系數是標準尺度下的協方差。上面關于協方差的性質也適用于相關系數。
    • 相關系數取值在(0,1)之間,越接近1則說明兩變量的相關性越大,越接近0則說明相關性越低。(線性相關)。

2.相關系數矩陣(可畫出熱圖)
對多個變量兩兩之間求取相關系數,并組成矩陣,則為相關系數矩陣

  • 相關系數矩陣可以發現特征之間的相關性
  • 協方差矩陣歸一化后便可以得到相關系數矩陣
  • 實際中使用較多的是相關系數矩陣而非協方差矩陣,因為協方差矩陣取值范圍較大,表現不明顯
  • 使用相關系數矩陣的目的是為了進行特征的選擇。
  • 負相關也是相關。當兩個特征向量之間的相關系數為1,則可以去除其中的某一個。

3.獨立和不相關

  • 一般指的不相關指的是線性獨立
  • 如果x,y不相關,則x,y沒有線性關系,但是可以有其他函數關系。

1.2.4 矩

1.定義:對于隨機變量X,X的K階原點矩為:E(XK)E(X^K)E(XK)
X的K階中心矩為:E[X?E(X)]KE[X-E(X)]^KE[X?E(X)]K
從上面給出的矩的定義,我們可以看出期望是一階原點矩 , 方差是二階中心距

  • 變異系數:標準差和均值的比值為變異系數
  • 偏度(skewness):三階矩
  • 峰度(kurtosis):四階矩

1.3 重要的定理與不等式

1.jenson不等式(函數f凸函數)

  • 基本jenson不等式定義:
    f(θx+(1?θ)y)≤θf(x)+(1?θ)f(y)f(\theta x + (1-\theta)y)\le\theta f(x) + (1-\theta)f(y)f(θx+(1?θ)y)θf(x)+(1?θ)f(y)

2.如果:θ1,θ2,...,θk≥0\theta _1,\theta_2,...,\theta_k \ge0θ1?,θ2?,...,θk?0θ1+θ2+...+θk=1\theta_1+\theta_2+...+\theta_k=1θ1?+θ2?+...+θk?=1 則:f(θ1x1+...+θkxk)≤θ1f(x1)+...+θkf(xk)f(\theta_1x_1 + ...+\theta_kx_k) \le\theta_1f(x_1)+...+\theta_kf(x_k)f(θ1?x1?+...+θk?xk?)θ1?f(x1?)+...+θk?f(xk?)

2.切比雪夫不等式

度量兩個變量之間的距離方法有很多,但是要滿足一些條件。同時,也可以度量兩個分布之間的距離,即度量兩個分布之間的相關性,這個對于機器學習是非常有用的,常常可以作為損失函數。

  • 定義:設隨機變量X的期望為u ,方差為θ2\theta^2θ2,對于任意的正數ξ\xiξ,有:P(∣X?u∣≤ξ)≤θ2/ξ2P(|X-u|\le\xi)\le\theta^2/\xi^2P(X?uξ)θ2/ξ2
  • 意義:切比雪夫不等式說明,X的方差越小,事件(∣X?u∣≤ξ)(|X-u|\le\xi)(X?uξ)的發生概率越大。
  • 該不等式證明了方差的意義。
  • 該不等式可以證明大數定理。

3.大數定理

  • 定義:設隨機變量x1,x2,...,xnx_1,x_2,...,x_nx1?,x2?,...,xn?相互獨立,并且具有相同的期望u和方差θ2\theta^2θ2,取前K個隨機變量,且該K個隨機變量的期望為Yn=1/k∑i=1kxiY_n = 1/k\sum_{i=1}^kx_iYn?=1/ki=1k?xi?,則有:limn?&gt;∝p(∣Yn?u∣&lt;ξ)=1lim_{n-&gt;\propto}p(|Y_n - u| &lt; \xi)=1limn?>?p(Yn??u<ξ)=1
  • 意義:當樣本的數目足夠大時,樣本的期望逼近于整體的期望,這是統計方法的基石。
    4.中心極限定理
  • 定義:設隨機變量x1,x2,...,xnx_1,x_2,...,x_nx1?,x2?,...,xn?相互獨立,且服從同一分布,具有相同的期望u和方差θ2\theta^2θ2,則有:Yn=∑i=1n(xi?n?u)/((n)?θ)Y_n=\sum_{i=1}^n(x_i-n*u)/(\sqrt(n)*\theta)Yn?=i=1n?(xi??n?u)/((?n)?θ)
  • 意義:實際問題中,很多隨機變量現象可以看成很多獨立影響的綜合反應,且這些獨立因素服從正太分布。

1.4 用樣本估計參數

1.矩估計

  • 基本思想:首先假設整體的滿足某個分布,其中給分布中有n個未知的參數。然后,由樣本求出n對中心距和原點矩,接著由假設的分布公式求出這n對中心距和原點矩,通過等式關系,解出這n個參數,得出整體的分布。

該方法的計算量比較大,在實踐過程中用的比較少。常用于兩個分布相關性的比較。

2.最大似然估計

  • 貝葉斯公式:P(D/A)=(P(A/D)?P(A))/P(D)P(D/A) = (P(A/D)*P(A))/P(D)P(D/A)=(P(A/D)?P(A))/P(D)
  • 物理意義:公式中D為樣本數據,A為模型參數或者隨機事件。則P(D/A)P(D/A)P(D/A)表示A在數據D上的后驗概率,P(A/D)為A在數據D上的條件概率,P(A)為A的先驗概率
  • 發生過的概率就是最大的
  • 設問題A中的模型有3個:m1,m2,m3m_1,m_2,m_3m1?,m2?,m3?,抽取的樣本數為K:x1,x2,...,xkx_1,x_2,...,x_kx1?,x2?,...,xk?,設3個模型的分布為:f(m1),f(m2),f(m3)f(m_1),f(m_2),f(m_3)f(m1?),f(m2?),f(m3?),則已將抽取樣本的概率為P=∑i=1kfi(m1)?fi(m2)?fi(m3)P=\sum_{i=1}^kf_i(m_1)*f_i(m_2)*f_i(m_3)P=i=1k?fi?(m1?)?fi?(m2?)?fi?(m3?),然后求概率P最大時對應的參數既可以求出整體的分布。

總結

以上是生活随笔為你收集整理的机器学习知识总结系列-机器学习中的数学-概率与数理统计(1-3-1)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。