當前位置：首頁 >

【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )

發布時間：2025/6/17 35 豆豆

文章目錄

- - - I . 高斯混合模型方法 ( GMM )
    - II . 硬聚類與軟聚類
    - III . GMM 聚類結果概率的作用
    - IV . 高斯混合分布
    - V . 概率密度函數
    - VI . 高斯分布曲線 ( 僅做參考 )
    - VII . 高斯混合模型參數簡介

I . 高斯混合模型方法 ( GMM )

1 . 高斯混合模型與 K-Means 相同點 : 高斯混合模型方法與 K-Means 方法 , 都是通過多次迭代 , 每次迭代都對聚類結果進行改進 , 最終達到算法收斂 , 聚類分組結果達到最優 ;

2 . 高斯混合模型與 K-Means 不同點 :

① K-Means 方法 : 使用 K-Means 方法的聚類結果是某個樣本被指定到某個聚類分組中 ;

② 高斯混合模型 : 高斯混合模型的聚類分析結果是 , 某個樣本 被分到了 某個聚類分組 中 , 但是除此之外還給出了 該樣本屬于該聚類 的概率 , 意思是 該樣本并不是一定屬于該聚類 , 而是有一定幾率屬于 ;

③ 高斯混合模型應用場景 : 高斯混合模型需要訓練學習出概率密度函數 , 該方法除了用于聚類分析外 , 還可以用于密度估計等用途 ;

II . 硬聚類與軟聚類

硬聚類與軟聚類 :

① 硬聚類 (硬指派 ) : K-Means 方法中 , 每個數據集樣本 , 都被指派了一個聚類分組 ;

② 軟聚類 ( 軟指派 ) : 高斯混合模型方法中 , 每個數據集樣本 , 也都被指派了一個聚類分組 , 此外還指定了該樣本屬于該聚類分組的概率 , 即該樣本不一定屬于該聚類分組 , 有一定幾率屬于其他聚類分組 ;

③ 硬指派概率 : 硬指派中 , 樣本如果屬于某個聚類分組 , 就是 100% 屬于 , 如果不屬于某聚類 , 就是 0% 屬于 , 沒有概率的概念 ;

III . GMM 聚類結果概率的作用

1 . 概率信息 : 高斯混合模型方法的 聚類結果 附帶 樣本屬于聚類的概率 , 其包含的信息量 遠遠高于 K-Means 方法的 單純的樣本聚類分組 ;

2 . 聚類概率 : 聚類算法并不是萬能的 , 不能保證 100% 準確 , 這里可以將高斯混合模型 樣本的聚類分組概率值 , 轉為一個評分 , 用該評分表示聚類結果的準確性 ;

3 . 評分作用 : 同一個聚類分析 , 使用不同的方法 , 得到 多個結果 , 每個結果都有 聚類概率 轉化的一個評分 , 可以將 聚類結果評分 最高的那個結果 當做 最終結果 ;

4 . 示例 : 疾病診斷場景 , 為病人樣本進行聚類分組 , 最終結果是 $49%49\%$ 的概率分到得病的聚類分組 , $51%51\%$ 分到不得病的聚類分組 , 如果靠機器判定該病人樣本是否得病 , 風險太大了 , 這里保守的方法是計算機給出意見 , 但是不能下決定 , 讓醫生根據這個聚類和概率進行后續的診斷治療工作 ;

IV . 高斯混合分布

高斯混合分布概念 : 高斯混合模型數據集樣本服從高斯混合分布 ;

① 高斯分布 : 又叫正態分布 , 常態分布 ; 高斯分布曲線兩頭低 , 中間高 , 呈鐘形 , 又叫鐘形曲線 ;

② 高斯混合分布 : $k$ 個高斯分布生成高斯混合分布 , 這里的 $k$ 是聚類分組的個數 ;

V . 概率密度函數

概率密度函數 :

① 組件 ( 高斯分布 ) :每個高斯分布 , 都是一個組件 , 代表一個聚類分組中的樣本分布 ;

② 組件疊加 ( 高斯混合分布 ) : $k$ 個組件 ( 高斯分布 ) 線性疊加 , 組成了高斯混合模型的概率密度函數 ;

$\sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )$

$x$ 表示數據集樣本中的單個樣本數據對象 ;

$ωi\omega_i$ 是權重系數 , 表示某個高斯模型的重要程度, 重要的分布 , $ωi\omega_i$ 值大 , 不重要的分布 , $ωi\omega_i$ 權重小 ;

$ωi\omega_i$ 表示該 $x$ 樣本由第 $i$ 個高斯分布 ( 組件 ) 生成的概率 , 也就是該樣本被指派到某個聚類的概率 ; $i$ 代表了高斯分布的序號 , 聚類分組的序號 , 組件的序號, 其取值范圍是 $\, \leq i \leq \, k$ ;

$k$ 表示高斯分布 ( 正態分布 / 組件 ) 的個數 , 也是聚類分組的個數 , 每個聚類分組的樣本都是高斯分布 ( 正態分布 ) 的 ;

$\mu_i , \Sigma_i )$ 是高斯模型的概率密度函數 ;

$μi\mu_i$ 是高斯模型的均值 ;

$Σi\Sigma_i$ 是高斯模型的方差 ;

均值和方差唯一決定一個高斯模型 ( 正態分布 ) ;

VI . 高斯分布曲線 ( 僅做參考 )

高斯分布 : 高斯分布曲線是鐘形曲線 , 中間的 $μ\mu$ 是其樣本分布的均值 , 該值位置處的樣本數最多 , $σ\sigma$ 是其樣本的方差 , 這是 $1$ 個標準的高斯分布的模型 ;

高斯混合模型 : 下圖是多個高斯分布線性疊加后的曲線表示圖 , 僅做參考 ;

VII . 高斯混合模型參數簡介

1 . 模型與參數 : 高斯混合模型概率密度函數 :

$\sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )$

模型結構已知 , 即高斯混合模型 , 需要根據已知的數據樣本 , 學習出模型的參數 ;

2 . 高斯混合模型參數個數 :

① 聚類個數 ( 高斯模型個數 ) : 每個高斯混合模型都由 $k$ 個高斯模型 ( 組件 ) 線性疊加組成的 ;

② 高斯模型參數 : 每個高斯模型都有兩個參數 , 即均值 $μi\mu_i$ , 方差 $Σi\Sigma_i$ ;

③ 樣本屬于聚類分組概率 ( 系數 ) : 每個高斯模型還有一個系數參數 , $ωi\omega_i$ 表示該 $x$ 樣本由第 $i$ 個高斯分布 ( 組件 ) 生成的概率 , 也就是該樣本被指派到某個聚類的概率 ;

④ 每個高斯模型相關參數個數 : $k$ 個高斯模型 , 每個高斯模型有均值 $μi\mu_i$ , 方差 $Σi\Sigma_i$ , 生成概率 $ωi\omega_i$ 等 $3$ 個參數 ;

⑤ 高斯混合模型參數個數 : 整個高斯混合模型有 $\times k$ 個參數 , $k$ 是聚類分組個數 , 也是高斯模型個數 , 正態分布個數 ;

$Σi\Sigma_i$ 此處方差表示 , 是大寫的希臘字母 sigma $σ\sigma$ , 注意與加和符號 $∑\sum$ 區分 ;

K-Means 方法中 , 有 $k$ 個參數 , 每個聚類分組 , 只有一個參數 , 即中心點樣本參數 ;

總結

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【数据挖掘】K-Means 二维数据聚类
下一篇：【数据挖掘】高斯混合模型 ( 与 K-M