【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )
文章目錄
- I . 高斯混合模型方法 ( GMM )
- II . 硬聚類 與 軟聚類
- III . GMM 聚類結果概率的作用
- IV . 高斯混合分布
- V . 概率密度函數
- VI . 高斯分布 曲線 ( 僅做參考 )
- VII . 高斯混合模型 參數簡介
I . 高斯混合模型方法 ( GMM )
1 . 高斯混合模型 與 K-Means 相同點 : 高斯混合模型方法 與 K-Means 方法 , 都是通過多次迭代 , 每次迭代都對聚類結果進行改進 , 最終達到算法收斂 , 聚類分組結果達到最優 ;
2 . 高斯混合模型 與 K-Means 不同點 :
① K-Means 方法 : 使用 K-Means 方法的 聚類結果是 某個樣本 被指定到 某個聚類分組中 ;
② 高斯混合模型 : 高斯混合模型的聚類分析結果是 , 某個樣本 被分到了 某個聚類分組 中 , 但是除此之外還給出了 該樣本 屬于 該聚類 的 概率 , 意思是 該樣本 并不是 一定屬于該聚類 , 而是有一定幾率屬于 ;
③ 高斯混合模型 應用場景 : 高斯混合模型 需要訓練學習出 概率密度函數 , 該方法除了用于 聚類分析 外 , 還可以用于 密度估計 等用途 ;
II . 硬聚類 與 軟聚類
硬聚類 與 軟聚類 :
① 硬聚類 (硬指派 ) : K-Means 方法中 , 每個數據集樣本 , 都被指派了一個聚類分組 ;
② 軟聚類 ( 軟指派 ) : 高斯混合模型方法中 , 每個數據集樣本 , 也都被指派了一個聚類分組 , 此外還指定了該樣本屬于該聚類分組的概率 , 即該樣本不一定屬于該聚類分組 , 有一定幾率屬于其他聚類分組 ;
③ 硬指派概率 : 硬指派中 , 樣本如果屬于某個聚類分組 , 就是 100% 屬于 , 如果不屬于某聚類 , 就是 0% 屬于 , 沒有概率的概念 ;
III . GMM 聚類結果概率的作用
1 . 概率信息 : 高斯混合模型 方法 的 聚類結果 附帶 樣本 屬于 聚類 的 概率 , 其包含的信息量 遠遠高于 K-Means 方法的 單純的樣本聚類分組 ;
2 . 聚類概率 : 聚類算法并不是萬能的 , 不能保證 100% 準確 , 這里可以將 高斯混合模型 樣本 的 聚類分組 概率值 , 轉為一個評分 , 用該評分表示 聚類結果 的準確性 ;
3 . 評分作用 : 同一個聚類分析 , 使用不同的方法 , 得到 多個結果 , 每個結果都有 聚類概率 轉化的一個評分 , 可以將 聚類結果評分 最高的那個結果 當做 最終結果 ;
4 . 示例 : 疾病診斷場景 , 為病人樣本進行聚類分組 , 最終結果是 49%49\%49% 的概率分到得病的聚類分組 , 51%51\%51% 分到不得病的聚類分組 , 如果靠機器判定該病人樣本是否得病 , 風險太大了 , 這里保守的方法是計算機給出意見 , 但是不能下決定 , 讓醫生根據這個 聚類 和 概率 進行后續的診斷治療工作 ;
IV . 高斯混合分布
高斯混合分布 概念 : 高斯混合模型 數據集樣本 服從 高斯混合分布 ;
① 高斯分布 : 又叫 正態分布 , 常態分布 ; 高斯分布曲線兩頭低 , 中間高 , 呈鐘形 , 又叫鐘形曲線 ;
② 高斯混合分布 : kkk 個高斯分布 生成 高斯混合分布 , 這里的 kkk 是聚類分組的個數 ;
V . 概率密度函數
概率密度函數 :
① 組件 ( 高斯分布 ) :每個高斯分布 , 都是一個組件 , 代表一個聚類分組中的樣本分布 ;
② 組件疊加 ( 高斯混合分布 ) : kkk 個組件 ( 高斯分布 ) 線性疊加 , 組成了 高斯混合模型的 概率密度函數 ;
p(x)=∑i=1kωig(x∣μi,Σi)p(x) = \sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )p(x)=i=1∑k?ωi?g(x∣μi?,Σi?)
xxx 表示數據集樣本中的 單個樣本數據對象 ;
ωi\omega_iωi? 是權重系數 , 表示某個 高斯模型 的重要程度, 重要的分布 , ωi\omega_iωi? 值大 , 不重要的分布 , ωi\omega_iωi? 權重小 ;
ωi\omega_iωi? 表示該 xxx 樣本由第 iii 個 高斯分布 ( 組件 ) 生成的概率 , 也就是 該樣本被指派到某個聚類的概率 ; iii 代表了高斯分布的序號 , 聚類分組的序號 , 組件的序號, 其取值范圍是 0≤i≤k0 \, \leq i \leq \, k0≤i≤k ;
kkk 表示 高斯分布 ( 正態分布 / 組件 ) 的個數 , 也是聚類分組的個數 , 每個聚類分組的樣本都是 高斯分布 ( 正態分布 ) 的 ;
g(x∣μi,Σi)g ( x | \mu_i , \Sigma_i )g(x∣μi?,Σi?) 是高斯模型 的概率密度函數 ;
μi\mu_iμi? 是 高斯模型 的 均值 ;
Σi\Sigma_iΣi? 是高斯模型的 方差 ;
均值和方差唯一決定一個高斯模型 ( 正態分布 ) ;
VI . 高斯分布 曲線 ( 僅做參考 )
高斯分布 : 高斯分布曲線是鐘形曲線 , 中間的 μ\muμ 是其 樣本分布的 均值 , 該值位置處的樣本數最多 , σ\sigmaσ 是其樣本的方差 , 這是 111 個標準的高斯分布的模型 ;
高斯混合模型 : 下圖是 多個 高斯分布 線性疊加后的 曲線表示圖 , 僅做參考 ;
VII . 高斯混合模型 參數簡介
1 . 模型 與 參數 : 高斯混合模型 概率密度函數 :
p(x)=∑i=1kωig(x∣μi,Σi)p(x) = \sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )p(x)=i=1∑k?ωi?g(x∣μi?,Σi?)
模型結構已知 , 即 高斯混合模型 , 需要根據已知的數據樣本 , 學習出模型的參數 ;
2 . 高斯混合模型 參數個數 :
① 聚類個數 ( 高斯模型個數 ) : 每個高斯混合模型 都由 kkk 個高斯模型 ( 組件 ) 線性疊加組成的 ;
② 高斯模型參數 : 每個高斯模型 都有兩個參數 , 即 均值 μi\mu_iμi? , 方差 Σi\Sigma_iΣi? ;
③ 樣本屬于聚類分組概率 ( 系數 ) : 每個高斯模型 還有一個系數參數 , ωi\omega_iωi? 表示該 xxx 樣本由第 iii 個 高斯分布 ( 組件 ) 生成的概率 , 也就是 該樣本被指派到某個聚類的概率 ;
④ 每個高斯模型相關參數個數 : kkk 個 高斯模型 , 每個高斯模型有 均值 μi\mu_iμi? , 方差 Σi\Sigma_iΣi? , 生成概率 ωi\omega_iωi? 等 333個參數 ;
⑤ 高斯混合模型參數個數 : 整個 高斯混合模型 有 3×k3 \times k3×k 個參數 , kkk 是聚類分組個數 , 也是高斯模型個數 , 正態分布個數 ;
Σi\Sigma_iΣi? 此處方差表示 , 是大寫的希臘字母 sigma σ\sigmaσ , 注意與加和符號 ∑\sum∑ 區分 ;
K-Means 方法中 , 有 kkk 個參數 , 每個聚類分組 , 只有一個參數 , 即中心點樣本參數 ;
總結
以上是生活随笔為你收集整理的【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘】K-Means 二维数据聚类
- 下一篇: 【数据挖掘】高斯混合模型 ( 与 K-M