當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘】高斯混合模型 ( 与 K-Means 每个步骤对比 | 初始参数设置 | 计算概率 | 计算平均值参数 | 计算方差参数 | 计算高斯分布概率参数 | 算法终止条件 )

發布時間：2025/6/17 编程问答 26 豆豆

文章目錄

- - - I . 高斯混合模型 ( 樣本 -> 模型 )
    - II . 高斯混合模型 ( 模型 -> 樣本 )
    - III . 高斯混合模型與 K-Means 迭代過程對比
    - IV . 高斯混合模型聚類分析步驟 ( 1 ) 設置參數值
    - V . 高斯混合模型聚類分析步驟 ( 2 ) 計算概率
    - VI . 高斯混合模型參數分析 : $1$ 個樣本概率與 $k$ 個聚類分組
    - VII . 高斯混合模型參數分析 : $n$ 個樣本概率與 $1$ 個聚類分組
    - VIII . 高斯混合模型聚類分析步驟 ( 3 ) 更新參數平均值 $μi\mu_i$ 參數
    - IX . 高斯混合模型平均值 $μi\mu_i$ 參數的本質分析
    - X . 高斯混合模型聚類分析步驟 ( 3 ) 更新參數方差 $Σi\Sigma_i$ 參數
    - XI . 高斯混合模型聚類分析步驟 ( 3 ) 更新參數概率 $ωi\omega_i$ 參數
    - XII . 高斯混合模型聚類分析算法終止條件

I . 高斯混合模型 ( 樣本 -> 模型 )

根據數據訓練模型 : 目的是要得到高斯混合模型的參數值 ;

① 已知條件 : 給定數據集樣本 $n$ 個 , 將這些樣本分成 $k$ 個聚類分組 ;

② 最終目的 : 使用高斯混合模型 ( 參數未知 ) , 對這 $n$ 個樣本進行聚類分析 , 分析的過程就是確定高斯混合模型的 參數值 ;

③ 高斯分布參數 : 每個聚類分組的樣本都是符合高斯分布的 , 根據樣本可以得到其高斯分布的參數 , 均值 $μi\mu_i$ , 方差 $Σi\Sigma_i$ ;

④ 每個聚類分組的未知的參數 : 均值 $μi\mu_i$ , 方差 $Σi\Sigma_i$ , 生成概率 $ωi\omega_i$ ;

⑤ 未知參數總數 : 每個高斯分布 ( 聚類分組 ) 都有三個未知參數 , 整個高斯混合模型有 $\times k$ 個未知參數 ;

⑥ $ωi\omega_i$ 參數含義 : 第 $i$ 個樣本屬于某個聚類分組的概率 ;

如 : $ω3=0.7\omega_3 = 0.7$ , 第 $3$ 個樣本能分配到某個聚類分組 ( 高斯模型 ) 中的概率是 $70%70\%$ ;

II . 高斯混合模型 ( 模型 -> 樣本 )

根據模型生成數據 : 目的是要得到高斯混合模型中每個高斯模型 ( 聚類分組 ) 的多個樣本值 ;

① 已知條件 : 已知高斯混合模型 , 所有參數值 , 參數分組 $k$ 個 ;

② 已知的參數 : 高斯混合模型已知 , 高斯混合模型的所有的參數均值 $μi\mu_i$ , 方差 $Σi\Sigma_i$ , 生成概率 $ωi\omega_i$ , 都已知 , $\times k$ 個參數已知 ;

③ 生成單個高斯分布 ( 聚類分組 ) 的多個樣本數據 : 根據高斯分布函數 , 即知道其均值 $μi\mu_i$ , 方差 $Σi\Sigma_i$ 參數 , 可以生成該聚類分組的樣本 ;

④ 生成整個數據集 ( 多個高斯分布 / 聚類分組 ) : 根據高斯混合分布模型 , 生成 $k$ 個聚類分組的樣本 , 即所有的 $n$ 個數據 ;

⑤ $ωi\omega_i$ 參數含義 : 根據該聚類分組的高斯分布模型能正確生成該樣本 $i$ 的概率 ;

如 : $ω3=0.7\omega_3 = 0.7$ , 說明在某個聚類分組 , 使用高斯模型 , 該模型的均值 $μ3\mu_3$ , 方差 $Σ3\Sigma_3$ 參數已知 , 正確生成第 $3$ 個樣本的概率是 $70%70\%$

III . 高斯混合模型與 K-Means 迭代過程對比

1 . 初始設定 : $k$ 個中心點 ( K-Means ) , $k$ 組參數 ( 高斯混合模型 ) ;

① K-Means 初始化中心點 : 第一次迭代時 , 需要指定初始的 $k$ 個聚類的中心點 ;

② 高斯混合模型初始化參數 : 第一次迭代時 , 需要指定初始的 $k$ 組參數 , 均值 $μi\mu_i$ , 方差 $Σi\Sigma_i$ , 生成概率 $ωi\omega_i$ , 共有 $\times k$ 個 ;

2 . 聚類依據計算 : 距離 ( K-Means ) , 概率 ( 高斯混合模型 ) ;

① K-Means 計算距離 : 計算每個樣本與每個中心點的距離 , 樣本個數有 $n$ 個 , 中心點個數 ( 聚類個數 ) 有 $k$ 個 , 總共需要計算 $\times k$ 個距離 ;

② 高斯混合模型計算概率 : 計算每個樣本屬于每個聚類分組的概率 , 樣本個數有 $n$ 個 , 聚類有 $k$ 個 , 總共需要計算 $\times k$ 個概率 ;

3 . 聚類分組 :

① K-Means 根據距離分組 : 每個樣本都有與 $k$ 個中心點的距離 , 取距離最小的那個中心點 , 將該樣本分到該中心點對應的聚類分組中 ;

② 高斯混合模型聚類概率 : 這里不需要分組 , 每個樣本都有一組屬于 $k$ 個分組的概率值 ; 每個樣本都屬于所有的聚類分組 , 但是概率大小不一樣 , 如 , $99%99\%$ 概率屬于聚類 $1$ , $1%1\%$ 概率屬于聚類 $2$ , $0%0\%$ 概率屬于其它聚類 ;

4 . 硬指派與軟指派 : K-Means 屬于硬指派 , 必須為樣本指派一個聚類分組 ; 高斯混合模型屬于軟指派 , 每個樣本都屬于所有的聚類分組 , 只是概率大小不同 ;

IV . 高斯混合模型聚類分析步驟 ( 1 ) 設置參數值

參數初始值設置 :

① 初始狀態 ( 第一次迭代 ) : 先給出 $k$ 組參數的初始值 , 每組參數由概率 $ωi\omega_i$ , 均值 $μi\mu_i$ , 方差 $Σi\Sigma_i$ 組成 , 參數個數是 $\times k$ 個 ;

① 更新參數值 ( 非第一次迭代 ) : 根據步驟 ( 2 ) 計算的 $\times k$ 個概率 , 更新 $k$ 組參數 , 每組參數由概率 $ωi\omega_i$ , 均值 $μi\mu_i$ , 方差 $Σi\Sigma_i$ 組成 , 參數個數是 $\times k$ 個 ;

② 聚類分組個數 : $k$ 指的是聚類分組的個數 ;

③ 概率 $ωi\omega_i$ 參數 : 指樣本屬于某組聚類的概率 ;

④ 均值 $μi\mu_i$ 參數 : 指的是某組聚類分組的樣本高斯分布 ( 正態分布 ) 的均值參數 ;

⑤ 方差 $Σi\Sigma_i$ 參數 : 指的是某組聚類分組的樣本高斯分布 ( 正態分布 ) 的方差參數 ;

V . 高斯混合模型聚類分析步驟 ( 2 ) 計算概率

計算概率 :

數據集和分組情況 : 數據集有 $n$ 個對象 , 將這 $n$ 個對象分成 $k$ 個聚類分組 ;

計算的概率 : 這里需要計算每個對象 $xj(1≤j≤n)x_j \, (1 \leq j \leq n)$ 屬于每個聚類 $Ci(1≤i≤k)C_i \, (1 \leq i \leq k)$ 的概率 , 需要計算 $\times k$ 次概率 ;

概率說明 : $xj(1≤j≤n)x_j \, (1 \leq j \leq n)$ 屬于聚類 $Ci(1≤i≤k)C_i \, (1 \leq i \leq k)$ 的概率 , 反過來說 , 就是 $x_j$ 樣本對象由 $C_i$ 聚類分組對應的高斯分布生成的概率 ;

計算公式 :

$p(xi∈Ci)=ωig(x∣μi,Σi)∑i=1kωig(x∣μi,Σi)p(x_i \in C_i) = \dfrac{\omega_i g ( x | \mu_i , \Sigma_i )}{ \sum_{i=1}^{k} \, \omega_i g ( x | \mu_i , \Sigma_i ) }$

VI . 高斯混合模型參數分析 : $1$ 個樣本概率與 $k$ 個聚類分組

1 . 數據集及聚類情況 :

① 樣本個數 : 有 $n$ 個樣本 , 第 $i$ 個樣本記做 $X_i$ , 其中 $\leq i \leq n$ ;

② 聚類個數 : 分成 $k$ 個聚類分組 , 第 $j$ 個聚類 ( Cluster ) 記做 $C_j$ , 其中 $\leq i \leq k$ ;

2 . 單個樣本概率與 $k$ 個聚類分組分析 :

某個樣本 $X_i$ 屬于 $k$ 個聚類分組的概率之和加起來等于 $1$ ;

$n$ 個樣本屬于 $k$ 個聚類分組的概率之和加起來等于 $n$ ;

引入參數 $n_i$ , 表示所有的樣本屬于第 $i$ 個聚類分組 ( 高斯分布 ) 的概率之和 ;

該值可以看做該高斯分布 ( 聚類分組 ) 對生成整個數據集 $n$ 個對象所做出的的貢獻 ;

所有的樣本屬于第 $1$ 個聚類的概率是 $n_1$ , $?\cdots$ , 所有的樣本屬于第 $k$ 個聚類的概率是 $n_k$ , 此時
$n1+n2+?+nk=nn_1 + n_2 + \cdots + n_k = n$

VII . 高斯混合模型參數分析 : $n$ 個樣本概率與 $1$ 個聚類分組

1 . 數據集及聚類情況 :

① 樣本個數 : 有 $n$ 個樣本 , 第 $i$ 個樣本記做 $X_i$ , 其中 $\leq i \leq n$ ;

② 聚類個數 : 分成 $k$ 個聚類分組 , 第 $j$ 個聚類 ( Cluster ) 記做 $C_j$ , 其中 $\leq i \leq k$ ;

2 . 分析第 $i$ 個高斯分布 ( 聚類分組 ) 的參數 :

上一步使用如下公式 , 計算出了每個樣本屬于每個高斯分布 ( 聚類分組 ) 的概率 , $p(xi∈Ci)p(x_i \in C_i)$ ;

$p(xi∈Ci)=ωig(x∣μi,Σi)∑i=1kωig(x∣μi,Σi)p(x_i \in C_i) = \dfrac{\omega_i g ( x | \mu_i , \Sigma_i )}{ \sum_{i=1}^{k} \, \omega_i g ( x | \mu_i , \Sigma_i ) }$

第 $i$ 個高斯分布生成 $x_j$ 值的概率是 $p(xj∈Ci)p(x_j \in C_i)$ , 即該高斯分布生成的與 $x_j$ 相關的值是 $p(xj∈Ci)×xjp(x_j \in C_i) \times x_j$ ;

3 . 同時考慮 $n$ 個數據樣本 :

第 $i$ 個高斯分布生成了 $x_1$ 的概率是 $p(x1∈Ci)p(x_1 \in C_i)$ , 該高斯分布生成了與 $x_1$ 相關的值是 $p(x1∈Ci)×x1p(x_1 \in C_i) \times x_1$ ;

第 $i$ 個高斯分布生成了 $x_2$ 的概率是 $p(x2∈Ci)p(x_2 \in C_i)$ , 該高斯分布生成了與 $x_2$ 相關的值是 $p(x2∈Ci)×x2p(x_2 \in C_i) \times x_2$ ;

$?\vdots$

第 $i$ 個高斯分布生成了 $x_n$ 的概率是 $p(xn∈Ci)p(x_n \in C_i)$ , 該高斯分布生成了與 $x_n$ 相關的值是 $p(xn∈Ci)×xnp(x_n \in C_i) \times x_n$ ;

4 . 引入參數值 $n_i$ :

總結上面的第 $i$ 個高斯分布的生成樣本的情況 : 第 $i$ 個高斯分布生成了 $p(x1∈Ci)×x1p(x_1 \in C_i) \times x_1$ , $p(x2∈Ci)×x2p(x_2 \in C_i) \times x_2$ , $?\cdots$ , $p(xn∈Ci)×xnp(x_n \in C_i) \times x_n$ , 這些樣本點 ;

將第 $i$ 個高斯分布生成樣本的概率相加 , 即將 $p(x1∈Ci)p(x_1 \in C_i)$ , $p(x2∈Ci)p(x_2 \in C_i)$ , $?\cdots$ , $p(xn∈Ci)p(x_n \in C_i)$ 相加 ;

引入參數值 $n_i$ : 該值可以看做該高斯分布 ( 聚類分組 ) 對生成整個數據集 $n$ 個對象所做出的的貢獻的概率 ;

$ni=∑j=inp(xj∈Ci)n_i = \sum_{j=i}^{n} \, p \, ( x_j \in C_i )$

VIII . 高斯混合模型聚類分析步驟 ( 3 ) 更新參數平均值 $μi\mu_i$ 參數

均值 $μi\mu_i$ 參數計算公式 : 指的是某組聚類分組的樣本高斯分布 ( 正態分布 ) 的均值參數 ;

$μi=1ni∑j=1np(xj∈Ci)xj\mu_i = \frac{1}{n_i} \sum_{j=1} ^n p(x_j \in C_i) x_j$

$p(xj∈Ci)xjp(x_j \in C_i) x_j$ 是第 $i$ 個高斯分布 , 也是第 $i$ 個聚類分組 $C_i$ , 生成 $x_j$ 樣本所做的的貢獻 ;

$∑j=1np(xj∈Ci)xj\sum_{j=1} ^n p(x_j \in C_i) x_j$ 是第 $i$ 個高斯分布 , 也是第 $i$ 個聚類分組 $C_i$ , 生成所有的 $n$ 個樣本整體數據集 $x1,x2,?,xn{x_1 , x_2 , \cdots , x_n}$ 的總貢獻 ;

引入參數值 $n_i$ : $n_i$ 值可以看做該高斯分布 ( 聚類分組 ) 對生成整個數據集 $n$ 個對象所做出的的貢獻的概率 ;

第 $i$ 個高斯分布對生成 $n$ 個樣本的總貢獻除以 $n_i$ 概率 , 就是該高斯分布生成 $n$ 個樣本的貢獻的均值 ;

IX . 高斯混合模型平均值 $μi\mu_i$ 參數的本質分析

均值計算的理解 :

$μi=1ni∑j=1np(xj∈Ci)xj\mu_i = \frac{1}{n_i} \sum_{j=1} ^n p(x_j \in C_i) x_j$

$p(xj∈Ci)xjp(x_j \in C_i) x_j$ 是概率值乘以 $x_j$ ,

$ni=∑j=inp(xj∈Ci)n_i = \sum_{j=i}^{n} \, p \, ( x_j \in C_i )$ , 是本高斯分布 ( 聚類中 ) 生成所有樣本的概率之和 ;

假如所有樣本值生成的概率都是 $100%100\%$ , 那么此時的公式就是 :

$μi=1n×100%∑j=1n100%×xj\mu_i = \frac{1}{n \times 100\%} \sum_{j=1} ^n \, 100\% \times x_j$

上面的就是一個普通的求平均值的公式 , 每個值前面都乘以 $1$ , 概率都是 $100%100\%$ , $n$ 個值相加 , 然后再除以 $n$ , 可以看做 $n$ 個 $100$ 相加 , 即 $n$ 個 $1$ 相加 , 還是 $n$ , 這就是普通的平均值公式 ;

實際上所有樣本值生成的概率不確定 , 區范圍 $0%0\%$ 到 $100%100\%$ , 那么此時的公式就是 :

$μi=1ni∑j=1np(xj∈Ci)×xj\mu_i = \frac{1}{n_i} \sum_{j=1} ^n \, p(x_j \in C_i) \times x_j$

該公式與上面 $100%100\%$ 公式的區別是 , 使用 $p(xj∈Ci)p(x_j \in C_i)$ 替換了每個樣本的生成概率 $100%100\%$ 值 , 使用 $ni=∑j=inp(xj∈Ci)n_i = \sum_{j=i}^{n} \, p \, ( x_j \in C_i )$ 替換了所有樣本生成的概率之和 , 即 $n$ 個 $100$ 相加的和 $n$ ;

該公式的本質還是求平均值 ;

X . 高斯混合模型聚類分析步驟 ( 3 ) 更新參數方差 $Σi\Sigma_i$ 參數

方差 $Σi\Sigma_i$ 參數計算公式 : 指的是某組聚類分組的樣本高斯分布 ( 正態分布 ) 的方差參數 ;

$μi=1ni∑j=1np(xj∈Ci)(xj?μi)(xj?μi)T\mu_i = \frac{1}{n_i} \sum_{j=1} ^n p(x_j \in C_i) \, ( x_j - \mu_i ) ( x_j - \mu_i ) ^T$

根據上面的本質分析邏輯 , 此處求方差 , 是在普通的方差基礎上 , 增加了不同概率 ;

普通方差公式 : 每個值都是 $100%100\%$ 概率取值 ;

$μi=1n∑j=1n100%×(xj?μi)(xj?μi)T\mu_i = \frac{1}{n} \sum_{j=1} ^n 100\% \times ( x_j - \mu_i ) ( x_j - \mu_i ) ^T$

使用 $p(xj∈Ci)p(x_j \in C_i)$ 代替上面的 $100%100\%$ 概率 , 就是方差參數的計算公式 ;

XI . 高斯混合模型聚類分析步驟 ( 3 ) 更新參數概率 $ωi\omega_i$ 參數

概率 $ωi\omega_i$ 參數計算公式 : 指樣本屬于某組聚類的概率 ;

$ωi=nin\omega_i = \frac{n_i}{n}$

$n_i$ 是每個高斯分布 ( 聚類分組 ) 對生成整個數據集所做的貢獻 ;

$n$ 是所有的高斯分布生成所有的數據集數據的總體貢獻 ;

XII . 高斯混合模型聚類分析算法終止條件

1 . 繼續迭代 : 將參數值帶入如下評分函數 (似然函數 ) , 如果評分函數值發生了改變 , 那么繼續迭代 , 更新 $3 k$ 個參數值 , 計算每個樣本屬于每個分組的 $\times n$ 個概率 ;

2 . 似然函數 : 高斯混合模型中 , 采用似然函數 , 作為評分函數 ;

$\prod_{j = 1} ^ n p(x_j)$

$∏\prod$ 是多個乘積 , 與 $∑\sum$ 多個加和性質類似 ;

$n$ 表示數據集中樣本個數 ;

$x_j$ 表示數據樣本對象 , 被聚類的樣本點 ;

$p(x_j)$ 表示高斯混合模型中 , $x_j$ 生成的概率 , 也就是 $x_j$ 被分為某個聚類分組的概率 ;

3 . 高斯混合模型聚類分析算法終止條件 : 當計算出的 $k$ 組概率 $ωi\omega_i$ , 均值 $μi\mu_i$ , 方差 $Σi\Sigma_i$ 參數值 , 與上一次基本一致時 , 就可以停止進行聚類分析了 ; 即將參數值帶入如下評分函數 (似然函數 ) , 如果評分函數值不再改變 , 那么說明可以終止迭代了 ;

總結

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【数据挖掘】高斯混合模型 ( 模型简介
下一篇：【数据挖掘】基于密度的聚类方法 - DB

编程问答

【数据挖掘】高斯混合模型 ( 与 K-Means 每个步骤对比 | 初始参数设置 | 计算概率 | 计算平均值参数 | 计算方差参数 | 计算高斯分布概率参数 | 算法终止条件 )

文章目錄

I . 高斯混合模型 ( 樣本 -> 模型 )

II . 高斯混合模型 ( 模型 -> 樣本 )

III . 高斯混合模型 與 K-Means 迭代過程對比

IV . 高斯混合模型 聚類分析 步驟 ( 1 ) 設置參數值

V . 高斯混合模型 聚類分析 步驟 ( 2 ) 計算概率

VI . 高斯混合模型 參數分析 : 111 個樣本概率 與 kkk 個聚類分組

VII . 高斯混合模型 參數分析 : nnn 個樣本概率 與 111 個聚類分組

VIII . 高斯混合模型 聚類分析 步驟 ( 3 ) 更新參數 平均值 μi\mu_iμi? 參數

IX . 高斯混合模型 平均值 μi\mu_iμi? 參數 的本質分析

X . 高斯混合模型 聚類分析 步驟 ( 3 ) 更新參數 方差 Σi\Sigma_iΣi? 參數

XI . 高斯混合模型 聚類分析 步驟 ( 3 ) 更新參數 概率 ωi\omega_iωi? 參數

XII . 高斯混合模型 聚類分析 算法終止條件

總結