當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

聚类和EM算法——K均值聚类

發(fā)布時間：2023/11/28 生活经验 30 豆豆

生活随笔收集整理的這篇文章主要介紹了聚类和EM算法——K均值聚类小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

20211116

數(shù)據(jù)分析 | 聚類分析--kmean

kmeans最優(yōu)k值的確定方法-手肘法和輪廓系數(shù)法 - 簡書

python大戰(zhàn)機器學習——聚類和EM算法

　　注：本文中涉及到的公式一律省略（公式不好敲出來），若想了解公式的具體實現(xiàn)，請參考原著。

1、基本概念

　　（1）聚類的思想：

　　　　將數(shù)據(jù)集劃分為若干個不想交的子集（稱為一個簇cluster），每個簇潛在地對應于某一個概念。但是每個簇所具有現(xiàn)實意義由使用者自己決定，聚類算法僅僅會進行劃分。

　　（2）聚類的作用：

　　　　1）可以作為一個單獨的過程，用于尋找數(shù)據(jù)的一個分布規(guī)律

　　　　2）作為分類的預處理過程。首先對分類數(shù)據(jù)進行聚類處理，然后在聚類結果的每一個簇上執(zhí)行分類過程。

　　（3）聚類的性能度量：

　　　　1）外部指標：該指標是由聚類結果與某個參考模型進行比較而獲得的。這些外部指標性能度量的結果都在[0,1]之間，這些值越大，說明聚類的性能越好。

　　　　　　Jaccard系數(shù)：它刻畫了所有屬于同一類的樣本對同時在C和C*中隸屬于同一類的樣本對的概率 ?JC=a/(a+b+c)

　　　　　　FM指數(shù)：它刻畫了在C中屬于同一類的樣本對中，同時屬于C*的樣本對的比例為p1；在C*中屬于同一類的樣本對中，同時屬于C的樣本對比例為p2,FMI ? ? ? ? ? ? ?　就是p1和p2的幾何平均 ?FMI=sqrt((a/(a+b))*(a/(a+c)))

　　　　　　Rand指數(shù)：它刻畫的是同時隸屬于C，C*的樣本對于既不隸屬于C，又不隸屬于C*的樣本對之和占所有樣本對的比例 ?RI=2*（a+d）/(N*(N-1))

　　　　　　ARI指數(shù)：對于隨機聚類，RI指數(shù)不保證接近0。而ARI指數(shù)就可通過利用個隨機聚類情況下的RI（即E[RI]）來解決這個問題。

　　　　2）內(nèi)部指標：該指標直接由考察聚類結果而得到的，并不利用任何參考模型

　　　　　　DB指數(shù)：它刻畫的是，給定兩個簇，每個簇樣本之間平均值之和比上兩個簇的中心點之間的距離作為作為度量。然后考察該度量對所有簇的平均值。顯 ? ? ? ? ? ? ? ? 然DBI越小越好。如果每個簇樣本之間的平均值越小（即簇內(nèi)樣本距離都很近），則DBI越小；如果簇間中心點的距離越大（即簇間樣本距離相互越遠），則 ? ? ? ? ? ? ? ? DBI越小

　　　　　　Dunn指數(shù)：它刻畫的是任意兩個簇之間最近的距離的最小值，除以任意一個簇內(nèi)距離最遠的兩個點的距離的最大值。DI越大越好。　　　　　　

?　　（4）距離度量：

　　　　1）閔可夫斯基距離?

　　　　2）VDM距離：它刻畫的是屬性取值在各簇上的頻率分布之間的差異（當屬性取值為非數(shù)值類時）

　　通過高斯分布，隨機生成聚類簇的樣本數(shù)據(jù)，代碼如下：

?View Code

　　結果如下：

2、k均值算法

　　輸入：樣本集D，聚類簇數(shù)K

　　輸出：簇劃分C

　　算法步驟：

　　　　1）從D中隨機選擇K個樣本作為初始簇均值向量u

　　　　2）重復迭代直到算法收斂（迭代內(nèi)容參考書中內(nèi)容）

　　注：K均值算法總能夠收斂，但是其收斂情況高度依賴于初始化的均值，有可能收斂到局部極小值。因此通常都是用多組初始均值向量來計算若干次，選擇其中最優(yōu)的一次。而k-means++策略選擇的初始均值向量可以在一定程度上解決這個問題。

　　實驗代碼一：

?View Code

　　實驗結果一：

　　其中ARI指標越大越好

　　實驗代碼二：

?View Code

　　實驗結果二：

　　該結果顯示了聚類簇的數(shù)目對ARI和inertial_的影響

3、高斯混合聚類

　　其通過概率模型來表示聚類原型。若已知高斯混合分布，則高斯混合聚類的原理是：如果樣本xi最優(yōu)可能是Z=k產(chǎn)生的，則可將該樣本劃歸到簇Ck。即通過最大后驗概率確定樣本所屬的聚類。現(xiàn)在的問題是，如何學習高斯混合分布的參數(shù)。由于涉及隱變量Z，故可以采用EM算法求解。

　　輸入：觀察數(shù)據(jù)D，高斯混合成分個數(shù)K

　　輸出：高斯混合模型參數(shù)

　　算法步驟：

　　　　1）取參數(shù)的初始值

　　　　2）迭代直至算法收斂。迭代過程如下：

　　　　　　E步：根據(jù)當前模型參數(shù)，計算分模型k對觀測數(shù)據(jù)xj的響應度：Υjk

　　　　　　M步：計算新一輪迭代的模型參數(shù)：uk<i+1>,Σk<i+1>，αk<i+1>

　　實驗代碼：

?View Code

　　實驗結果：

　　奇怪的是這里所得到的結果與所想并不一致，和書中給的結果也不相同，但不知道原因在哪。

4、密度聚類

　　其假設聚類結構能夠通過樣本分布的緊密程度來確定。DBSCAN是常用的密度聚類算法

　　DBSCAN算法的定義：給定領域參數(shù)（ε，MinPts），一個簇C∈D是滿足下列性質(zhì)的非空樣本子集：1）最大連接性 ?2）最大性 ? ? 即一個簇是由密度可達關系導出的最大的密度相連樣本集合

　　DBSCAN算法的思想：若x為核心對象，則x密度可達的所有樣本組成的集合記作X，可以證明X就是滿足連接性與最大性的簇。

?　　輸入：數(shù)據(jù)集D，領域參數(shù)（ε，MinPts）

　　輸出：簇劃分C

　　算法步驟：

　　　　1）初始化核心對象集合為空集

　　　　2）尋找核心對象

　　　　3）迭代：以任一未訪問過的核心對象為出發(fā)點，找出有密度可達的樣本生成的聚類簇，直到所有核心對象都被訪問為止

　　實驗代碼：

?View Code

　　實驗結果：

5、層次聚類

　　其可在不用層上對數(shù)據(jù)集進行劃分，形成樹狀的聚類結構。AGNES是一種常用的層次聚類算法

　　AGNES算法原理：AGNES首先將數(shù)據(jù)集中的每個樣本看作一個初始的聚類簇，然后再不斷地找出距離最近的兩個聚類簇進行合并。就這樣不斷地合并直到達到預設的聚類簇的個數(shù)。

　　依據(jù)選擇不同的距離計算方式，算法名不同。

　　輸入：數(shù)據(jù)集D，聚類簇距離度量函數(shù)d，聚類簇數(shù)量K

　　輸出：簇劃分C

　　算法步驟：

　　　　1）初始化：每個樣本都作為一個簇

　　　　2）迭代：終止條件為聚類簇的數(shù)量K（計算聚類簇之間的距離，找出距離最近的兩個簇，將這兩個簇合并）

　　代碼如下：

?View Code

　　實驗結果：

　　可以看到，三種鏈接方式隨分類簇的數(shù)量的總體趨勢相差無幾。但是單鏈接方式ward的峰值最大，且峰值最大的分類簇的數(shù)量剛好等于實際上生成樣本的簇的數(shù)量

6、EM算法

　　也稱為期望極大算法，它是一種迭代算法，用于含有隱變量的概率模型參數(shù)估計。

　　輸入：觀測變量數(shù)據(jù)Y，隱變量數(shù)據(jù)Z，聯(lián)合分布P（Y，Z；θ），條件分布P（Z|Y；θ）　　　　

　　輸出：模型參數(shù)θ

　　算法步驟：

　　　　1）選擇參數(shù)的初值θ0

　　　　2）反復迭代直到收斂

　　注：1）EM算法的收斂性蘊含了兩層意義：對數(shù)似然函數(shù)序列L（θi）收斂；參數(shù)估計序列θi收斂。前者并不蘊含后者。

　　　　2）EM算法的初值的選擇非常重要，常用的辦法是給出一批初值，然后分別從每個初值開始使用EM算法。最后對得到的各個估計值加以比較，從中選擇對數(shù)似然函數(shù)最大的那個。

7、實際中的聚類要求

　　（1）可伸縮性

　　（2）不同類型屬性的處理能力

　　（3）發(fā)現(xiàn)任意形狀的類簇

　　（4）初始化參數(shù)

　　（5）算法的抗噪能力

　　（6）增量聚類和對輸入次序的敏感度

　　（7）高維處理能力

　　（8）結果的可解釋性和可用性

8、各種聚類算法的使用情況對比

模型	關鍵參數(shù)	使用場景
K均值算法	簇的數(shù)量	通用聚類方法，用于均勻的簇的大小，簇的數(shù)量不多的情況
DBSCAN	ε，MinPts	用于不均勻的簇大小，以及非平坦的集合結構
AgglometativeClustering算法	簇的數(shù)量，鏈接類型	用于簇的數(shù)量較多，有鏈接約束等情況
GMM算法	一些	用于平坦的集合結構，對密度估計很合適

　　在實際應用中，聚類簇的數(shù)量的選取通常結合性能度量指標和具體問題分析。

總結

以上是生活随笔為你收集整理的聚类和EM算法——K均值聚类的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：从底层吃透java内存模型（JMM）、v
下一篇： Python机器学习——DBSCAN聚类