k-Means——经典聚类算法实验(Matlab实现)
聚類算法—k-Means實驗
k-平均(k-Means),也被稱為k-均值,是一種得到最廣泛使用的聚類算法[1]. k-Means算法以k為參數,把n個對象分為k個簇,使得簇內具有較高的相似度。
實驗目的
聚類算法的主要思想
主要思想
給定一個有n個對象的數據集,劃分聚類技術將構造數據k個劃分,每一個劃分就代表一個簇,k≤nk\le nk≤n. 每一個簇至少包含一個對象,每一個對象屬于且僅屬于一個簇。
對于給定的k,算法首先給出一個初始的劃分方法,以后通過反復迭代的方法改變劃分,使得每一次改進之后的劃分較前一次更好。
評價函數
更好的標準是:同一簇中的對象越接近越好,而不同簇中的對象越遠越好,目標是最小化所有對象與其簇中心之間相異度之和。
各個簇應該是緊湊的,各個簇間的距離應當盡可能遠。因此,用聚類C的類內差異(Within cluster variation)w(C)w(C)w(C) 和類間差異(Between cluster variation)b(C)b(C)b(C) 分別衡量上述兩要求。
w(C)=∑i=1kw(Ci)=∑i=1k∑x∈Cid(x,xi ̄)2w(C)=\sum_{i=1}^{k}w(C_i)=\sum_{i=1}^{k}\sum_{x\in C_i}d(x,\overline{x_i})^2w(C)=i=1∑k?w(Ci?)=i=1∑k?x∈Ci?∑?d(x,xi??)2
b(C)=∑1≤j≤i≤kd(xj ̄,xi ̄)2b(C)=\sum_{1\le j\le i\le k}d(\overline{x_j},\overline{x_i})^2b(C)=1≤j≤i≤k∑?d(xj??,xi??)2
其中,xi ̄\overline{x_i}xi?? 是類 CiC_iCi? 的聚類中心,d 為距離函數。聚類C的總體質量可以被定義為 b(C)w(C)\frac{b(C)}{w(C)}w(C)b(C)?.
k-Means算法原理
k-Means算法用類內均值作為聚類中心、用歐氏距離定義d,并使上述 w(C)w(C)w(C) 最小化。
優化目標
arg?max?C∑i=1k∑x∈Ci∥x?xi ̄∥2\mathop{\arg\max}\limits_{C} \sum_{i=1}^k \sum_{x\in C_i} \parallel x-\overline{x_i}\parallel ^2Cargmax?i=1∑k?x∈Ci?∑?∥x?xi??∥2
表示選取合適的C使得所有對象的平方誤差總和最小,其中x是空間中的點,xi ̄\overline{x_i}xi?? 是簇 CiC_iCi? 的平均值,這個優化目標可以保證生成的結果簇盡可能的緊湊和獨立。
算法描述
首先隨機選擇k個對象,每個對象初始地代表了一個簇的平均值或中心。對剩余的每個對象根據其與各個簇中心的距離,將它賦給最近的簇。然后重新計算每個簇的平均值。這個過程不斷重復,直到上述平方誤差總和收斂。
k-Means算法分析
優點
- 對處理大數據集,該算法是相對可伸縮和高效率的,時間復雜度約為 O(k?n?t)\mathcal{O} (k\cdot n\cdot t)O(k?n?t),t是迭代次數。k-Means算法經常以局部最優結束;
- 算法嘗試找出使平方誤差最小的k個劃分,當結果簇是密集的,而簇與簇之間區別明顯時,k-Means的效果較好。
缺點
- 若涉及離散屬性,其平均值無法定義,無法使用k-Means聚類;
- 必須事先給出參數k,k的選取對聚類質量和效果影響很大;
- k-Means算法不適合發現非凸面形狀的簇,或者大小差別很大的簇。而且對于“噪聲”和孤立點數據是敏感的,少量的該類數據對平均值產生較大影響。
算法改進
k-模算法:將k-Means的應用擴大到離散數據。k-原型可以對離散與數值屬性兩種混合的數據進行聚類,在k-原型中定義了一個對數值與離散屬性都計算的相異性度量標準。[2]
k-中心點算法:解決了k-Means算法對孤立點敏感的問題,不采用簇中的平均值作為參照點,而使用簇中位置最靠近中心的對象作為參照點。基本思路是反復用非代表對象來替代代表對象,以改進聚類的質量。PAM(Partition Around Medoid)是最早提出的k-中心點算法之一。[3]
代碼
clc;clear; k = 2; data = [1 1; 2 1; 1 2; 2 2; 4 3; 5 3; 4 4; 5 4;]; eps = 0.1; epochs = 100; [n,~] = size(data); % initialize the last column of data as classes data(:,end+1) = 0; % assign initial value for means rng('default') % For reproducibility clusters = data(randperm(n,k),1:end-1); % initialize E E = inf; % save means steps cnt = 0; % counter cls_steps = []; while epochs>0% to save means stepscnt = cnt + 1;cT = clusters';cls_steps(cnt,:) = cT(:)';% assign each xj to the cluster which has the closet meanD = pdist2(data(:,1:end-1),clusters);[~,I] = min(D');data(:,end) = I';% calculate new means for each classesclusters = grpstats(data(:,1:end-1),data(:,end));% calculate criterion function ElastE = E;E = .0;for i=1:nE = E + pdist2(data(i,1:end-1),clusters(data(i,end),:));endif lastE-E<=epsbreakendepochs = epochs - 1; endMatlab2021a
結果驗證
結果數據
在data.csv數據集上運行上述代碼,得到結果如下:
Clusters: 聚類中心
| 1.5 | 1.5 |
| 4.5 | 3.5 |
E = 5.65685424949238
cls_steps: 聚類中心移動記錄
| 4 | 3 | 5 | 3 |
| 2.33333333 | 2.16666667 | 5 | 3.5 |
| 1.5 | 1.5 | 4.5 | 3.5 |
結果圖像
其中,藍色/黃色實心點表示不同分類下的數據點,空心橙色/紫色圓環表示k-Means聚類中心的變化情況。
附錄(data.csv)
| 1 | 1 | 1 |
| 2 | 2 | 1 |
| 3 | 1 | 2 |
| 4 | 2 | 2 |
| 5 | 4 | 3 |
| 6 | 5 | 3 |
| 7 | 4 | 4 |
| 8 | 5 | 4 |
參考
總結
以上是生活随笔為你收集整理的k-Means——经典聚类算法实验(Matlab实现)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Leetcode--342. 4的幂
- 下一篇: Leetcode--96. 不同的二叉搜