當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

k-Means——经典聚类算法实验（Matlab实现）

發布時間：2024/7/19 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 k-Means——经典聚类算法实验（Matlab实现）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聚類算法—k-Means實驗

k-平均（k-Means），也被稱為k-均值，是一種得到最廣泛使用的聚類算法[1]. k-Means算法以k為參數，把n個對象分為k個簇，使得簇內具有較高的相似度。

實驗目的

了解常用聚類算法及其優缺點；

掌握k-Means聚類算法對數據進行聚類分析的基本原理和劃分方法；

利用k-Means聚類算法對數據集進行聚類實驗；

熟悉使用Matlab進行算法的實現。

聚類算法的主要思想

主要思想

給定一個有n個對象的數據集，劃分聚類技術將構造數據k個劃分，每一個劃分就代表一個簇， $k≤nk\le n$ . 每一個簇至少包含一個對象，每一個對象屬于且僅屬于一個簇。

對于給定的k，算法首先給出一個初始的劃分方法，以后通過反復迭代的方法改變劃分，使得每一次改進之后的劃分較前一次更好。

評價函數

更好的標準是：同一簇中的對象越接近越好，而不同簇中的對象越遠越好，目標是最小化所有對象與其簇中心之間相異度之和。

各個簇應該是緊湊的，各個簇間的距離應當盡可能遠。因此，用聚類C的類內差異（Within cluster variation） $w (C)$ 和類間差異（Between cluster variation） $b (C)$ 分別衡量上述兩要求。

$w(C)=∑i=1kw(Ci)=∑i=1k∑x∈Cid(x,xi￣)2w(C)=\sum_{i=1}^{k}w(C_i)=\sum_{i=1}^{k}\sum_{x\in C_i}d(x,\overline{x_i})^2$

$b(C)=∑1≤j≤i≤kd(xj￣,xi￣)2b(C)=\sum_{1\le j\le i\le k}d(\overline{x_j},\overline{x_i})^2$

其中， $xi￣\overline{x_i}$ 是類 $C_i$ 的聚類中心，d 為距離函數。聚類C的總體質量可以被定義為 $b(C)w(C)\frac{b(C)}{w(C)}$ .

k-Means算法原理

k-Means算法用類內均值作為聚類中心、用歐氏距離定義d，并使上述 $w (C)$ 最小化。

優化目標

$arg?max?C∑i=1k∑x∈Ci∥x?xi￣∥2\mathop{\arg\max}\limits_{C} \sum_{i=1}^k \sum_{x\in C_i} \parallel x-\overline{x_i}\parallel ^2$

表示選取合適的C使得所有對象的平方誤差總和最小，其中x是空間中的點， $xi￣\overline{x_i}$ 是簇 $C_i$ 的平均值，這個優化目標可以保證生成的結果簇盡可能的緊湊和獨立。

算法描述

首先隨機選擇k個對象，每個對象初始地代表了一個簇的平均值或中心。對剩余的每個對象根據其與各個簇中心的距離，將它賦給最近的簇。然后重新計算每個簇的平均值。這個過程不斷重復，直到上述平方誤差總和收斂。

k-Means算法分析

優點

對處理大數據集，該算法是相對可伸縮和高效率的，時間復雜度約為 $O(k?n?t)\mathcal{O} (k\cdot n\cdot t)$ ，t是迭代次數。k-Means算法經常以局部最優結束；
算法嘗試找出使平方誤差最小的k個劃分，當結果簇是密集的，而簇與簇之間區別明顯時，k-Means的效果較好。

缺點

若涉及離散屬性，其平均值無法定義，無法使用k-Means聚類；
必須事先給出參數k，k的選取對聚類質量和效果影響很大；
k-Means算法不適合發現非凸面形狀的簇，或者大小差別很大的簇。而且對于“噪聲”和孤立點數據是敏感的，少量的該類數據對平均值產生較大影響。

算法改進

k-模算法：將k-Means的應用擴大到離散數據。k-原型可以對離散與數值屬性兩種混合的數據進行聚類，在k-原型中定義了一個對數值與離散屬性都計算的相異性度量標準。[2]

k-中心點算法：解決了k-Means算法對孤立點敏感的問題，不采用簇中的平均值作為參照點，而使用簇中位置最靠近中心的對象作為參照點。基本思路是反復用非代表對象來替代代表對象，以改進聚類的質量。PAM（Partition Around Medoid）是最早提出的k-中心點算法之一。[3]

代碼

clc;clear; k = 2; data = [1 1; 2 1; 1 2; 2 2; 4 3; 5 3; 4 4; 5 4;]; eps = 0.1; epochs = 100; [n,~] = size(data); % initialize the last column of data as classes data(:,end+1) = 0; % assign initial value for means rng('default') % For reproducibility clusters = data(randperm(n,k),1:end-1); % initialize E E = inf; % save means steps cnt = 0; % counter cls_steps = []; while epochs>0% to save means stepscnt = cnt + 1;cT = clusters';cls_steps(cnt,:) = cT(:)';% assign each xj to the cluster which has the closet meanD = pdist2(data(:,1:end-1),clusters);[~,I] = min(D');data(:,end) = I';% calculate new means for each classesclusters = grpstats(data(:,1:end-1),data(:,end));% calculate criterion function ElastE = E;E = .0;for i=1:nE = E + pdist2(data(i,1:end-1),clusters(data(i,end),:));endif lastE-E<=epsbreakendepochs = epochs - 1; end

Matlab2021a

結果驗證

結果數據

在data.csv數據集上運行上述代碼，得到結果如下：

Clusters: 聚類中心

x1x2

1.5	1.5
4.5	3.5

E = 5.65685424949238

cls_steps: 聚類中心移動記錄

c1x1c1x2c2x1c2x2

4	3	5	3
2.33333333	2.16666667	5	3.5
1.5	1.5	4.5	3.5

結果圖像

其中，藍色/黃色實心點表示不同分類下的數據點，空心橙色/紫色圓環表示k-Means聚類中心的變化情況。

附錄（data.csv）

IndexAttr1Attr2

1	1	1
2	2	1
3	1	2
4	2	2
5	4	3
6	5	3
7	4	4
8	5	4

參考

毛國君、段立娟, 《數據挖掘原理與算法》, 清華大學出版社, 2016-01-01, ISBN：9787302415817

Ramasubramanian P , Kumar S P , Anandam D . Experimental work on Data Clustering using Enhanced Random KMode Algorithm. 2020.

Bhat A . K-Medoids Clustering Using Partitioning Around Medoids for Performing Face Recognition. 2014.

總結

以上是生活随笔為你收集整理的k-Means——经典聚类算法实验（Matlab实现）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Leetcode--342. 4的幂
下一篇： Leetcode--96. 不同的二叉搜