日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

k-Means——经典聚类算法实验(Matlab实现)

發布時間:2024/7/19 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 k-Means——经典聚类算法实验(Matlab实现) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聚類算法—k-Means實驗

k-平均(k-Means),也被稱為k-均值,是一種得到最廣泛使用的聚類算法[1]. k-Means算法以k為參數,把n個對象分為k個簇,使得簇內具有較高的相似度。

實驗目的

  • 了解常用聚類算法及其優缺點;
  • 掌握k-Means聚類算法對數據進行聚類分析的基本原理和劃分方法;
  • 利用k-Means聚類算法對數據集進行聚類實驗;
  • 熟悉使用Matlab進行算法的實現。
  • 聚類算法的主要思想

    主要思想

    給定一個有n個對象的數據集,劃分聚類技術將構造數據k個劃分,每一個劃分就代表一個簇,k≤nk\le nkn. 每一個簇至少包含一個對象,每一個對象屬于且僅屬于一個簇。

    對于給定的k,算法首先給出一個初始的劃分方法,以后通過反復迭代的方法改變劃分,使得每一次改進之后的劃分較前一次更好。

    評價函數

    更好的標準是:同一簇中的對象越接近越好,而不同簇中的對象越遠越好,目標是最小化所有對象與其簇中心之間相異度之和。

    各個簇應該是緊湊的,各個簇間的距離應當盡可能遠。因此,用聚類C的類內差異(Within cluster variation)w(C)w(C)w(C) 和類間差異(Between cluster variation)b(C)b(C)b(C) 分別衡量上述兩要求。

    w(C)=∑i=1kw(Ci)=∑i=1k∑x∈Cid(x,xi ̄)2w(C)=\sum_{i=1}^{k}w(C_i)=\sum_{i=1}^{k}\sum_{x\in C_i}d(x,\overline{x_i})^2w(C)=i=1k?w(Ci?)=i=1k?xCi??d(x,xi??)2

    b(C)=∑1≤j≤i≤kd(xj ̄,xi ̄)2b(C)=\sum_{1\le j\le i\le k}d(\overline{x_j},\overline{x_i})^2b(C)=1jik?d(xj??,xi??)2

    其中,xi ̄\overline{x_i}xi?? 是類 CiC_iCi? 的聚類中心,d 為距離函數。聚類C的總體質量可以被定義為 b(C)w(C)\frac{b(C)}{w(C)}w(C)b(C)?.

    k-Means算法原理

    k-Means算法用類內均值作為聚類中心、用歐氏距離定義d,并使上述 w(C)w(C)w(C) 最小化。

    優化目標

    arg?max?C∑i=1k∑x∈Ci∥x?xi ̄∥2\mathop{\arg\max}\limits_{C} \sum_{i=1}^k \sum_{x\in C_i} \parallel x-\overline{x_i}\parallel ^2Cargmax?i=1k?xCi??x?xi??2

    表示選取合適的C使得所有對象的平方誤差總和最小,其中x是空間中的點,xi ̄\overline{x_i}xi?? 是簇 CiC_iCi? 的平均值,這個優化目標可以保證生成的結果簇盡可能的緊湊和獨立。

    算法描述

    首先隨機選擇k個對象,每個對象初始地代表了一個簇的平均值或中心。對剩余的每個對象根據其與各個簇中心的距離,將它賦給最近的簇。然后重新計算每個簇的平均值。這個過程不斷重復,直到上述平方誤差總和收斂。

    k-Means算法分析

    優點

    • 對處理大數據集,該算法是相對可伸縮和高效率的,時間復雜度約為 O(k?n?t)\mathcal{O} (k\cdot n\cdot t)O(k?n?t),t是迭代次數。k-Means算法經常以局部最優結束;
    • 算法嘗試找出使平方誤差最小的k個劃分,當結果簇是密集的,而簇與簇之間區別明顯時,k-Means的效果較好。

    缺點

    • 若涉及離散屬性,其平均值無法定義,無法使用k-Means聚類;
    • 必須事先給出參數k,k的選取對聚類質量和效果影響很大;
    • k-Means算法不適合發現非凸面形狀的簇,或者大小差別很大的簇。而且對于“噪聲”和孤立點數據是敏感的,少量的該類數據對平均值產生較大影響。

    算法改進

    k-模算法:將k-Means的應用擴大到離散數據。k-原型可以對離散與數值屬性兩種混合的數據進行聚類,在k-原型中定義了一個對數值與離散屬性都計算的相異性度量標準。[2]

    k-中心點算法:解決了k-Means算法對孤立點敏感的問題,不采用簇中的平均值作為參照點,而使用簇中位置最靠近中心的對象作為參照點。基本思路是反復用非代表對象來替代代表對象,以改進聚類的質量。PAM(Partition Around Medoid)是最早提出的k-中心點算法之一。[3]

    代碼

    clc;clear; k = 2; data = [1 1; 2 1; 1 2; 2 2; 4 3; 5 3; 4 4; 5 4;]; eps = 0.1; epochs = 100; [n,~] = size(data); % initialize the last column of data as classes data(:,end+1) = 0; % assign initial value for means rng('default') % For reproducibility clusters = data(randperm(n,k),1:end-1); % initialize E E = inf; % save means steps cnt = 0; % counter cls_steps = []; while epochs>0% to save means stepscnt = cnt + 1;cT = clusters';cls_steps(cnt,:) = cT(:)';% assign each xj to the cluster which has the closet meanD = pdist2(data(:,1:end-1),clusters);[~,I] = min(D');data(:,end) = I';% calculate new means for each classesclusters = grpstats(data(:,1:end-1),data(:,end));% calculate criterion function ElastE = E;E = .0;for i=1:nE = E + pdist2(data(i,1:end-1),clusters(data(i,end),:));endif lastE-E<=epsbreakendepochs = epochs - 1; end

    Matlab2021a

    結果驗證

    結果數據

    在data.csv數據集上運行上述代碼,得到結果如下:

    Clusters: 聚類中心

    x1x2
    1.51.5
    4.53.5

    E = 5.65685424949238

    cls_steps: 聚類中心移動記錄

    c1x1c1x2c2x1c2x2
    4353
    2.333333332.1666666753.5
    1.51.54.53.5

    結果圖像

    其中,藍色/黃色實心點表示不同分類下的數據點,空心橙色/紫色圓環表示k-Means聚類中心的變化情況。

    附錄(data.csv)

    IndexAttr1Attr2
    111
    221
    312
    422
    543
    653
    744
    854

    參考

  • 毛國君、段立娟, 《數據挖掘原理與算法》, 清華大學出版社, 2016-01-01, ISBN:9787302415817
  • Ramasubramanian P , Kumar S P , Anandam D . Experimental work on Data Clustering using Enhanced Random KMode Algorithm. 2020.
  • Bhat A . K-Medoids Clustering Using Partitioning Around Medoids for Performing Face Recognition. 2014.
  • 總結

    以上是生活随笔為你收集整理的k-Means——经典聚类算法实验(Matlab实现)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。