日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

kmeans聚类算法_聚类算法入门:k-means

發布時間:2025/4/5 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 kmeans聚类算法_聚类算法入门:k-means 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、聚類定義

  • 聚類分析(cluster analysis)就是給你一堆雜七雜八的樣本數據把它們分成幾個組,組內成員有一定的相似,不同組之間成員有一定的差別。
  • 區別與分類分析(classification analysis) 你事先并不知道有哪幾類、劃分每個類別的標準。
  • 比如垃圾分類就是分類算法,你知道豬能吃的是濕垃圾,不能吃的是干垃圾……;打掃房間時你把雜物都分分類,這是聚類,你事先不知道每個類別的標準。

二、劃分聚類方法: K-means:

對于給定的樣本集,按照樣本之間的距離(也就是相似程度)大小,將樣本集劃分為K個簇(即類別)。讓簇內的點盡量緊密的連在一起,而讓簇間的距離盡量的大。

  • 步驟1:隨機取k個初始中心點
  • 步驟2:對于每個樣本點計算到這k個中心點的距離,將樣本點歸到與之距離最小的那個中心點的簇。這樣每個樣本都有自己的簇了
  • 步驟3:對于每個簇,根據里面的所有樣本點重新計算得到一個新的中心點,如果中心點發生變化回到步驟2,未發生變化轉到步驟4
  • 步驟4:得出結果
    就像這樣

缺點:
初始值敏感、采用迭代方法,得到的結果只是局部最優、K值的選取不好把握、對于不是凸的數據集比較難收斂
如何衡量Kmeans 算法的精確度?
SSE(Sum of Square Error) 誤差平方和, SSE越小,精確度越高。

三、改進算法-二分Kmeans

  • 首先將所有點作為一個簇,然后將其一分為二。
  • 每次選擇一個簇一分為二,選取簇的依據取決于其是否能最大程度降低SSE即選取聚類后SSE最小的一個簇進行劃分。
  • 直至有k個簇

四、Kmeans Code

import numpy as npimport matplotlib.pyplot as pltimport scipy.io as scio# %matplotlib inlinedef K_Means(X, sp, K): # 計算臨近點 def near(p): dis = [np.sum(np.square(x-p)) for x in sp] return dis.index(min(dis)) # 打印結果 def print_result(sp_list): #打印中心點迭代軌跡 sp_list = [np.array([x[k] for x in sp_list]) for k in range(K)] for k in range(K): plt.plot(sp_list[k][:,0], sp_list[k][:,1], 'k->', label='type{}'.format(k)) #分類打印其他點 p_list = [[] for k in range(K)] for p in X: i = near(p) p_list[i].append(p) p_list = [np.array(x) for x in p_list] color = ['r','g','b'] for i in range(K): plt.plot(p_list[i][:,0], p_list[i][:,1],color[i]+'o') plt.title('K-Means Result') plt.xlabel('X') plt.ylabel('Y') plt.legend('123') plt.show() # 迭代中心點 sp_list = [] sp_list.append(sp) while True: count = np.zeros(K) sp_t = np.zeros((K,2)) for p in X: i = near(p) count[i] += 1 sp_t[i] += p sp_t = np.array([sp_t[i]/count[i] for i in range(K)]) SSE = np.sum(np.square(sp-sp_t)) if SSE < 0.001: break sp = sp_t sp_list.append(sp) print_result(sp_list) print('聚類中心:') for p in sp: print(p, end=',')if __name__ == '__main__': data = scio.loadmat('ex7data2.mat') X = data['X'] K = 3 sp = np.array([[3, 3], [6, 2], [8, 5]]) # starting point K_Means(X, sp, K)

kmeans聚類結果

K為3聚類中心: [1.95399466 5.02557006],[3.04367119 1.01541041],[6.03366736 3.00052511]
如需要測試數據請留言

本文由作者授權轉載并稍加修改:https://tawn0000.github.io

總結

以上是生活随笔為你收集整理的kmeans聚类算法_聚类算法入门:k-means的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。