當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

聚类 python 代码_不足 20 行 Python 代码，高效实现 k-means 均值聚类算法

發(fā)布時(shí)間：2023/12/15 python 18 豆豆

生活随笔收集整理的這篇文章主要介紹了聚类 python 代码_不足 20 行 Python 代码，高效实现 k-means 均值聚类算法小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

下載好向圈APP可以快速聯(lián)系圈友

您需要登錄才可以下載或查看，沒有帳號(hào)？立即注冊(cè)

不足 20 行 Python 代碼，高效實(shí)現(xiàn) k-means 均值聚類算法-1.jpg (143.81 KB, 下載次數(shù): 0)

2020-9-12 13:13 上傳

不足 20 行 Python 代碼，高效實(shí)現(xiàn) k-means 均值聚類算法-2.jpg (38.58 KB, 下載次數(shù): 0)

2020-9-12 13:13 上傳

作者 | 許文武

責(zé)編 | 郭芮

出品 | CSDN 博客

scikti-learn 將機(jī)器學(xué)習(xí)分為4個(gè)領(lǐng)域，分別是分類(classification)、聚類(clustering)、回歸(regression)和降維(dimensionality reduction)。k-means均值算法雖然是聚類算法中比較簡(jiǎn)單的一種，卻包含了豐富的思想內(nèi)容，非常適合作為初學(xué)者的入門習(xí)題。

不足 20 行 Python 代碼，高效實(shí)現(xiàn) k-means 均值聚類算法-3.jpg (56.77 KB, 下載次數(shù): 0)

2020-9-12 13:13 上傳

關(guān)于 k-means 均值聚類算法的原理介紹、實(shí)現(xiàn)代碼，網(wǎng)上有很多，但運(yùn)行效率似乎都有點(diǎn)問(wèn)題。今天稍微有點(diǎn)空閑，寫了一個(gè)不足20行的 k-means 均值聚類算法，1萬(wàn)個(gè)樣本平均耗時(shí)20毫秒(10次均值)。同樣的數(shù)據(jù)樣本，網(wǎng)上流行的算法平均耗時(shí)3000毫秒(10次均值)。差距竟然達(dá)百倍以上，令我深感意外，不由得再次向 numpy 獻(xiàn)上膝蓋！

以下是我的代碼，包含注釋、空行總共26行，有效代碼16行。

1import numpy as np

3def kmeans_xufive(ds, k):

4 """k-means聚類算法

6 k - 指定分簇?cái)?shù)量

7 ds - ndarray(m, n)，m個(gè)樣本的數(shù)據(jù)集，每個(gè)樣本n個(gè)屬性值

8 """

10 m, n = ds.shape # m：樣本數(shù)量，n：每個(gè)樣本的屬性值個(gè)數(shù)

11 result = np.empty(m, dtype=np.int) # m個(gè)樣本的聚類結(jié)果

12 cores = np.empty((k, n)) # k個(gè)質(zhì)心

13 cores = ds[np.random.choice(np.arange(m), k, replace=False)] # 從m個(gè)數(shù)據(jù)樣本中不重復(fù)地隨機(jī)選擇k個(gè)樣本作為質(zhì)心

15 while True: # 迭代計(jì)算

16 d = np.square(np.repeat(ds, k, axis=0).reshape(m, k, n) - cores)

17 distance = np.sqrt(np.sum(d, axis=2)) # ndarray(m, k)，每個(gè)樣本距離k個(gè)質(zhì)心的距離，共有m行

18 index_min = np.argmin(distance, axis=1) # 每個(gè)樣本距離最近的質(zhì)心索引序號(hào)

20 if (index_min == result).all: # 如果樣本聚類沒有改變

21 return result, cores # 則返回聚類結(jié)果和質(zhì)心數(shù)據(jù)

23 result[:] = index_min # 重新分類

24 for i in range(k): # 遍歷質(zhì)心集

25 items = ds[result==i] # 找出對(duì)應(yīng)當(dāng)前質(zhì)心的子樣本集

26 cores= np.mean(items, axis=0) # 以子樣本集的均值作為當(dāng)前質(zhì)心的位置

這是網(wǎng)上比較流行的 k-means 均值聚類算法代碼，包含注釋、空行總共57行，有效代碼37行。

1import numpy as np

3# 加載數(shù)據(jù)

4def loadDataSet(fileName):

5 data = np.loadtxt(fileName,delimiter='\t')

6 return data

8# 歐氏距離計(jì)算

9 def distEclud(x,y):

10 return np.sqrt(np.sum((x-y)**2)) # 計(jì)算歐氏距離

12# 為給定數(shù)據(jù)集構(gòu)建一個(gè)包含K個(gè)隨機(jī)質(zhì)心的集合

13 def randCent(dataSet,k):

14 m,n = dataSet.shape

15 centroids = np.zeros((k,n))

16 for i in range(k):

17 index = int(np.random.uniform(0,m)) #

18 centroids[i,:] = dataSet[index,:]

19 return centroids

21# k均值聚類

22def kmeans_open(dataSet,k):

24 m = np.shape(dataSet)[0] #行的數(shù)目

25 # 第一列存樣本屬于哪一簇

26 # 第二列存樣本的到簇的中心點(diǎn)的誤差

27 clusterAssment = np.mat(np.zeros((m,2)))

28 clusterChange = True

30 # 第1步初始化centroids

31 centroids = randCent(dataSet,k)

32 while clusterChange:

33 clusterChange = False

35 # 遍歷所有的樣本(行數(shù))

36 for i in range(m):

37 minDist = 100000.0

38 minIndex = -1

40 # 遍歷所有的質(zhì)心

41 #第2步找出最近的質(zhì)心

42 for j in range(k):

43 # 計(jì)算該樣本到質(zhì)心的歐式距離

44 distance = distEclud(centroids[j,:],dataSet[i,:])

45 if distance < minDist:

46 minDist = distance

47 minIndex = j

48 # 第 3 步：更新每一行樣本所屬的簇

49 if clusterAssment[i,0] != minIndex:

50 clusterChange = True

51 clusterAssment[i,:] = minIndex,minDist**2

52 #第 4 步：更新質(zhì)心

53 for j in range(k):

54 pointsInCluster = dataSet[np.nonzero(clusterAssment[:,0].A == j)[0]] # 獲取簇類所有的點(diǎn)

55 centroids[j,:] = np.mean(pointsInCluster,axis=0) # 對(duì)矩陣的行求均值

57 return clusterAssment.A[:,0], centroids

函數(shù)create_data_set，用于生成測(cè)試數(shù)據(jù)。可變參數(shù) cores 是多個(gè)三元組，每一個(gè)三元組分別是質(zhì)心的x坐標(biāo)、y坐標(biāo)和對(duì)應(yīng)該質(zhì)心的數(shù)據(jù)點(diǎn)的數(shù)量。

1def create_data_set(*cores):

2 """生成k-means聚類測(cè)試用數(shù)據(jù)集"""

4 ds = list

5 for x0, y0, z0 in cores:

6 x = np.random.normal(x0, 0.1+np.random.random/3, z0)

7 y = np.random.normal(y0, 0.1+np.random.random/3, z0)

8 ds.append(np.stack((x,y), axis=1))

10 return np.vstack(ds)

測(cè)試代碼如下：

1import time

2import matplotlib.pyplot as plt

4k = 4

5ds = create_data_set((0,0,2500), (0,2,2500), (2,0,2500), (2,2,2500))

7t0 = time.time

8result, cores = kmeans_xufive(ds, k)

9t = time.time - t0

11plt.scatter(ds[:,0], ds[:,1], s=1, c=result.astype(np.int))

12plt.scatter(cores[:,0], cores[:,1], marker='x', c=np.arange(k))

13plt.show

15print(u'使用kmeans_xufive算法，1萬(wàn)個(gè)樣本點(diǎn)，耗時(shí)%f0.3秒'%t)

17t0 = time.time

18result, cores = kmeans_open(ds, k)

19t = time.time - t0

21plt.scatter(ds[:,0], ds[:,1], s=1, c=result.astype(np.int))

22plt.scatter(cores[:,0], cores[:,1], marker='x', c=np.arange(k))

23plt.show

25print(u'使用kmeans_open算法，1萬(wàn)個(gè)樣本點(diǎn)，耗時(shí)%f0.3秒'%t)

測(cè)試結(jié)果如下：

1PS D:\XufiveGit\CSDN\code> py -3 .\k-means.py

2使用kmeans_xufive算法，1萬(wàn)個(gè)樣本點(diǎn)，耗時(shí)0.0156550.3秒

3使用kmeans_open算法，1萬(wàn)個(gè)樣本點(diǎn)，耗時(shí)3.9990890.3秒

效果如下：

不足 20 行 Python 代碼，高效實(shí)現(xiàn) k-means 均值聚類算法-4.jpg (51.54 KB, 下載次數(shù): 0)

2020-9-12 13:13 上傳

作者：許文武，博客昵稱「天元浪子」，本文首發(fā)于作者CSDN博客https://blog.csdn.net/xufive/article/details/101448969。

不足 20 行 Python 代碼，高效實(shí)現(xiàn) k-means 均值聚類算法-5.jpg (52.31 KB, 下載次數(shù): 0)

2020-9-12 13:13 上傳

【END】

溫馨提示：

好向圈www.kuaixunai.com是各行業(yè)經(jīng)驗(yàn)分享交流社區(qū)，你可以在這里發(fā)布交流經(jīng)驗(yàn)，也可以發(fā)布需求與服務(wù)，經(jīng)驗(yàn)圈子里面禁止帶推廣鏈接、聯(lián)系方式、違法詞等，違規(guī)將封禁賬號(hào)，相關(guān)產(chǎn)品信息將永久不予以通過(guò)，同時(shí)有需要可以發(fā)布在自己的免費(fèi)建站官網(wǎng)里面或者廣告圈，下載好向圈APP可以隨時(shí)隨地交流經(jīng)驗(yàn)，也可以和圈友發(fā)起聊天成為好友哦！

如果想要各大搜索引擎收錄，請(qǐng)使用秘塔寫作貓進(jìn)行內(nèi)容偽原創(chuàng)

下載好向圈APP可以隨時(shí)隨地交流經(jīng)驗(yàn)，也可以和圈友發(fā)起聊天成為好友哦！

如果想要各大搜索引擎收錄，請(qǐng)使用秘塔寫作貓進(jìn)行內(nèi)容免費(fèi)偽原創(chuàng)，加快搜索引擎收錄

總結(jié)

以上是生活随笔為你收集整理的聚类 python 代码_不足 20 行 Python 代码，高效实现 k-means 均值聚类算法的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： a标签href不跳转_[网页编程]-06
下一篇：配置库用户_GEE学习笔记六十八：【G