机器学习实战读书笔记--k邻近算法KNN
生活随笔
收集整理的這篇文章主要介紹了
机器学习实战读书笔记--k邻近算法KNN
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
k鄰近算法的偽代碼:
對(duì)未知類別屬性的數(shù)據(jù)集中的每個(gè)點(diǎn)一次執(zhí)行以下操作:
(1)計(jì)算已知類別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)之間的距離;
(2)按照距離遞增次序排列
(3)選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn)
(4)確定前k個(gè)點(diǎn)所在類別的出現(xiàn)頻率
(5)返回前k個(gè)點(diǎn)出現(xiàn)頻率最好的類別作為當(dāng)前點(diǎn)的預(yù)測(cè)分類
?
python函數(shù)實(shí)現(xiàn)
''' Created on Sep 16, 2010 kNN: k Nearest NeighborsInput: inX: vector to compare to existing dataset (1xN)dataSet: size m data set of known vectors (NxM)labels: data set labels (1xM vector)k: number of neighbors to use for comparison (should be an odd number)Output: the most popular class label@author: pbharrin '''def classify0(inX, dataSet, labels, k):dataSetSize = dataSet.shape[0] //輸入的訓(xùn)練樣本集dataSet的列數(shù)diffMat = tile(inX, (dataSetSize,1)) - dataSet //先對(duì)inX進(jìn)行向量化處理,使之格式與dataSet一致,然后相減sqDiffMat = diffMat**2 //向量對(duì)應(yīng)值差的平方sqDistances = sqDiffMat.sum(axis=1)//列的平方和的匯總distances = sqDistances**0.5 //開(kāi)平方求距離sortedDistIndicies = distances.argsort() classCount={} for i in range(k):voteIlabel = labels[sortedDistIndicies[i]]classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 //選擇距離最小的k個(gè)點(diǎn)sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) //排序return sortedClassCount[0][0]?
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/p/9729676.html
總結(jié)
以上是生活随笔為你收集整理的机器学习实战读书笔记--k邻近算法KNN的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 数据挖掘导论读书笔记11异常检测
- 下一篇: 为什么一些机器学习模型需要对数据进行归一