机器学习--最基础的最常用的聚类算法
基于劃分聚類算法(partition clustering)
K-means:是一種典型的劃分聚類算法,它用一個聚類的中心來代表一個簇,即在迭代過程中選擇的聚點不一定是聚類中的一個點,該算法只能處理數(shù)值型數(shù)據(jù)。
優(yōu)點:計算時間短,速度快。結(jié)果容易解釋,一般聚類效果還算不錯;
缺點:對異常值非常敏感,需要提前確定好k值
其他劃分聚類算法如下:
基于層次聚類算法
CURE:采用抽樣技術(shù)先對數(shù)據(jù)集D隨機抽取樣本,再采用分區(qū)技術(shù)對樣本進(jìn)行分區(qū),然后對每個分區(qū)局部聚類,最后對局部聚類進(jìn)行全局聚類。
優(yōu)點:采用隨機抽樣與分割相結(jié)合的辦法來提高算法的空間和時間效率,并且在算法中用了堆和K-d樹結(jié)構(gòu)來提高了算法效率,使其可以高效的處理大量數(shù)據(jù)。
缺點:對異常數(shù)據(jù)比較脆弱。
其他基于層次聚類算法如下:
基于密度聚類算法
DBSCAN:DBSCAN算法是一種典型的基于密度的聚類算法,該算法采用空間索引技術(shù)來搜索對象的鄰域,引入了“核心對象”和“密度可達(dá)”等概念,從核心對象出發(fā),把所有密度可達(dá)的對象組成一個簇。
優(yōu)點:聚類簇的形狀沒有偏倚,不需要輸入要劃分的聚類個數(shù)。
缺點:DBSCAN算法對參數(shù)Eps及Minpts非常敏感,且這兩個參數(shù)很難確定。
其他基于密度聚類算法如下:
從以下幾個方面對幾種常用的聚類算法進(jìn)行綜合性能評價,評價結(jié)果如下:
總結(jié)
以上是生活随笔為你收集整理的机器学习--最基础的最常用的聚类算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谷歌旗下自动驾驶公司 Waymo 已裁员
- 下一篇: 程序员最喜欢用的在线IDE代码编译器,什