降维和聚类的区别
同時學習了聚類和降維方法之后,對于兩者之間的差異有些不明白,后來查閱了百度等多方渠道,并沒有獲得一個比較通俗易懂的解釋,下面的內容是我個人的一些淺薄理解,如果有錯誤的地方希望大家指正。
一、聚類
聚類是按照某個特定標準把一個數據集分割成不同的類或簇,使得同一個簇內的數據對象的相似性盡可能大,同時不在同一個簇中的數據對象的差異性也盡可能地大。也即聚類后同一類的數據盡可能聚集到一起,不同類數據盡量分離。簡言之,聚類是根據研究對象的特征值差異,將研究對象劃分為多個不同的類別,從而實現將研究對象分層/分簇的目的。聚類方法可以分為劃分聚類、層次聚類和密度聚類。
?
二、降維
假設樣本資料矩陣為n×k的矩陣(n個研究對象,k個特征),當k遠大于n時,直接擬合模型會導致維度災難、過擬合的問題,因此需要通過一定的方法減少特征數量,以克服維數災難,獲取本質特征,去除無用的噪聲,減少冗余信息所造成的誤差,提高識別的精度。降維方法可以分為線性降維方法和非線性降維方法,最常見的方法比如PCA、LDA等。
?
三、降維和聚類的區別
降維和聚類表面上而言都可以減少數量,但是減少對象不同。對于聚類而言,是依據不同樣本特征值的差異,對樣本進行聚類,將總體分為k組,實現總體分層,進而方便分層分析;而對于降維而言,降維是降低數據維度,即減少特征數量,以避免特征數量大于樣本量而導致的高維災難問題。所以我們可以理解為降維是降低特征數,聚類是將樣本分為不同的類。
總結
- 上一篇: flask sqlalchemy 单表
- 下一篇: java 如何排查内存溢出_java