日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析方法-聚类算法

發(fā)布時間:2024/7/5 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据分析方法-聚类算法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • 一、定義
  • 二、聚類、分類區(qū)別分類
  • 三、聚類常用算法
    • 1.劃分聚類 k-means、k-medoids、k-modes、k-medians、kernel k-means
    • 2.層次聚類 Agglomerative 、divisive、BIRCH、ROCK、Chameleon
    • 3.密度聚類 DBSCAN、OPTICS
    • 5.模型聚類 GMM
    • 6.圖聚類 Spectral Clustering(譜聚類)

一、定義

聚類(Clustering)就是一種尋找數(shù)據(jù)之間內(nèi)在結(jié)構(gòu)的技術(shù)。聚類把全體數(shù)據(jù)實(shí)例組織成一些相似組,而這些相似組被稱作簇。處于相同簇中的數(shù)據(jù)實(shí)例彼此相同,處于不同簇中的實(shí)例彼此不同。數(shù)據(jù)之間的相似性是通過定義一個距離或者相似性系數(shù)來判別的。

二、聚類、分類區(qū)別分類

分類聚類
是一種有監(jiān)督式的學(xué)習(xí)過程是一種無監(jiān)督式的學(xué)習(xí)過程
其初始和結(jié)果都是有標(biāo)簽式標(biāo)記其初始和結(jié)果無標(biāo)簽式標(biāo)記
其結(jié)果是有意義的分類其結(jié)果無意義的分類
是示例式學(xué)習(xí)是觀察式學(xué)習(xí)

三、聚類常用算法

1.劃分聚類 k-means、k-medoids、k-modes、k-medians、kernel k-means

基于劃分的聚類方法是一種自頂向下的方法,對于給定的 n 個數(shù)據(jù)對象的數(shù)據(jù)集 D,將數(shù)據(jù)對象組織成 k(k≤n) 個分區(qū),其中,每個分區(qū)代表一個簇。示意圖:

2.層次聚類 Agglomerative 、divisive、BIRCH、ROCK、Chameleon

基于層次的聚類方法是指對給定的數(shù)據(jù)進(jìn)行層次分解,直到滿足某種條件為止。該算法根據(jù)層次分解的順序分為自底向上法和自頂向下法,即凝聚式層次聚類算法和分裂式層次聚類算法。
1)自底向上法。
首先,每個數(shù)據(jù)對象都是一個簇,計(jì)算數(shù)據(jù)對象之間的距離,每次將距離最近的點(diǎn)合并到同一個簇。然后,計(jì)算簇與簇之間的距離,將距離最近的簇合并為一個大簇。不停地合并,直到合成了一個簇,或者達(dá)到某個終止條件為止。
簇與簇的距離的計(jì)算方法有最短距離法、中間距離法、類平均法等,其中,最短距離法是將簇與簇的距離定義為簇與簇之間數(shù)據(jù)對象的最短距離。自底向上法的代表算法是AGNES(AGglomerativeNESing)算法。
2)自頂向下法。
該方法在一開始所有個體都屬于一個簇,然后逐漸細(xì)分為更小的簇,直到最終每個數(shù)據(jù)對象都在不同的簇中,或者達(dá)到某個終止條件為止。自頂向下法的代表算法是 DIANA(DivisiveANAlysis)算法。
基于層次的聚類算法的主要優(yōu)點(diǎn)包括,距離和規(guī)則的相似度容易定義,限制少,不需要預(yù)先制定簇的個數(shù),可以發(fā)現(xiàn)簇的層次關(guān)系?;趯哟蔚木垲愃惴ǖ闹饕秉c(diǎn)包括,計(jì)算復(fù)雜度太高,奇異值也能產(chǎn)生很大影響,算法很可能聚類成鏈狀。

3.密度聚類 DBSCAN、OPTICS

基于密度的聚類方法的主要目標(biāo)是尋找被低密度區(qū)域分離的高密度區(qū)域。與基于距離的聚類算法不同的是,基于距離的聚類算法的聚類結(jié)果是球狀的簇,而基于密度的聚類算法可以發(fā)現(xiàn)任意形狀的簇。
基于密度的聚類方法是從數(shù)據(jù)對象分布區(qū)域的密度著手的。如果給定類中的數(shù)據(jù)對象在給定的范圍區(qū)域中,則數(shù)據(jù)對象的密度超過某一閾值就繼續(xù)聚類。
這種方法通過連接密度較大的區(qū)域,能夠形成不同形狀的簇,而且可以消除孤立點(diǎn)和噪聲對聚類質(zhì)量的影響,以及發(fā)現(xiàn)任意形狀的簇。示意圖:

4.網(wǎng)格聚類 STING
基于網(wǎng)格的聚類方法將空間量化為有限數(shù)目的單元,可以形成一個網(wǎng)格結(jié)構(gòu),所有聚類都在網(wǎng)格上進(jìn)行。基本思想就是將每個屬性的可能值分割成許多相鄰的區(qū)間,并創(chuàng)建網(wǎng)格單元的集合。每個對象落入一個網(wǎng)格單元,網(wǎng)格單元對應(yīng)的屬性空間包含該對象的值.
基于網(wǎng)格的聚類方法的主要優(yōu)點(diǎn)是處理速度快,其處理時間獨(dú)立于數(shù)據(jù)對象數(shù),而僅依賴于量化空間中的每一維的單元數(shù)。這類算法的缺點(diǎn)是只能發(fā)現(xiàn)邊界是水平或垂直的簇,而不能檢測到斜邊界。另外,在處理高維數(shù)據(jù)時,網(wǎng)格單元的數(shù)目會隨著屬性維數(shù)的增長而成指數(shù)級增長。
示意圖:

5.模型聚類 GMM

基于模型的聚類方法是試圖優(yōu)化給定的數(shù)據(jù)和某些數(shù)學(xué)模型之間的適應(yīng)性的。該方法給每一個簇假定了一個模型,然后尋找數(shù)據(jù)對給定模型的最佳擬合。假定的模型可能是代表數(shù)據(jù)對象在空間分布情況的密度函數(shù)或者其他函數(shù)。這種方法的基本原理就是假定目標(biāo)數(shù)據(jù)集是由一系列潛在的概率分布所決定的。
下圖給出了對基于劃分的聚類方法和基于模型的聚類方法進(jìn)行了對比。左側(cè)給出的結(jié)果是基于距離的聚類方法,核心原則就是將距離近的點(diǎn)聚在一起。右側(cè)給出的基于概率分布模型的聚類方法,這里采用的概率分布模型是有一定弧度的橢圓。標(biāo)出了兩個實(shí)心的點(diǎn),這兩點(diǎn)的距離很近,在基于距離的聚類方法中,它們聚在一個簇中,但基于概率分布模型的聚類方法則將它們分在不同的簇中,這是為了滿足特定的概率分布模型。

6.圖聚類 Spectral Clustering(譜聚類)

基于圖聚的聚類方法是把所有的數(shù)據(jù)看做空間中的點(diǎn),這些點(diǎn)之間可以用邊連接起來。距離較遠(yuǎn)的兩個點(diǎn)之間的邊權(quán)重值較低,而距離較近的兩個點(diǎn)之間的邊權(quán)重值較高,通過對所有數(shù)據(jù)點(diǎn)組成的圖進(jìn)行切圖,讓切圖后不同的子圖間邊權(quán)重和盡可能的低,而子圖內(nèi)的邊權(quán)重和盡可能的高,從而達(dá)到聚類的目的。

總結(jié)

以上是生活随笔為你收集整理的数据分析方法-聚类算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。