當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

聚类算法学习指南（二）

發布時間：2023/12/4 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了聚类算法学习指南（二）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

http://hi.baidu.com/catfool/blog/item/c06bec3931a0efcad4622524.html

聚類算法學習指南（二） 2009-05-06 20:49 下圖圖 3-1 聚類方法的分類示意圖 3.1 傳統聚類算法 3.1.1 層次方法層次法對給定的數據對象集合進行層次似的分解。按層次分解的形成方式，層次法可分為凝聚和分裂兩大類。凝聚的方法，也稱為自底向上的方法，一開始將每個對象作為單獨的一個類，然后相繼地合并相近的類，直到所有的類合并為一個（層次的最上層），或者達到一個終止條件為止。分裂的方法，也稱為自頂向下的方法，一開始將所有的對象置于一個類中。在迭代的每一步中，類被分裂為更小的類，直到每個類只包含一個對象，或者達到一個終止條件為止。在凝聚或者分裂層次聚類方法中，通常以用戶定義的希望得到的類的數目作為結束條件。在類的合并或分裂過程中，需要考察類間的距離。類間距離的度量廣泛采用如下四種方法：最小距離：d_min（C_i，C_j）=min_p∈C_i,p'∈C_j|p- p' | 最大距離：d_max（C_i，C_j）=max_p∈C_i,p'∈C_j|p- p' | 平均值距離：d_mcan（C_i，C_j）=|mi- mj| 平均距離：層次方法(Hierarchical Method)中代表算法有BIRCH、CURE、ROCK、CHAMELEON算法等。 3.1.2 劃分方法給定一個包含n個數據對象的數據集，劃分法構建數據的k個劃分，每個劃分表示一個類，并且k≤n。同時滿足如下的要求：①每個組至少包含一個對象；②每個對象屬于且僅屬于一個組。給定要構建的劃分的數目k，創建一個初始劃分。然后采用一種迭代的重定位技術，嘗試通過對象在劃分間移動來改進劃分。判定一個好的劃分的一般準則是：在同一個類中的對象之間盡可能“接近”或相關，在不同類中的對象之間盡可能“遠離”或不同，即使下列準則函數最小：式中的E是數據集中所有對象的平方誤差的總和；mi是類Ci的平均值（或中心點），p是數據空間中的數據對象（p和mi都是多維的)。為了達到全局最優，基于劃分的聚類要求窮舉所有可能的劃分。基于劃分的方法(Partitioning Method)，其代表算法有K-MEANS、K-MEDOIDS、大型數據庫劃分方法（CLARANS）等。 3.1.3 基于密度的方法絕大多數劃分方法基于對象之間的距離進行聚類，這樣的方法只能發現球狀的類，而在發現任意形狀的類上有困難。因此，出現了基于密度的聚類方法，其主要思想是：只要鄰近區域的密度（對象或數據點的數目）超過某個閾值，就繼續聚類。也就是說，對給定類中的每個數據點，在一個給定范圍的區域內必須至少包含某個數目的點。這樣的方法可以過濾“噪聲”數據，發現任意形狀的類。但算法計算復雜度高，一般為O(n²)，對于密度分布不均的數據集，往往得不到滿意的聚類結果。其代表算法有DBSCAN、OPTICS和DENCLUE等。 3.1.4 基于網格的方法基于網格的方法把對象空間量化為有限數目的單元，形成一個網格結構。所有的聚類操作都在這個網格結構（即量化空間）上進行。這種方法的主要優點是它的處理速度很快，其處理速度獨立于數據對象的數目，只與量化空間中每一維的單元數目有關。但這種算法效率的提高是以聚類結果的精確性為代價的。它的代表算法有STING、CLIQUE、WAVE- CLUSTER等。 3.1.5 基于模型的方法基于模型的聚類算法為每簇假定了一個模型，尋找數據對給定模型的最佳擬合。一個基于模型的算法可能通過構建反應數據點空間分布的密度函數來定位聚類。它也基于標準的統計數字自動決定聚類的數目，老呂噪聲數據或孤立點，從而產生健壯的聚類方法。基于模型的聚類試圖優化給定的數據和某些數據模型之間的適應性。這樣的方法經常是基于這樣的假設：數據是根據潛在的概率分布生成的。基于模型的方法主要有兩類：統計學方法和網絡神經方法。其中，統計學方法有COBWEB算法，網絡神經方法有SOM算法。 3.1.6 基于約束的方法真實世界中的聚類問題往往是具備多種約束條件的,然而由于在處理過程中不能準確表達相應的約束條件、不能很好地利用約束知識進行推理以及不能有效利用動態的約束條件,使得這一方法無法得到廣泛的推廣和應用。這里的約束可以是對個體對象的約束,也可以是對聚類參數的約束,它們均來自相關領域的經驗知識。該方法的一個重要應用在于對存在障礙數據的二維空間數據進行聚類。COD (Clustering with Ob2structed Distance)就是處理這類問題的典型算法,其主要思想是用兩點之間的障礙距離取代了一般的歐氏距離來計算其間的最小距離。

總結

以上是生活随笔為你收集整理的聚类算法学习指南（二）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： .net framework3.0_
下一篇：【转载】可复用的FS