文献记录(part75)--基于最大平均熵率的大数据关联聚类算法
生活随笔
收集整理的這篇文章主要介紹了
文献记录(part75)--基于最大平均熵率的大数据关联聚类算法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
學習筆記,僅供參考,有錯必糾
基于最大平均熵率的大數據關聯聚類算法
摘要
聚類是數據挖掘和機器學習中的基本任務之一 . 傳統聚類方法由于其設計中對簇結構假設的限制 , 導致算法在不符合其假設的數據集上 , 尤其是大型高維數據集上的聚類效果較差.
本文引入了最大平均熵率的概念 , 設計了一種基于圖的關聯聚類算法.該算法將關聯聚類問題分解為多個獨立的單類優化問題 , 并利用鄰域消除了關聯聚類對大數據的限制 . 算法實現通過啟發式鄰域搜索和類生成簡化了對最優鄰域和關聯聚類的求解過程 , 并且設計了適應分布式計算平臺的圖迭代方法 . 與其他聚類算法相比 , 該算法在提高計算效率的同時 , 對簇結構假設相對靈活 , 可適用于多種分布數據 .
在聚類實驗中 , 算法的 f1-measure 和 purity 指數均好于其他 6 種聚類算法 , 而且對于高維大數據集 , 算法的運行時間遠遠低于其他聚類算法.
引言
聚類是數據挖掘中的基礎問題 , 同時也是機器學習中一類重要的無監督學習問題 . 聚類算法廣泛應用于計算機視覺、生物醫學和交通規劃等諸多領域 , 也作為變量篩選、維度篩選等預處理步驟出現在多種復雜算法中[1~3]。
聚類算法的目標是尋找數據集中相似元素聚集成的簇 . 現有聚類算法可按建模方法分為以下 3 類:
- 簇內建模:比如 k-means[4]和 mean-shift[5]算法假設存在簇中心 , 且點和所屬簇的簇中心相似度均高于其他簇中心 . 其中 k-means 是計算全局的 k 個簇中心 , 而 mean-shift 是計算局部的極值點作為簇中心
總結
以上是生活随笔為你收集整理的文献记录(part75)--基于最大平均熵率的大数据关联聚类算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MultipeerConnectivit
- 下一篇: OA(part1)