dbscan算法中 参数的意义_基于变参数的DBSCAN算法
安全模型、算法與編程 ‖34‖ 基于變參數的 DBSCAN 算法 ◆付澤強 王曉鋒 (江南大學物聯網工程學院 江蘇 214122) 摘要:DBSCAN 算法是一種常用的基于密度的聚類算法,其優點在于性能較為優越,不受數據的分布狀態影響,可以發現不規則形狀的簇。但是當數據密度分布是不均勻的時候,半徑參數Eps的設定值會對聚類結果產生巨大影響。為了提高算法的聚類效果,提出了一種基于變參數的 DBSCAN 算法。該算法根據分布不均勻的數據密度,運用一維聚類產生對應的不同半徑參數 Eps,然后使用不同的參數依次對數據進行聚類。實驗結果表明,改進后的算法聚類質量更高。 關鍵詞:數據挖掘;聚類;密度分布;dbscan;Eps 0 引言 數據挖掘又名數據采礦。它是數據庫知識發現中的一個步驟。數據挖掘一般是指從大量的數據樣本中尋找出隱藏的,包含有潛在應用價值的數據的過程。聚類(Clustering)是數據挖掘一個重要的研究方向,聚類挖掘就是將未知的數據對象分成多個類。人們通過聚類分析,識別密集的或稀疏的區域,從而發現全局的分布模式,以及數據屬性之間有趣的相互關系。聚類挖掘是在事先不知道數據樣本有多少類的情況下,通過處理使所有數據按照相似程度大小組成不同的類,同一類的元素相似性大,不同類的元素相似性小。聚類作為一種典型的數據挖掘方法,一直以來都是人工智能領域的一個研究熱點,被廣泛地應用于人臉圖像識別、股票分析預測、搜索引擎、生物信息學等重要領域中[1]。聚類算法主要包括層次聚類[2]、劃分聚類[3]、密度聚類[4]、網格聚類[5]等。DBSCA N[6]是由 EsterMartin 等人提出的一種經典的基于密度的聚類算法,能識別噪聲并發現任意形狀的簇,具有較強的聚類能力。但算法全局只有固定的參數 Eps,當數據樣本密度分布不均勻的時候,聚類結果就不能反應數據樣本的真實情況了[7,8]。雖然人們已經研究出很多事先確定 Eps 參數的方法[9],但效果并不如人意。鑒于 DBSCAN 算法存在的問題,文中提出了一種自適應的使用變參數的改進 DBSCAN 算法,以達到改善聚類效果的目的。 1 相關算法 1.1 DBSCAN 算法 dbscan 聚類算法相關的定義如下: 定義 1 Eps:表示數據點的半徑。Eps 鄰域:給定對象半徑為 Eps 內的區域稱為該對象的 Eps 鄰域。 定義 2 Min Pts:表示核心點在 Eps 半徑范圍內含有多少個其他數據點的個數。 定義 3 核心點:如果給定點 Eps 領域內的樣本點數大于等于 MinPts,則稱該點為核心點。 定義 4 直接密度可達:對于樣本集合 D,對于點 q和點 p,如果樣本點 q 在 p 的 E p s 領域內,p 是核心點,則點 q 從點 p 直接密度可達。 定義 5 密度可達:如果對于給定的 Eps,Minpts 存在點鏈 X 1,X 2,X 3?X n,其中 X1=X,X n=Q,而且 Xi從Xi+1直接密度可達,那么點 X 從點 Q 密度可達。 定義 6 如果 p在半徑 Eps 鄰域內含有的對象小于 Min Pts,且它不在其它核心對象的 Eps 鄰域范圍內,稱 p為噪聲對象。 DBSCAN算法思想是通過檢查一個對象的Eps鄰域的密度是 否足夠高,是否可以建立一個以該對象為核心對象的新簇,可以的話再合并密度可達簇,最終得到不同的類。它可以在帶有“噪聲”的空間數據庫中發現任意形狀的聚類[10,11]。DBSCAN 算法根據給定的密度閾值識別簇,而密度閾值是由 Eps 和 Min Pts 兩個參數來決定的,算
總結
以上是生活随笔為你收集整理的dbscan算法中 参数的意义_基于变参数的DBSCAN算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 治输卵管堵塞要多少钱
- 下一篇: 排序 时间倒序_经典排序算法之冒泡排序(