日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

看见到洞见之引子(二)机器学习算法

發(fā)布時(shí)間:2023/12/4 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 看见到洞见之引子(二)机器学习算法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

《看見到洞見》系列文章匯聚、分享的是綠盟科技創(chuàng)新中心對(duì)于數(shù)據(jù)分析在安全領(lǐng)域應(yīng)用的技戰(zhàn)術(shù)思考與經(jīng)驗(yàn),力求由淺入深層次遞進(jìn),實(shí)戰(zhàn)到方法論雙線剖析。此文為系列文章之引子第二篇,深入淺出的對(duì)常用的數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的算法進(jìn)行介紹。

在上一篇中,我們介紹了幾種常用的監(jiān)督學(xué)習(xí)方法。在本篇中,我們介紹無監(jiān)督學(xué)習(xí)方法中的聚類方法。聚類是在高維度的未標(biāo)注數(shù)據(jù)中尋找特征的一系列方法。其思想是按照某個(gè)特定標(biāo)準(zhǔn)(如距離準(zhǔn)則)把一個(gè)數(shù)據(jù)集分割成不同的類或簇,使得同一個(gè)簇內(nèi)的數(shù)據(jù)對(duì)象的相似性盡可能大,同時(shí)不在同一個(gè)簇中的數(shù)據(jù)對(duì)象的差異性也盡可能的大。即聚類后同一類的數(shù)據(jù)盡可能聚集到一起,不同數(shù)據(jù)盡量分離。由于聚類算法不需要有標(biāo)簽的數(shù)據(jù),所以聚類算法在很多領(lǐng)域得到了廣泛的應(yīng)用,如模式識(shí)別、數(shù)據(jù)分析、圖像處理、市場(chǎng)研究、客戶分割、Web文檔分類等。本篇將介紹K-means聚類,層次聚類和DBSCAN聚類三種聚類算法。

文章目錄

????????K-means聚類

  • 層次聚類算法

  • DBSCAN

K-means聚類

K-means聚類算法是一種應(yīng)用非常廣泛的聚類方法,是一種劃分聚類方法。其基本思想為:給定一個(gè)包含n個(gè)對(duì)象的數(shù)據(jù)集,K-means聚類算法可以構(gòu)建數(shù)據(jù)的k個(gè)劃分,每個(gè)劃分就是一個(gè)簇,并且滿足:

????1、每個(gè)簇至少包含一個(gè)對(duì)象。

????2、每個(gè)對(duì)象必須屬于并且僅屬于一個(gè)簇。

K-means算法的流程如圖 1所示。

當(dāng)結(jié)果簇是密集的,而且簇和簇之間的區(qū)別比較明顯時(shí),K-means的效果較好。對(duì)于大數(shù)據(jù)集,K-means是相對(duì)可伸縮的和高效的,它的復(fù)雜度是O(nkt),其中,n是對(duì)象的個(gè)數(shù),k是簇的數(shù)目,t是迭代的次數(shù)。

K-means的最大問題是要求先給出k的個(gè)數(shù)。k的選擇一般基于經(jīng)驗(yàn)值和多次實(shí)驗(yàn)結(jié)果。對(duì)于不同的數(shù)據(jù)集,k的取值沒有可借鑒性。另外,K-means對(duì)孤立數(shù)據(jù)點(diǎn)是敏感的,少量噪聲數(shù)據(jù)就能對(duì)平均值造成極大的影響。

層次聚類算法

與K-means算法不同,層次聚類算法不再產(chǎn)生單一聚類,而是產(chǎn)生一個(gè)聚類層次,也就是說產(chǎn)生一棵層次樹。層次聚類算法最多包含n步,其中,n是數(shù)據(jù)集中對(duì)象的數(shù)量。每一步執(zhí)行的操作就是在前面步驟的聚類基礎(chǔ)上生成新聚類。層次聚類算法的流程如圖 2所示。

1、將每個(gè)對(duì)象歸為一類, 共得到n類,每類僅包含一個(gè)對(duì)象。類與類之間的距離就是它們所包含的對(duì)象之間的距離。

2、找到最接近的兩個(gè)類并合并成一類,于是總的類數(shù)少了一個(gè)。

3、重新計(jì)算新的類與所有舊類之間的距離。

4、重復(fù)第2步和第3步,直到最后合并成一個(gè)類為止(此類包含了n個(gè)對(duì)象)。

由于這種聚類算法迭代合并所有分類,所以這種層次聚類稱為“凝聚”法。也有一種“劃分”層次聚類法,與“凝聚”相反,它先將所有對(duì)象放在同一類中,并不斷劃分成更小的類,劃分法一般很少使用。

DBSCAN

(Density-Based Spatial Clustering of Applications with Noise,具有噪聲的基于密度的聚類方法)

DBSCAN是一種基于密度的空間聚類算法。該算法將具有足夠密度的區(qū)域劃分為簇,并能夠在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的簇。

DBSCAN算法基于一個(gè)事實(shí):一個(gè)聚類可以由其中的任何核心對(duì)象唯一確定。等價(jià)可以表述為:任一滿足核心對(duì)象條件的數(shù)據(jù)對(duì)象p,數(shù)據(jù)集D中所有從p密度可達(dá)的數(shù)據(jù)對(duì)象o所組成的集合構(gòu)成了一個(gè)完整的聚類C,且p屬于C。

算法流程可以描述為:掃描整個(gè)數(shù)據(jù)集,找到任意一個(gè)核心點(diǎn),對(duì)該核心點(diǎn)進(jìn)行擴(kuò)充。擴(kuò)充的方法是尋找從該核心點(diǎn)出發(fā)的所有密度相連的數(shù)據(jù)點(diǎn)(注意是密度相連)。遍歷該核心點(diǎn)的鄰域內(nèi)的所有核心點(diǎn)(因?yàn)檫吔琰c(diǎn)是無法擴(kuò)充的),尋找與這些數(shù)據(jù)點(diǎn)密度相連的點(diǎn),直到?jīng)]有可以擴(kuò)充的數(shù)據(jù)點(diǎn)為止。最后聚類成的簇的邊界節(jié)點(diǎn)都是非核心數(shù)據(jù)點(diǎn)。之后就是重新掃描數(shù)據(jù)集(不包括之前尋找到的簇中的任何數(shù)據(jù)點(diǎn)),尋找沒有被聚類的核心點(diǎn),再重復(fù)上面的步驟,對(duì)該核心點(diǎn)進(jìn)行擴(kuò)充直到數(shù)據(jù)集中沒有新的核心點(diǎn)為止。數(shù)據(jù)集中沒有包含在任何簇中的數(shù)據(jù)點(diǎn)就構(gòu)成異常點(diǎn)。

DBSCAN算法的顯著優(yōu)點(diǎn)是聚類速度快且能夠有效處理噪聲點(diǎn)和發(fā)現(xiàn)任意形狀的空間聚類。與K-means算法比較,DBSCAN算法不需要輸入要?jiǎng)澐值木垲悅€(gè)數(shù)。但是由于它直接對(duì)整個(gè)數(shù)據(jù)庫進(jìn)行操作,且進(jìn)行聚類時(shí)使用了一個(gè)全局性的表征密度的參數(shù),因此也具有兩個(gè)比較明顯的弱點(diǎn):

????1、當(dāng)數(shù)據(jù)量增大時(shí),要求較大的內(nèi)存支持,I/O消耗也很大。

????2、當(dāng)空間聚類的密度不均勻、聚類間距差相差很大時(shí),聚類質(zhì)量較差。


小結(jié):本篇介紹了無監(jiān)督學(xué)習(xí)的聚類算法中常用到的三種方法。至此機(jī)器學(xué)習(xí)算法方面的介紹也暫告一段落。


轉(zhuǎn)自網(wǎng)站綠盟科技博客

網(wǎng)站鏈接:http://blog.nsfocus.net/

文章鏈接:http://blog.nsfocus.net/machine-learning-algorithm2/

版權(quán)歸原作者所有,轉(zhuǎn)載僅供學(xué)習(xí)使用,不用于任何商業(yè)用途,如有侵權(quán)請(qǐng)留言聯(lián)系刪除,感謝合作。


數(shù)據(jù)與算法之美

用數(shù)據(jù)解決不可能


長(zhǎng)按掃碼關(guān)注



總結(jié)

以上是生活随笔為你收集整理的看见到洞见之引子(二)机器学习算法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。