【机器学习】简单关联分析算法-Apriori algorithm
? ? ? ? 前面講的K-means?聚類(lèi)算法是一種無(wú)監(jiān)督學(xué)習(xí),今天要學(xué)習(xí)的A-priori算法是一個(gè)‘先驗(yàn)算法’,通過(guò)該算法我們可以對(duì)數(shù)據(jù)集做關(guān)聯(lián)分析(association analysis)。
? ? ? ? 用A-priori發(fā)現(xiàn)數(shù)據(jù)的頻繁項(xiàng)集(frequent item),關(guān)聯(lián)規(guī)則(association rules)。那什么是頻繁項(xiàng)集與關(guān)聯(lián)規(guī)則呢?
? ? ? ? 頻繁項(xiàng)集:經(jīng)常出現(xiàn)在一塊的物品的集合。
? ? ? ? 關(guān)聯(lián)規(guī)則:暗示兩種物品直接可能存在很強(qiáng)的關(guān)系。
? ? ? ? 上面為frequent item與association rules的大白話解釋,那么該如何定義和表示它倆呢?這里我們要引入支持度和可信度(置信度)。請(qǐng)您走向這個(gè)鏈接:Link_1
? ? ? ? 當(dāng)您讀到Link_1講解代碼的時(shí)候,我個(gè)人感覺(jué)博主梳理的知識(shí)邏輯比較不順了,這個(gè)時(shí)候推薦您走向這個(gè)鏈接:Link_2
? ? 總結(jié)Link_2:Apriori適合小規(guī)模數(shù)據(jù)集,Apriori主要基于frequent item,所以本文引用的關(guān)聯(lián)分析默認(rèn)都是基于頻繁集的關(guān)聯(lián)分析。?如果存在一條關(guān)聯(lián)規(guī)則,它的支持度和置信度都大于預(yù)先定義好的最小支持度與置信度,稱(chēng)之為強(qiáng)關(guān)聯(lián)規(guī)則。
? ? 強(qiáng)關(guān)聯(lián)規(guī)則可用來(lái)了解項(xiàng)之間的隱藏關(guān)系(Hidden Relationship),?:所以,association analysis的目的是為了尋找強(qiáng)關(guān)聯(lián)規(guī)則,而A-priori則主要用來(lái)幫助尋找強(qiáng)關(guān)聯(lián)規(guī)則。????????
? ? 頻繁集由候選集剪枝(prunning)得到:
? ? ? ? ? ? ①利用各項(xiàng)支持度與min_sup(最小支持度)進(jìn)行比較? => 最終頻繁集結(jié)果
? ? ? ? ? ? ②利用最終頻繁集結(jié)果以及各項(xiàng)置信度及min_conf(最小置信度) 進(jìn)行比較 =>就可得強(qiáng)關(guān)聯(lián)規(guī)則了
? ? ? ? 當(dāng)您讀完Link_2的時(shí)候,是不是感覺(jué)理論差不多都OK了呢?代碼部分可以繼續(xù)參考鏈接1與2。
? ? ? ?
????????
? ? ? ? 小結(jié)一下:
? ? ? ? ? ? ? ? 后續(xù)介紹DHP算法:An optimization of A-priori?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?DIC算法:Dynamic itemset counting【Reduce Number of Scans】?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 由Sergey Brin (Founder of Google)發(fā)明。
?
參考資料(建議按順序閱讀)
數(shù)據(jù)挖掘十大算法(四):Apriori(關(guān)聯(lián)分析算法)_昆蘭.沃斯 的博客-CSDN博客_關(guān)聯(lián)分析算法終于到了機(jī)器學(xué)習(xí)實(shí)戰(zhàn)的第十一章了,這也是繼K-均值后的第二個(gè)無(wú)監(jiān)督學(xué)習(xí)算法了。同樣的該算法也是在一堆數(shù)據(jù)集中尋找數(shù)據(jù)之間的某種關(guān)聯(lián),這里主要介紹的是叫做Apriori的‘一個(gè)先驗(yàn)’算法,通過(guò)該算法我們可以對(duì)數(shù)據(jù)集做關(guān)聯(lián)分析——在大規(guī)模的數(shù)據(jù)中尋找有趣關(guān)系的任務(wù),本文主要介紹使用Apriori算法發(fā)現(xiàn)數(shù)據(jù)的(頻繁項(xiàng)集、關(guān)聯(lián)規(guī)則)。這些關(guān)系可以有兩種形式:頻繁項(xiàng)集、關(guān)聯(lián)規(guī)則。? ? ? ? 頻...https://blog.csdn.net/qq_36523839/article/details/82191677?utm_source=app&app_version=4.17.0&code=app_1562916241&uLinkId=usr1mkqgl919blen
關(guān)聯(lián)分析之Apriori算法【精品】關(guān)聯(lián)分析之Apriori算法_臥龍居-CSDN博客_關(guān)聯(lián)分析apriori算法
總結(jié)
以上是生活随笔為你收集整理的【机器学习】简单关联分析算法-Apriori algorithm的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 16代表啥_16代表的爱情恋爱含义 16
- 下一篇: 成长之路——发现问题、提出问题和解决问题