FPGrowth算法总结复习
摘要:
1.算法概述
2.算法推導
3.算法特性及優缺點
4.注意事項
5.實現和具體例子
6.適用場合
內容:
1.算法概述
關聯規則(associatio rules):從大規模數據集中尋找物品建隱含關系被稱作關聯分析或關聯規則學習
頻繁項集(frequent itemsets):經常出現在一起的物品集合
FPgrowth是一個流行的頻繁項集挖掘的算法(韓家煒等人在2000年);在算法中使用了一種稱為頻繁模式樹(Frequent Pattern Tree)的數據結構(見算法推導)。
2.算法推導
2.1 幾個基本概念
支持度(support):支持度表示項集{X,Y}在總項集里出現的概率。?Support(X→Y) = P(X,Y) / P(I) = num(XUY) / num(I),其中I為總項集;
可信度或置信度(confidence):置信度表示在先決條件X發生的情況下,由關聯規則”X→Y“推出Y的概率;Confidence(X→Y) = P(Y|X) =?num(XUY) / num(X)
提升度(Lift):?Lift(X→Y) = P(Y|X) / P(Y)
強關聯規則:滿足最小支持度和最小置信度的規則
如果Lift(X→Y)>1,則規則“X→Y”是有效的強關聯規則。
? ? ? ? 如果Lift(X→Y) <=1,則規則“X→Y”是無效的強關聯規則。
? ? ? ? 特別地,如果Lift(X→Y) =1,則表示X與Y相互獨立。(參考自)
2.2 幾個基本原理
Aprori 原理:如果某條規則并不滿足最小可信度,則該規則的所有子集也不滿足最小可信度
3.算法特性及優缺點
優點:一般快于Apriori算法(只掃描兩次數據集)
缺點:實現比較困難,在某些數據集上性能下降
4.注意事項
連續數據要進行離散化
5.實現和具體例子
《機器學習實戰》中的實現以及發現國會投票中的模式案例
Spark mllib實現(run方法);使用AssociationRules挖掘關聯規則
應用:
交叉銷售:電信行業針對用戶已經使用的產品和業務,向其推薦他沒有使用的
6.適用場合
支持大規模數據:是
特征維度:無
是否有 Online 算法:這個沒必要吧?
特征處理:支持類別型數據或者離散型數據,連續數據要進行離散化
轉載于:https://www.cnblogs.com/arachis/p/FPGrowth.html
總結
以上是生活随笔為你收集整理的FPGrowth算法总结复习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [转]CNN的学习
- 下一篇: RobotFramework自动化4-批