关联规则分析 Apriori 算法 简介与入门
關(guān)聯(lián)規(guī)則的幾個(gè)概念:
關(guān)聯(lián)規(guī)則是形如 X -> Y 的蘊(yùn)含式,表示通過 X 可以推導(dǎo)出 Y,X稱為關(guān)聯(lián)規(guī)則的左部(Left Hand Side,LHS),Y 稱為關(guān)聯(lián)規(guī)則的右部(Right Hand Side,RHS)。
關(guān)聯(lián)規(guī)則有兩個(gè)指標(biāo),分別是支持度(Support)和置信度(Confidence)。關(guān)聯(lián)規(guī)則A -> B 的支持度(support)= P(AB),指的是事件 A 和事件 B 同時(shí)發(fā)生的概率。置信度(confidence) = P(B|A) = P(AB) / P(A),指的是發(fā)生事件A的基礎(chǔ)上,發(fā)生事件B的概率。比如,如果尿布->啤酒關(guān)聯(lián)規(guī)則的支持度為 30%,置信度60%,那么就表示所有的商品交易中,30% 交易同時(shí)購買了尿布和啤酒,在購買尿布的交易中,60% 的交易同時(shí)購買了啤酒。
關(guān)聯(lián)規(guī)則分析需要從基礎(chǔ)數(shù)據(jù)中挖掘出支持度和置信度都超過一定閾值的關(guān)聯(lián)規(guī)則,以便在決策中應(yīng)用。同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則,稱為強(qiáng)規(guī)則。
挖掘關(guān)聯(lián)規(guī)則的主流算法為 Apriori 算法。它的基本思想是在數(shù)據(jù)集中找出同時(shí)出現(xiàn)概率符合預(yù)定義(Pre-defined)支持度的頻繁項(xiàng)集,而后從以上頻繁項(xiàng)集中,找出符合預(yù)定義置信度的關(guān)聯(lián)規(guī)則。
原理:
如果某個(gè)項(xiàng)集是頻繁的,那么它的所有子集也是頻繁的。它的逆否命題是,如果一個(gè)項(xiàng)集是非頻繁的,那么它的所有超集也是頻繁的。
在上圖中,已知陰影項(xiàng)集{商品2,商品3}是非頻繁的。利用這個(gè)基礎(chǔ)知識(shí),我們可以知道項(xiàng)集 {商品0,商品2,商品3},{商品1,商品2,商品3} 以及 {商品0,商品1,商品2,商品3} 也是非頻繁的,因?yàn)樗鼈兪?{商品2,商品3} 的超集。于是在計(jì)算過程中,一旦計(jì)算出 {商品2,商品3} 的支持度,知道它是非頻繁的后,就可以緊接著排除它的超集,節(jié)省了計(jì)算工作量。
總結(jié)
以上是生活随笔為你收集整理的关联规则分析 Apriori 算法 简介与入门的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: leaf 叶子(张量)
- 下一篇: 项目:NMEA2000的数据格式解析