R语言数据挖掘2.1.1.1 频繁项集
2.1.1.1 頻繁項集
頻繁項集的概念來源于真實的購物籃分析。在諸如亞馬遜等商店中,存在很多的訂單或交易數據。當客戶進行交易時,亞馬遜的購物車中就會包含一些項。商店店主可以通過分析這些大量的購物事務數據,發現顧客經常購買的商品組合。據此,可以簡單地定義零個或多個項的組合為項集。
我們把一項交易稱為一個購物籃,任何購物籃都有組元素。將變量s設置為支持閾值,我們可以將它和一組元素在所有的購物籃中出現的次數做比較,如果這組元素在所有購物籃中出現的次數不低于s,我們就將這組元素稱為一個頻繁項集。
若一個項集包含有k個項,則該項集稱為k項集,其中k是非零整數。項集X的支持計數記為support_count(X),表示給定數據集中包含項集X的計數。
給定一個預先定義的最小支持度閾值s,如果support_count(X)≥s,則稱項集X為頻繁項集。最小支持度閾值s是一個可以自定義的參數,可以根據領域專家或經驗進行調整。
頻繁項集也經常應用于許多領域,如下表所示。
????? 項?? 籃子???? 說明
相關概念???? 詞?? 文檔????
剽竊???? 文檔???? 句子????
生物標記物? 生物標記物和疾病??? 病人的數據集???
?
如果某個項集是頻繁的,那么該項集的任何一個子集也一定是頻繁的。這稱為Apriori原理,它是Apriori算法的基礎。Apriori原理的直接應用就是用來對大量的頻繁項集進行剪枝。
影響頻繁項集數目的一個重要因素是最小支持計數:最小支持計數越小,頻繁項集的數目也越多。
為了優化頻繁項集生成算法,人們提出一些其他概念:
閉項集:給定數據集S,如果Y∈S, X? Y,則support_count (X) ≠ support_count (Y),那么X稱作閉項集。換言之,如果X是頻繁的,則X是頻繁閉項集。
最大頻繁項集:如果Y∈S, X? Y,X是最大頻繁項集,則Y是非頻繁的。換言之,Y沒有頻繁超集。
約束頻繁項集:若頻繁項集X滿足用戶指定的約束,則X稱為約束頻繁項集。
近似頻繁項集:若項集X只給出待挖掘數據近似的支持計數,則稱為近似頻繁項集。
top-k頻繁項集:給定數據集S和用戶指定的整數k,若X是前k個頻繁項集,則X稱為top-k頻繁項集。
下面給出一個事務數據集的例子。所有項集僅包含集合D = {Ik |{k∈[1,7]}中的項。假定最小支持度計數為3。
tid(交易號)??? 項集或交易中的項列表
T001???? I1, I2, I4, I7
T002???? I2, I3, I6
T003???? I1, I4, I6
T004???? I1, I2, I5
T005???? I2, I3, I4
T006???? I2, I5, I6
T007???? I2, I4, I7
T008???? I1, I7
T009???? I1, I2, I3
T010???? I1, I2, I4
?
那么,可以得到頻繁項集L1 = {Ik | k∈{1, 2, 4, 6, 7}}和L2 = {{I1, I2},{I1, I4},{I2, I4}}。
總結
以上是生活随笔為你收集整理的R语言数据挖掘2.1.1.1 频繁项集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 魔兽怀旧服部落1-60升级任务路线 47
- 下一篇: 《Access 2007开发指南(修订版