挖掘频繁项集
一,Apriori算法
Apriori算法的基本思路:
? ? ? ? 產(chǎn)生L1候選集,剪枝(去掉L1里面不符合最小支持度的),連枝產(chǎn)生L2候選集,剪枝(去掉候選集不在數(shù)據(jù)集里的和不滿足最小支持度的),產(chǎn)生L3。。。直到不能再產(chǎn)生新的候選集(具體判定就是連枝的時(shí)候,k-2項(xiàng)集不存在,這時(shí)不能生成k項(xiàng)集)
算法中需要注意的細(xì)節(jié)
? ? ? ? 為了在統(tǒng)計(jì)L1候選集的頻次的時(shí)候,能把L1作為字典的健,要把L1進(jìn)行frozenset。用map()函數(shù),把list里面的每一個(gè)元素都轉(zhuǎn)換成set,轉(zhuǎn)換之后會(huì)有重復(fù)的set(set的不重復(fù)性指的是set內(nèi)部)。
? ? ? ? if a.issubset(b):如果a是b里面的子集則返回為真
? ? ? ? 數(shù)據(jù)集要預(yù)處理轉(zhuǎn)換成set形式,這樣才能保證數(shù)據(jù)集的安全性
? ? ? ?對(duì)于兩個(gè)游標(biāo)的(一般用于集合內(nèi)的排列組合):
for i in range(len):for j in range(i+1,len)? ? ?前k-2項(xiàng)是list[:k-2],冒號(hào)別忘了
?
? ? ? ??
? ? ?
轉(zhuǎn)載于:https://www.cnblogs.com/yttas/p/9991667.html
總結(jié)
- 上一篇: 快讯|腔镜手术机器人研发商“北京术锐”完
- 下一篇: 判断当前访问平台