生活随笔
收集整理的這篇文章主要介紹了
【算法竞赛学习】数据分析达人赛2:产品关联分析
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
賽題背景
賽題以購物籃分析為背景,要求選手對品牌的歷史訂單數據,挖掘頻繁項集與關聯規則。通過這道賽題,鼓勵學習者利用訂單數據,為企業提供銷售策略,產品關聯組合,為企業提升銷量的同時,也為消費者提供更適合的商品推薦。
賽題數據
數據源:order.csv,product.csv,customer.csv,date.csv ,分別為訂單表,產品表,客戶表,日期表,使用天池實驗室打比賽即可直接在notebook中掛載數據源https://tianchi.aliyun.com/competition/entrance/531891/information
賽題任務
現在需要你使用關聯分析(比如Apriori算法) 挖掘訂單中的頻繁項集及關聯規則
說明:
1)頻繁項集、關聯規則的計算會用到支持度、置信度、提升度等指標,
2)頻繁項集:即大于最小支持度的商品或商品組合
3)關聯規則:在頻繁項集中,滿足最小置信度,或最小提升度的推薦規則
(這里最小支持度、最小置信度或最小提升度,選手可以根據數據集的特點自己設定)
import pandas
as pd
import time
import matplotlib
.pyplot
as plt
from matplotlib
import font_manager
import matplotlib
matplotlib
.rcParams
['font.family'] = 'Microsoft YaHei'df_product
= pd
.read_csv
("./product.csv", encoding
='gbk')
df_date
= pd
.read_csv
("./date.csv", encoding
='gbk')
df_customer
= pd
.read_csv
('./customer.csv', encoding
='gbk')
df_order
= pd
.read_csv
('./order.csv', encoding
='gbk')df_order
['訂單日期'] = pd
.to_datetime
(df_order
['訂單日期'])
df_order
df_order
= df_order
.groupby
(['客戶ID', '訂單日期'])['產品名稱'].unique
()
df_order
transactions
= []
for value
in df_order
:transactions
.append
(list(value
))
from efficient_apriori
import aprioristart
= time
.time
()
Itemsets
, rules
= apriori
(transactions
, min_support
=0.03, min_confidence
=0.05)
print('頻繁項集:', Itemsets
)
print('關聯規則:', rules
)
end
= time
.time
()
print("用時:", end
- start
)
Itemsets_pro
= []
Itemsets_num
= []
for key
in Itemsets
.keys
():df1
= Itemsets
[key
]for key
in df1
:Itemsets_pro
.append
(key
)Itemsets_num
.append
(df1
[key
])
Itemsets_pro_str
= []
for i
in Itemsets_pro
:Itemsets_pro_str
.append
(','.join
(list(i
)))
plt
.figure
(figsize
=(12,9),dpi
=100)
plt
.bar
(Itemsets_pro_str
, Itemsets_num
)
plt
.xlabel
('頻繁項集_產品名稱', fontsize
=10)
plt
.ylabel
('頻繁項集_出現頻數', fontsize
=10)
plt
.title
('頻繁項集頻數分布柱狀圖', fontsize
=16)
plt
.xticks
(rotation
=90, fontsize
=10)
for a
, b
in zip(Itemsets_pro_str
, Itemsets_num
): plt
.text
(a
, b
+ 0.005, str(b
), ha
='center', va
='bottom', fontsize
=7)
plt
.show
()
總結
以上是生活随笔為你收集整理的【算法竞赛学习】数据分析达人赛2:产品关联分析的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。