日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据科学与大数据分析项目练习-3将Apriori算法应用于R中提供的“Groceries”数据集

發(fā)布時(shí)間:2023/12/14 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据科学与大数据分析项目练习-3将Apriori算法应用于R中提供的“Groceries”数据集 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

R語言Apriori算法

  • 項(xiàng)目要求:
  • Project Start
  • **規(guī)則生成和可視化**

我們需要安裝arules and arulesViz包。

項(xiàng)目要求:

生成頻繁項(xiàng)目集滿足下面條件:
– The minimum support threshold as 0.02
– The minimum length of the itemsets as 1
– The maximum length of the itemsets as 10

生成的關(guān)聯(lián)規(guī)則滿足下面條件:
– The minimum support threshold as 0.001
– The minimum confidence threshold as 0.6

Project Start

# 下載并加載相關(guān)的包(可能需要梯子) install.packages('arules') install.packages('arulesViz') library('arules') library('arulesViz') # 讀取并展示“Groceries”包 data(Groceries) Groceries summary(Groceries) class(Groceries)


可以看到這個(gè)“Groceries”包一共有9835行和169列。

# 展示前20個(gè)grocery labels Groceries@itemInfo[1:20,]# 顯示第10至20的transactions apply(Groceries@data[,10:20], 2, function(r) paste(Groceries@itemInfo[r,"labels"], collapse=", ") )


接下來是生成頻繁項(xiàng)目集
參數(shù)的設(shè)置按照要求

# frequent 1-itemsets itemsets <- apriori(Groceries, parameter=list(minlen=1, maxlen=1, support=0.02, target="frequent itemsets")) summary(itemsets) inspect(head(sort(itemsets, by = "support"), 10))# frequent 2-itemsets itemsets <- apriori(Groceries, parameter=list(minlen=2, maxlen=2, support=0.02, target="frequent itemsets")) summary(itemsets) inspect(head(sort(itemsets, by ="support"),10))# frequent 3-itemsets itemsets <- apriori(Groceries, parameter=list(minlen=3, maxlen=3, support=0.02, target="frequent itemsets")) inspect(sort(itemsets, by ="support"))# frequent 4-itemsets itemsets <- apriori(Groceries, parameter=list(minlen=4, maxlen=4, support=0.02, target="frequent itemsets")) inspect(sort(itemsets, by ="support"))

生成的頻繁項(xiàng)目集結(jié)果如下:



規(guī)則生成和可視化

rules <- apriori(Groceries, parameter=list(support=0.001,confidence=0.6, target = "rules")) summary(rules) plot(rules) plot(rules@quality)

# 顯示rules與最高lift scores inspect(head(sort(rules, by="lift"), 10))


篩選出置信度大于0.9的rules

confidentRules <- rules[quality(rules)$confidence > 0.9] confidentRulesplot(confidentRules, method="matrix", measure=c("lift", "confidence"), control=list(recorder=TRUE))


一個(gè)127個(gè),之后polt成為matrix得到

# 選擇lift最高的5項(xiàng)規(guī)則 highLiftRules <- head(sort(rules, by="lift"), 5) plot(highLiftRules, method="graph", control=list(type="items"))

得到圖片如下所示。
從圖中我們可以得到買火腿的基本上都會(huì)購(gòu)買加工芝士,買爆米花或者soda飲料的很大概率會(huì)購(gòu)買咸味小吃。

參考書目

  • Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data, EMC Education Services, John Wiley & Sons, 27 Jan. 2015
  • 總結(jié)

    以上是生活随笔為你收集整理的数据科学与大数据分析项目练习-3将Apriori算法应用于R中提供的“Groceries”数据集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。