日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘导论课后习题答案-第七章

發(fā)布時(shí)間:2023/12/18 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘导论课后习题答案-第七章 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

最近在讀《Introduction to Data Mining 》這本書,發(fā)現(xiàn)課后答案只有英文版,于是打算結(jié)合自己的理解將答案翻譯一下,其中難免有錯(cuò)誤,歡迎大家指正和討論。侵刪。

第七章



(a)

(b) 5
(c)
候選項(xiàng)集:10+28+3=41
頻繁項(xiàng)集:8+10+0=18
(d)

候選項(xiàng)集:5+10+0=15
頻繁項(xiàng)集:5+3+0=8
(e)
d中產(chǎn)生較少的項(xiàng)集


(a)
D1:
溫度分為X1 ( 80 - 87 ),X2 ( 88 - 95 ),X3 ( 96 - 103 )
氣壓分為Y1 ( 1025 - 1051 ),Y2 ( 1052 - 1078 ),Y3 ( 1079 - 1105 )

產(chǎn)生7個(gè)頻繁1-項(xiàng)集、12個(gè)頻繁2-項(xiàng)集( (X1,Y1)、(X3,Y3)、(X1,Alarm1)、(X3,Alarm1)、(Y1,Alarm1)、(Y3,Alarm1)、(X3,Alarm2)、(Y3,Alarm2)、(Y3,Alarm3)、(Alarm1,Alarm2)、(Alarm1,Alarm3)、(Alarm2,Alarm3) )、5個(gè)頻繁3-項(xiàng)集( (X1,Y1,Alarm1)、(X3,Y3,Alarm1)、(X3,Y3,Alarm2)、(X3,Alarm1,Alarm2)、(Y3,Alarm1,Alarm2))

D2:
溫度分為X1 ( 80 - 85 ),X2 ( 86 - 97 ),X3 ( 100 - 103 )
氣壓分為Y1 ( 1025 - 1038 ),Y2 ( 1039 - 1084 ),Y3 ( 1085 - 1105 )

產(chǎn)生9個(gè)頻繁1-項(xiàng)集,7個(gè)頻繁2-項(xiàng)集((X3,Alarm1)、(X3,Alarm2)、(Y2,Alarm1)、(Y3,Alarm3)、(Alarm1,Alarm2)、(Alarm2,Alarm3)、(Alarm1,Alarm3)),1個(gè)頻繁3-項(xiàng)集((X3,Alarm1,Alarm2))
(b)

(ii)有兩個(gè)自然聚類。(iii)用K-均值聚類算法。
(iv)

(v)產(chǎn)生5個(gè)頻繁1-項(xiàng)集,7個(gè)頻繁2-項(xiàng)集,1個(gè)頻繁3-項(xiàng)集((C2,Alarm1,Alarm2))


(a)
(i):S=1/6,C=1
(ii):S=1/6,C=1

(b)
當(dāng) bin-width = 2 時(shí),A1=1≤A≤2,A2=3≤A≤4,A3=5≤A≤6,A4=7≤A≤8,A5=9≤A≤10,A6=11≤A≤12,

對(duì)于第一個(gè)規(guī)則{(1≤A≤2),B=1}→{C=1}有對(duì)應(yīng)的規(guī)則{A1=1,B=1}→{C=1}
S({A1=1,B=1}→{C=1})=1/6
C({A1=1,B=1}→{C=1})=1
因此能發(fā)現(xiàn)這個(gè)規(guī)則

對(duì)于第二個(gè)規(guī)則{(5≤A≤8),B=1}→{C=1}有對(duì)應(yīng)的規(guī)則{A3=1,B=1}→{C=1}和{A4=1,B=1}→{C=1}
S({A3=1,B=1}→{C=1})=1/12
C({A3=1,B=1}→{C=1})=1
S({A4=1,B=1}→{C=1})=1/12
C({A4=1,B=1}→{C=1})=1
支持度小于閾值15%,不能發(fā)現(xiàn)

當(dāng) bin-width = 3 時(shí),A1=1≤A≤3,A2=4≤A≤6,A3=7≤A≤9,A4=10≤A≤12

對(duì)于第一個(gè)規(guī)則{(1≤A≤2),B=1}→{C=1}有對(duì)應(yīng)的規(guī)則{A1=1,B=1}→{C=1}
S({A1=1,B=1}→{C=1})=1/6
C({A1=1,B=1}→{C=1})=2/3
因此能發(fā)現(xiàn)這個(gè)規(guī)則

對(duì)于第二個(gè)規(guī)則{(5≤A≤8),B=1}→{C=1}有對(duì)應(yīng)的規(guī)則{A2=1,B=1}→{C=1}和{A3=1,B=1}→{C=1}
S({A2=1,B=1}→{C=1})=1/12
C({A2=1,B=1}→{C=1})=1
S({A3=1,B=1}→{C=1})=1/12
C({A3=1,B=1}→{C=1})=1
支持度小于閾值15%,不能發(fā)現(xiàn)

當(dāng) bin-width = 4 時(shí),A1=1≤A≤4,A2=5≤A≤8,A3=9≤A≤12

對(duì)于第一個(gè)規(guī)則{(1≤A≤2),B=1}→{C=1}有對(duì)應(yīng)的規(guī)則{A1=1,B=1}→{C=1}
S({A1=1,B=1}→{C=1})=1/6
C({A1=1,B=1}→{C=1})=1/2
置信度小于閾值60%,不能發(fā)現(xiàn)

對(duì)于第二個(gè)規(guī)則{(5≤A≤8),B=1}→{C=1}有對(duì)應(yīng)的規(guī)則{A2=1,B=1}→{C=1}
S({A2=1,B=1}→{C=1})=1/6
C({A2=1,B=1}→{C=1})=1
能發(fā)現(xiàn)這個(gè)規(guī)則

(c)
沒有一種寬度可以同時(shí)發(fā)現(xiàn)這兩種規(guī)則,解決辦法是結(jié)合考慮多個(gè)寬度。

(a)
(i):C({15<A<25→10<B<20})= 10/30 = 33.3%,C({10<A<25→10<B<20})= 15/45 = 33.3%,C({15<A<35→10<B<20})= 15/65 = 23.1%,
(ii):C({15<A<25→10<B<20})= 10/30 = 33.3%,C({15<A<25→5<B<20})= 15/30 = 50.0%,C({15<A<25→5<B<30})= 25/30 = 83.3%,
(iii):C({15<A<25→10<B<20})= 10/30 = 33.3%,C({10<A<35→5<B<30})= 59/80 = 73.8%,

(b)
年齡在15到35之間的因特網(wǎng)用戶有65個(gè)
平均上網(wǎng)小時(shí)數(shù)為:( 2.5×12+7.5×20+15×15+25×13+35×5 ) / 65 = 13.82
因此基于統(tǒng)計(jì)學(xué)的規(guī)則為:15<A<35→B:μ = 13.82
(c)
其他用戶有35個(gè)
平均上網(wǎng)小時(shí)數(shù)為:( 2.5×6+7.5×9+15×10+25×6+35×4 ) / 35 = 14.93
年齡在15到35之間用戶上網(wǎng)小時(shí)的方差=9.786
其他用戶上網(wǎng)小時(shí)的方差=10.203
Z = ( 14.93 - 13.82 )/ (9.7862/65 + 10.2032/35)= 0.476 < 1.64
因此在95%置信度下不顯著。

年級(jí):
(a)7個(gè)
(b)比如一年級(jí)學(xué)生則一年級(jí)二元屬性為1,其他屬性為0
(c)分為本科生、研究生、專業(yè)人員
郵政編碼:
(a)有很多
(b)對(duì)于每個(gè)郵政編碼,對(duì)應(yīng)的二元屬性取1,其他取0
(c)可以按照地理位置分
院:
(a)14個(gè)
(b)比如農(nóng)學(xué)則農(nóng)學(xué)二元屬性取1,其他取0
(c)按照大類分,比如理學(xué),工學(xué)等
住校:
(a)1個(gè)
(b)住校為1不住校為0
(c)無
語言:
(a)7個(gè)
(b)比如說漢語則漢語二元屬性取1,其他取0
(c)按大洲分,比如亞洲,北美洲等



(a)區(qū)間為[ 9 , 17 ]、[ 19 , 29 ]、[ 33 , 47 ]。滿足的區(qū)間為[ 19 , 29 ],支持度為16.7%,置信度為100%
(b)區(qū)間為[ 9 , 14 ]、[ 17 , 21 ]、[ 25 , 33 ]、[ 39 , 47 ]。沒有滿足的區(qū)間
(c)區(qū)間為[ 9 , 11 ]、[ 14 , 17 ]、[ 19 , 21 ]、[ 25 , 29 ]、[ 33 , 39 ]、[ 41 , 47 ]。滿足的區(qū)間為[ 9 , 11 ],支持度為16.7%,置信度為100%
(d)離散化區(qū)間時(shí),既不能太寬也不能太窄,否則有些規(guī)則無法被發(fā)現(xiàn)。




(a)困難是確定合適的支持度和置信度
(b)產(chǎn)生8個(gè)頻繁1-項(xiàng)集,25個(gè)頻繁2-項(xiàng)集,34個(gè)頻繁3-項(xiàng)集,20個(gè)頻繁4-項(xiàng)集
(c)產(chǎn)生8個(gè)頻繁1-項(xiàng)集,6個(gè)頻繁2-項(xiàng)集,1個(gè)頻繁3-項(xiàng)集
(d)C更有效但可能丟失一些頻繁項(xiàng)

(a)當(dāng)沒有分層包含多于1個(gè)的X的子女時(shí),取等號(hào)
(b)這三個(gè)都肯定是頻繁的
(c){p}→{q^}

(a)

(b)

(c)

(d)


答:



(a)
是。
否。不是子序列
否。不滿足mingap=0
是。
否。不是子序列
(b)

是。是。是。是。是。

是。是。是。是。是。

是。是。否。是。是。

否。否。否。是。是。

是。
否。不滿足mingap=0
否。不滿足mingap=0和ws=1
否。不滿足mingap=0
否。不滿足mingap=0和ws=1

(a)

(b)

(c)



限定ws=0,mingap=0,maxgap=3,maxspan=5
(a)1。該方法在對(duì)象時(shí)線中查找給定序列的至少一次出現(xiàn),出現(xiàn)多次也只會(huì)計(jì)數(shù)一次。
(b)2。觀察到的序列是{p(t=1),q(t=4),r(t=5)}、{p(t=6),q(t=7/8),r(t=10)},而{p(t=4),q(t=7),r(t=10)}超過窗口限制大小5
(c)2。最小出現(xiàn)窗口即窗口的子窗口中不含該序列,是CWIN的限制版,b中觀察到的兩個(gè)窗口都符合要求。
(d)3。{p(t=1),q(t=4),r(t=5)}、{p(t=6),q(t=7/8),r(t=10)}和{p(t=4),q(t=7),r(t=10)}
(e)2。當(dāng)一個(gè)事件-時(shí)間戳對(duì)被使用后就不允許再次使用,因此{(lán)p(t=6),q(t=7/8),r(t=10)}和{p(t=4),q(t=7),r(t=10)}只計(jì)數(shù)一次。

答:



(b)中圖有錯(cuò)誤,左圖的右上角應(yīng)該為a
答:



(b)|V|!
(c)k
(d)k-1

(a)

(b)
無法產(chǎn)生候選。



(a)
i.21000 - 1
ii.22000 - 1
iii.這種方法產(chǎn)生的候選項(xiàng)集太多,其中很多都是無用的
(b)

i.S = 3/7 = 42.9% , C = 3/3 = 100%
ii.S = 3/7 = 42.9% , C = 3/3 = 100%
iii.S = 3/7 = 42.9% , C = 3/3 = 100%
iv.S = 3/7 = 42.9% , C = 3/3 = 100%

(a)22d
(b)


(a)反單調(diào)
(b)非單調(diào)

總結(jié)

以上是生活随笔為你收集整理的数据挖掘导论课后习题答案-第七章的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。