SAS聚类分析(系统聚类cluster,动态聚类fastclus,变量聚类varclus)
1.?從21各工廠抽了同類產(chǎn)品,每個(gè)產(chǎn)品檢測(cè)了兩個(gè)指標(biāo),測(cè)得的數(shù)據(jù)如下(已作了適當(dāng)變換)欲將各廠產(chǎn)品的質(zhì)量情況進(jìn)行分類。
| No | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| X1 | 0 | 0 | 2 | 2 | 4 | 4 | 5 | 6 | 6 | 7 | -4 | -2 | -3 | -3 | -5 | 1 | 0 | 0 | -1 | -1 | -3 |
| X2 | 6 | 5 | 5 | 3 | 4 | 3 | 1 | 2 | 1 | 0 | 3 | 2 | 2 | 0 | 2 | 1 | -1 | -2 | -1 | -3 | -5 |
2. 數(shù)據(jù)見下表為某年各地農(nóng)民生活費(fèi)用支出數(shù)據(jù),試對(duì)這些指標(biāo)做變量聚類分析
| 地區(qū) | 食品 | 衣著 | 家庭設(shè)備用品及服務(wù) | 醫(yī)療保健 | 交通和 通信 | 教育文化娛樂服務(wù) | 居住 | 雜項(xiàng)商品和服務(wù) |
| 北京 | 4560.52 | 1442.42 | 977.47 | 1322.36 | 2173.26 | 2514.76 | 1212.89 | 621.74 |
| 天津 | 3680.22 | 864.89 | 634.39 | 1049.33 | 1092.87 | 1452.17 | 1368.2 | 405.99 |
| 河北 | 2492.26 | 849.58 | 460.27 | 737.43 | 875.43 | 827.72 | 864.92 | 235.88 |
| 山西 | 2252.5 | 1016.69 | 441.82 | 589.97 | 825.18 | 1007.92 | 830.38 | 206.48 |
| 內(nèi)蒙古 | 2323.55 | 1168.93 | 464.55 | 555 | 928.48 | 1052.65 | 802.26 | 371.19 |
| 遼寧 | 3102.13 | 846.91 | 362.1 | 767.13 | 797.64 | 853.92 | 909.42 | 348.23 |
| 吉林 | 2457.21 | 907.61 | 318.65 | 671.44 | 815.02 | 890.22 | 984.95 | 307.56 |
| 黑龍江 | 2215.68 | 971.44 | 319.37 | 634.3 | 665.01 | 843.94 | 755.32 | 250.37 |
| 上海 | 5248.95 | 1026.87 | 877.59 | 762.92 | 2332.83 | 2431.74 | 1435.72 | 645.13 |
| 江蘇 | 3462.66 | 886.82 | 647.52 | 600.69 | 1203.45 | 1467.36 | 997.53 | 362.56 |
| 浙江 | 4393.4 | 1383.63 | 615.45 | 852.27 | 2492.01 | 1946.15 | 1229.25 | 436.37 |
| 安徽 | 3091.28 | 869.55 | 336.99 | 441.42 | 788.25 | 869.23 | 694.17 | 203.83 |
| 福建 | 3854.26 | 784.71 | 525.65 | 513.61 | 1232.7 | 1321.33 | 1233.49 | 341.96 |
| 江西 | 2636.93 | 725.72 | 451.32 | 357.03 | 600.16 | 894.58 | 742.93 | 236.87 |
| 山東 | 2711.65 | 1091.22 | 526.29 | 624.06 | 1175.57 | 1201.97 | 838.17 | 299.48 |
| 河南 | 2215.32 | 919.31 | 431.02 | 520.57 | 762.08 | 847.12 | 737 | 252.76 |
| 湖北 | 2868.39 | 877.01 | 401.22 | 517.19 | 763.14 | 997.74 | 752.56 | 220.08 |
| 湖南 | 2850.94 | 868.23 | 513.63 | 632.52 | 965.09 | 1182.18 | 871.7 | 285 |
| 廣東 | 4503.86 | 719.26 | 633.03 | 707.86 | 2394.66 | 1813.86 | 1254.69 | 405 |
| 廣西 | 2857.4 | 477.67 | 360.62 | 401.06 | 785.01 | 850.9 | 826.86 | 232.43 |
| 海南 | 3097.71 | 375.42 | 405.81 | 369.33 | 1154.87 | 791.24 | 743.6 | 188.8 |
| 重慶 | 3415.92 | 1038.98 | 615.74 | 705.72 | 976.02 | 1449.49 | 954.56 | 242.26 |
| 四川 | 2838.22 | 754.93 | 505.83 | 449.87 | 1009.35 | 976.33 | 728.43 | 261.85 |
| 貴州 | 2649.02 | 832.74 | 446.53 | 329.77 | 775.07 | 938.37 | 627.23 | 249.66 |
| 云南 | 3102.46 | 745.08 | 335.14 | 600.08 | 1076.93 | 754.69 | 585.35 | 180.07 |
| 西藏 | 3107.9 | 734.83 | 211.1 | 221.7 | 694.21 | 359.34 | 612.67 | 250.82 |
| 陜西 | 2588.91 | 768.47 | 478.58 | 612.3 | 824.46 | 1280.14 | 746.59 | 253.84 |
| 甘肅 | 2408.37 | 854 | 403.8 | 562.74 | 703.07 | 1034.42 | 716.35 | 291.46 |
| 青海 | 2366.42 | 724.96 | 420.31 | 542.93 | 753.07 | 793.72 | 653.04 | 275.66 |
| 寧夏 | 2444.98 | 874.39 | 480.7 | 578.75 | 774.57 | 846.72 | 890.97 | 314.49 |
| 新疆 | 2386.97 | 953.03 | 364.11 | 472.35 | 765.72 | 819.72 | 698.66 | 269.45 |
實(shí)驗(yàn)代碼:
/*1、系統(tǒng)聚類*/ proc import out=temp1 datafile="C:\Users\86166\Desktop\IT\SAS實(shí)驗(yàn)\實(shí)驗(yàn)10\1.xls" DBMS=EXCEL2000 replace; run; proc cluster data=temp1 method=single std pseudo; /*proc cluster data=temp1 method=ward std pseudo ccc outtree=temp2; var x1-x6 id group*/ proc tree hor graphics; run; /*2、動(dòng)態(tài)聚類*/ data temp1; input area$ x1-x8 @@; cards; 北京 4560.52 1442.42 977.47 1322.36 2173.26 2514.76 1212.89 621.74 天津 3680.22 864.89 634.39 1049.33 1092.87 1452.17 1368.2 405.99 河北 2492.26 849.58 460.27 737.43 875.43 827.72 864.92 235.88 山西 2252.5 1016.69 441.82 589.97 825.18 1007.92 830.38 206.48 內(nèi)蒙古 2323.55 1168.93 464.55 555 928.48 1052.65 802.26 371.19 遼寧 3102.13 846.91 362.1 767.13 797.64 853.92 909.42 348.23 吉林 2457.21 907.61 318.65 671.44 815.02 890.22 984.95 307.56 黑龍江 2215.68 971.44 319.37 634.3 665.01 843.94 755.32 250.37 上海 5248.95 1026.87 877.59 762.92 2332.83 2431.74 1435.72 645.13 江蘇 3462.66 886.82 647.52 600.69 1203.45 1467.36 997.53 362.56 浙江 4393.4 1383.63 615.45 852.27 2492.01 1946.15 1229.25 436.37 安徽 3091.28 869.55 336.99 441.42 788.25 869.23 694.17 203.83 福建 3854.26 784.71 525.65 513.61 1232.7 1321.33 1233.49 341.96 江西 2636.93 725.72 451.32 357.03 600.16 894.58 742.93 236.87 山東 2711.65 1091.22 526.29 624.06 1175.57 1201.97 838.17 299.48 河南 2215.32 919.31 431.02 520.57 762.08 847.12 737 252.76 湖北 2868.39 877.01 401.22 517.19 763.14 997.74 752.56 220.08 湖南 2850.94 868.23 513.63 632.52 965.09 1182.18 871.7 285 廣東 4503.86 719.26 633.03 707.86 2394.66 1813.86 1254.69 405 廣西 2857.4 477.67 360.62 401.06 785.01 850.9 826.86 232.43 海南 3097.71 375.42 405.81 369.33 1154.87 791.24 743.6 188.8 重慶 3415.92 1038.98 615.74 705.72 976.02 1449.49 954.56 242.26 四川 2838.22 754.93 505.83 449.87 1009.35 976.33 728.43 261.85 貴州 2649.02 832.74 446.53 329.77 775.07 938.37 627.23 249.66 云南 3102.46 745.08 335.14 600.08 1076.93 754.69 585.35 180.07 西藏 3107.9 734.83 211.1 221.7 694.21 359.34 612.67 250.82 陜西 2588.91 768.47 478.58 612.3 824.46 1280.14 746.59 253.84 甘肅 2408.37 854 403.8 562.74 703.07 1034.42 716.35 291.46 青海 2366.42 724.96 420.31 542.93 753.07 793.72 653.04 275.66 寧夏 2444.98 874.39 480.7 578.75 774.57 846.72 890.97 314.49 新疆 2386.97 953.03 364.11 472.35 765.72 819.72 698.66 269.45 ; run; proc fastclus data=temp1 maxc=4 list out=temp2; var x1-x8; id area; proc candisc data=temp2 out=temp3; var x1-x8; class cluster; run; /*3、變量聚類 法一:行列轉(zhuǎn)換后用系統(tǒng)聚類分析*/ proc transpose data=temp1 out=temp2; var x1-x8; proc print data=temp2; proc cluster data=temp2 method=single std ; var COL1-COL31; id _NAME_; proc tree hor graphics; run; /*法二:使用varclus方差分析*/ proc varclus data=temp1 trace outtree=test; /*centroid minc=4*/ var x1-x8; proc tree data=test horizontal; run;實(shí)驗(yàn)結(jié)果:——》聚類分析結(jié)果壓縮包
?實(shí)驗(yàn)分析:
由RSQ統(tǒng)計(jì)量得,當(dāng)NCL為3時(shí),下一步NCL變成2的適合RSQ的值驟降,說明當(dāng)將數(shù)據(jù)分為3類比較合適,所以依次可以將21個(gè)工廠的產(chǎn)品質(zhì)量分類三類:{1,2,3,4,5,6,7,8,9,10},{11,12,13,14,15},{16,17,18,19,20,21}。
上述結(jié)果中產(chǎn)生了三種情況,第一種用主成分分析法不指定最小聚類數(shù)得到分類結(jié)果為{x1,x2,x3,x4,x5,x6,x7,x8};第二種用重心法且指定最小聚類數(shù)為4得到分類結(jié)果為{x1,x5},{x4,x7},{x3,x6,x8},{x2};第三種用行列轉(zhuǎn)置的方法得到分類結(jié)果為{x1},{x2,x7},{x5,x6},{x3,x4,x8}。
利用專業(yè)知識(shí)和經(jīng)驗(yàn)分析知:可以之間采用第三種分類的結(jié)果比較合適,食品消費(fèi)為單獨(dú)一類;居住和衣著有著相關(guān)聯(lián)系,居住地好的地方普遍衣著消費(fèi)更多;對(duì)于農(nóng)民來說交通和通信無非是用在教育文化和娛樂上產(chǎn)生的,所以分為一類;家庭設(shè)備,醫(yī)療保健和其他雜項(xiàng)商品和服務(wù)對(duì)于中國的廣大農(nóng)民來說都屬于不必備的東西屬于基本生活之外的額外需求,所以分為一類。
樣品數(shù)量1~100的時(shí)候使用系統(tǒng)聚類proc cluster,樣品數(shù)量100~100000的時(shí)候使用動(dòng)態(tài)聚類proc fastclus,pseudo是得到PSF和PSFT2即偽F和偽t2統(tǒng)計(jì)量來判斷分幾類;由R2值來看,某個(gè)類驟降的時(shí)候,則是分為幾個(gè)類的標(biāo)準(zhǔn),偽F值是出現(xiàn)峰值的時(shí)候,分類以這個(gè)峰值所在類為標(biāo)準(zhǔn),聚類分析有R型對(duì)變量或是指標(biāo)進(jìn)行聚類,Q型對(duì)樣品進(jìn)行聚類。而分別兩者的統(tǒng)計(jì)量一個(gè)是相似系數(shù),一個(gè)是距離。對(duì)于變量聚類的varclus方法,在結(jié)果中能直接得到分類結(jié)果,也可以自行分析。
總結(jié)
以上是生活随笔為你收集整理的SAS聚类分析(系统聚类cluster,动态聚类fastclus,变量聚类varclus)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java工程师是做什么的?
- 下一篇: java信息管理系统总结_java实现科