日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘学习05 - 使用R对文本进行hierarchical cluster并验证结果

發布時間:2025/3/20 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘学习05 - 使用R对文本进行hierarchical cluster并验证结果 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文目的

最近一直在使用R進行hcluster計算,主要采用了一些R自帶的距離公式和cophenetic距離驗證聚類的質量。其中R自帶的hclust方法不支持cosine函數,如果需要下載R的擴展,要下載許多關聯的庫,所以自己編寫了一個簡單的cosine函數,并且使用了R的proxy擴展(距離計算框架),計算向量距離。內容涉及比較多,所以記錄一下,作為備忘。


采用R計算hclust

步驟一:準備數據。采用read.table函數,讀取外部文件,實驗文件這里下載。

cd = read.table("d:/cluster_data.txt", header = TRUE); attributes(cd);

截圖如下:

cd是一個特征舉證,每一行是文檔的id和此文檔的特征向量,代表一個文本,列代表的是詞語,這里用wN代替。

?

步驟二:計算文本之間的距離矩陣。距離矩陣用作度量聚類之間的相近程度。常用的距離公式有歐式距離,manhattan距離。計算方法如下:

cds = dist(cd, method="euclidean") attributes(cds)

截圖如下:

?

步驟三:計算層級聚類。常用的聚類方式有三種,single,complete和average。

  • single: 兩個聚類之間最近的點作為聚類的距離
  • complete:兩個聚類之間最遠的點作為聚類的距離
  • average:將聚類中的所有向量之和的平局向量作為聚類中心點,中心點最近的聚合成一類。

averge聚類的效果介于single和complte之間,如下面命令,

cave = hclust(cds, method="average") plot(cave,hang=-1)

下面聚類后的依賴樹:

?

步驟四:驗證聚類。層級聚類采用cophenetic distance用于度量聚類的效果(具體什么是cophenetic disctance可以參見Introduction to Data Mining by Pang-Ning Tan & Michael Steinbach & Vipin Kumar: Chapter 8.5.4)。R提供了此函數的實現,所以可以直接調用cophenetic函數驗證結果,此函數值是介于-1~1之間,越大,說明聚類效果越好。命令如下,

cop = cophenetic(cave) cor(cop, cds)

結果如下:


采用余弦定理cosine計算文本之間的距離

余弦定理可以計算文本向量的相似度,吳軍先生的數學之美系列描述過此應用。但是,上面提到的dist方法不知此余弦公式。嘗試過使用其他擴展中的相關實現,但是無法直接使用。最后找到一個解決方案,使用R擴展庫proxy提供的dist計算框架,然后加入加入自己的cosine的簡單實現,如果添加R擴展,可以參見這里。自定義cosine函數如下:

cosine = function(a,b) { len = (sqrt(a %*% a)*sqrt(b %*% b)); if (len == 0) { 0; } else { (a %*% b)/len; } }

(是不是寫法有點像JS)

定義好cosine后,加載proxy庫,

library(proxy)

計算距離方法與上面一樣,只是method的值為cosine,如下

cds = dist(t,method="cosine")

注意,一定要加引號,否則調用的是sine。計算聚類的方式與上面一樣,這里不再重復。


所有距離方法和聚類方法的測試腳本

disFunc = c("euclidean", "maximum", "manhattan" , "canberra", "binary", "minkowski"); #disFunc = c("euclidean", "cosine"); cluFunc = c("complete", "single", "average", "ward", "mcquitty", "median", "centroid"); qc = read.table("d:/cluster_data.txt", header = TRUE); for (dis in disFunc) { for (clu in cluFunc) { qcDis = dist(qc, method=dis); c = hclust(qcDis, method=clu); cop = cophenetic(c); r = cor(cop,qcDis); print(paste(dis, clu, r, sep=" ")); } }

運行結果如下:


實驗總結

實驗過程中,發現距離公司相同的情況下,average的評測結果一般是最好的。不同距離公式的同一種聚類方式沒有比較意義,比如即使euclidean的average方式比manhattan的average的驗證結果低,但是并不意味前者的聚類結果比后者差,因為聚類評測都是根據統一中方法的距離公司計算相關系數,所以沒有比較性。



相關資料

  • proxy框架與自定義距離函數: http://stackoverflow.com/questions/7482797/how-to-specify-other-method-for-dist-function-in-r
  • Cluster Analysis : Toturial with R: http://cc.oulu.fi/~jarioksa/opetus/metodi/sessio3.pdf
  • Introduction to Data Mining by Pang-Ning Tan & Michael Steinbach & Vipin Kumar: Chapter 8.5.4
  • 數學之美十二 余弦定理和新聞分類: http://www.google.com.hk/ggblog/googlechinablog/2006/07/12_4010.html

轉載于:https://www.cnblogs.com/bourneli/archive/2012/10/30/2746996.html

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的数据挖掘学习05 - 使用R对文本进行hierarchical cluster并验证结果的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 手机看片日韩在线 | 国产福利久久 | 8x国产一区二区三区精品推荐 | 91性生活| 老头老太吃奶xb视频 | 姑娘第5集在线观看免费好剧 | 高跟鞋av | 精品98| 性色视频| 国产在线观看xxx | 免费成人黄色片 | 免费污片网站 | 五月天av影院 | 国产精品美女久久久久久 | 欧美色图片区 | 日精品 | 国产精品国产馆在线真实露脸 | 国产又黄又粗又长 | 亚洲资源站 | 天天综合天天添夜夜添狠狠添 | 草草在线影院 | 2018中文字幕在线观看 | 国产成人二区 | 久久久久亚洲av成人网人人软件 | 在线观看免费看片 | 深夜成人福利视频 | 成人精品一区二区三区电影黑人 | 神马一区二区三区 | 大地资源中文在线观看免费版 | 欧美天堂在线视频 | 视频国产精品 | 浪漫樱花在线观看高清动漫 | 午夜一区二区视频 | 国产亚洲成av人片在线观看桃 | 无码国内精品人妻少妇蜜桃视频 | 99热一区二区三区 | 国产一级片 | 成人午夜sm精品久久久久久久 | 激情免费网站 | 99久久99久久久精品棕色圆 | 先锋影音av资源在线观看 | 射久久久 | 欧美日本韩国一区二区三区 | 美女网站一区 | 韩国伦理片免费看 | www..com国产 | 游戏涩涩免费网站 | 香蕉午夜视频 | 日韩av网址在线观看 | 无码人妻一区二区三区av | 青青草原综合网 | 一级欧美日韩 | 精品人妻一区二区三区在线视频 | 欧美黄色免费在线观看 | 麻豆av免费在线 | 日韩乱码人妻无码系列中文字幕 | 欧洲色区| 欧洲美熟女乱又伦 | 九九热视频精品在线观看 | 日韩一级网站 | 色视频线观看在线播放 | 国色天香一区二区 | 秋霞一区二区 | 美女一二区 | 亚洲男人的天堂在线观看 | ass亚洲尤物裸体pics | 怎么可能高潮了就结束漫画 | 国产青青在线 | 欧美视频一区 | 性自由色xxxx免费视频 | 福利一区视频 | 成人在线免费看片 | 午夜影院免费体验区 | 国产一区二区在线精品 | 中国人与拘一级毛片 | 天堂在线中文字幕 | 91亚洲精品久久久久久久久久久久 | 国产美女精品视频 | 一区免费 | 四川操bbb| 日韩欧美在线不卡 | 老牛嫩草二区三区观影体验 | 色成人亚洲 | 亚洲五月花 | 亚洲无码精品在线观看 | 波多野结衣黄色网址 | 五月婷婷狠狠爱 | 福利在线免费视频 | 俄罗斯美女一级爱片 | 蜜臀av在线播放 | 亚洲一区二区三区免费在线观看 | 亚洲国产欧美一区 | 乱淫的女高中暑假调教h | 黄色片hd | 国产精品99999 | 天天色影 | www.成人精品 | 精品国产97 | 国产精品日本一区二区在线播放 |