日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

多元统计分析 (一):聚类分析

發布時間:2024/8/1 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 多元统计分析 (一):聚类分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

多元分析(multivariate analyses)是多變量的統計分析方法,是數理統計中應用廣 泛的一個重要分支,其內容龐雜,視角獨特,方法多樣,深受工程技術人員的青睞和廣 泛使用,并在使用中不斷完善和創新。由于變量的相關性,不能簡單地把每個變量的結 果進行匯總,這是多變量統計分析的基本出發點。?

目錄

聚類分析概述

1 ?相似性度量

1.1 ?樣本的相似性度量

? ? ? ? ? ?閔氏距離、絕對值距離、歐氏距離、切比雪夫距離? ? ? ? ? ? ? ? ?馬氏距離

?1.2 ?類與類間的相似性度量?

?1)最短距離法(nearest neighbor or single linkage method)?

2)最長距離法(farthest neighbor or complete linkage method)?

3)重心法(centroid method)?

4)類平均法(group average method)?

5)離差平方和法(sum of squares method)、Ward 方法

2 ?系統聚類法 ?

生成聚類圖

2.2 ?最短距離法與最長距離法 ?

1)pdist ?計算任意兩個樣本點間的歐氏距離

2)linkage ?:用短距離算法生成具層次結構的聚類樹

3)cluster ?:從連接輸出(linkage)中創建聚類

4)zsore(X) :標準化數據矩陣

?5)H=dendrogram(Z,P) 畫聚類樹狀圖

6)T=clusterdata(X,cutoff) ? 將矩陣X的數據分類

7)squareform ?:將pdist的輸出轉換為方陣

8)cophenet ?計算相關系數

3 ?變量聚類法 ?

?3.1 ?變量相似性度量 ?

?1)相關系數?? ? ? ? ? ? ? ? ? ? ? ? ? ? ?2)夾角余弦?

3.2 ?變量聚類法 ?

1)最大系數法 ?? ? ? ? ? ? ? ? ? ? ? ?2) 最小系數法

2 ?聚類分析案例—我國各地區普通高等教育發展狀況分析?

? ? ? ??2.案例研究過程

(1)建立綜合評價指標體系? ? ? ? ? ? ? ? ? ? ? ? ? ? ??(2)數據資料?

(3)R型聚類分析 ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(4)Q 型聚類分析

4.案例研究結果?


聚類分析概述

將認識對象進行分類是人類認識世界的一種重要方法,比如有關世界的時間進程 的研究,就形成了歷史學,也有關世界空間地域的研究,則形成了地理學。又如在生物 學中,為了研究生物的演變,需要對生物進行分類,生物學家根據各種生物的特征,將 它們歸屬于不同的界、門、綱、目、科、屬、種之中。事實上,分門別類地對事物進行 研究,要遠比在一個混雜多變的集合中更清晰、明了和細致,這是因為同一類事物會具 有更多的近似特性。在企業的經營管理中,為了確定其目標市場,首先要進行市場細分。 因為無論一個企業多么龐大和成功,它也無法滿足整個市場的各種需求。而市場細分, 可以幫助企業找到適合自己特色,并使企業具有競爭力的分市場,將其作為自己的重點 開發目標。

通常,人們可以憑經驗和專業知識來實現分類。而聚類分析(cluster analyses)作 為一種定量方法,將從數據分析的角度,給出一個更準確、細致的分類工具。

1 ?相似性度量

1.1 ?樣本的相似性度量

要用數量化的方法對事物進行分類,就必須用數量化的方法描述事物之間的相似 程度。一個事物常常需要用多個變量來刻畫。如果對于一群有待分類的樣本點需用 p 個變量描述,則每個樣本點可以看成是 空間中的一個點。因此,很自然地想到可以用?距離來度量樣本點間的相似程度。?

這一距離的定義是我們所熟知的,它滿足正定性,對稱性和三角不等式。在聚類 分析中,對于定量變量,常用的是 Minkowski 距離

閔氏距離、絕對值距離、歐氏距離、切比雪夫距離

在 Minkowski 距離中,常用的是歐氏距離,它的主要優點是當坐標軸進行正交 旋轉時,歐氏距離是保持不變的。因此,如果對原坐標系進行平移和旋轉變換,則變換 后樣本點間的距離和變換前完全相同。 ?值得注意的是在采用 Minkowski 距離時,一定要采用相同量綱的變量。如果變量 的量綱不同,測量值變異范圍相差懸殊時,建議首先進行數據的標準化處理,然后再計 算距離。在采用 Minkowski 距離時,還應盡可能地避免變量的多重相關性 (multicollinearity)。多重相關性所造成的信息重疊,會片面強調某些變量的重要性。 由于 Minkowski 距離的這些缺點,一種改進的距離就是馬氏距離,定義如下?

馬氏距離

其中x, y ?為來自 p 維總體Z 的樣本觀測值,Σ為Z 的協方差矩陣,實際中Σ往往是不知道的,常常需要用樣本協方差來估計。馬氏距離對一切線性變換是不變的,故不受量綱的影響。 ?此外,還可采用樣本相關系數、夾角余弦和其它關聯性度量作為相似性度量。近年 來隨著數據挖掘研究的深入,這方面的新方法層出不窮。

?1.2 ?類與類間的相似性度量?

?如果有兩個樣本類 1 G 和 2 G ,我們可以用下面的一系列方法度量它們間的距離:?

?1)最短距離法(nearest neighbor or single linkage method)?

它的直觀意義為兩個類中最近兩點間的距離

2)最長距離法(farthest neighbor or complete linkage method)?

它的直觀意義為兩個類中最遠兩點間的距離。

3)重心法(centroid method)?

4)類平均法(group average method)?

5)離差平方和法(sum of squares method)、Ward 方法

事實上,若 ??內部點與點距離很小,則它們能很好地各自聚為一類,并且這兩類又能夠充分分離(即 ?很大),這時必然有 ??很大。因此,按定義可以認為,兩類 ?之間的距離很大。離差平方和法初是由 Ward 在 1936 年提出,后經 Orloci 等人 1976 年發展起來的,故又稱為 Ward 方法。

2 ?系統聚類法 ?

2.1 ?系統聚類法的功能與特點

系統聚類法是聚類分析方法中常用的一種方法。它的優點在于可以指出由粗到細 的多種分類情況,典型的系統聚類結果可由一個聚類圖展示出來。?

生成聚類圖

顯而易見,這種系統歸類過程與計算類和類之間的距離有關,采用不同的距離定 義,有可能得出不同的聚類結果。

2.2 ?最短距離法與最長距離法 ?

如果使用短距離法來測量類與類之間的距離,即稱其為系統聚類法中的最短距離 法(又稱近鄰法),先由 Florek 等人 1951 年和 Sneath1957 年引入。下面舉例說明最 短距離法的計算步驟。?

完全類似于以上步驟,但以最長距離法來計算類間距離,就稱為系統聚類法中的 最長距離法。 計算的 MATLAB 程序如下:?

clc,clear a=[1,0;1,1;3,2;4,3;2,5]; [m,n]=size(a); d=zeros(m,m); for i=1:m for j=i+1:m d(i,j)=mandist(a(i,:),a(j,:)'); end end d nd=nonzeros(d); nd=union(nd,nd) for i=1:m-1 nd_min=min(nd); [row,col]=find(d==nd_min);tm=union(row,col); tm=reshape(tm,1,length(tm)); s(i)={char(['第',int2str(i),'次合成,平臺高度為',num2str(nd_min),' 時的分類結果為:',int2str(tm)])}; %上面大括號{}代表建立數組 nd(find(nd==nd_min))=[]; if length(nd)==0 break end end s(:)

?或者使用MATLAB統計工具箱的相關命令,編寫如下程序:?

clc,clear a=[1,0;1,1;3,2;4,3;2,5]; y=pdist(a,'cityblock');yc=squareform(y) z=linkage(y) [h,t]=dendrogram(z)

MATLAB中相關命令的使用說明如下:

1)pdist ?計算任意兩個樣本點間的歐氏距離

2)linkage ?:用短距離算法生成具層次結構的聚類樹

3)cluster ?:從連接輸出(linkage)中創建聚類

4)zsore(X) :標準化數據矩陣

?5)H=dendrogram(Z,P) 畫聚類樹狀圖

由linkage產生的數據矩陣Z畫聚類樹狀圖。P是結點數,默認值是30。?

6)T=clusterdata(X,cutoff) ? 將矩陣X的數據分類

X為 m×n 矩陣,被看作m 個大小為n的向量。它與以下幾個 命令等價:

Y=pdist(X,’euclid’) Z=linkage(Y,’single’) T=cluster(Z,cutoff)

7)squareform ?:將pdist的輸出轉換為方陣

8)cophenet ?計算相關系數

c=cophenet(Z,Y) 計算相關系數,它是將Z中的距離信息(由linkage()函數產生)和Y中的距離信息(由pdist())函數產生進行比較。Z為(m-1)× 3 矩陣,距離信息包含在第三列。Y是(m-1)* m /2 ?維的行向量。

?例如,給定距離為Y的一組對象 { 1,2,...,m },函數linkage()生成聚類樹。cophenet()函數用來度量這種分類的失真程度,即由分類所確定的結構與數據間的擬合程度。 輸出值c為相干系數。對于要求很高的解,該值的幅度應非常接近1。它也可用來比 較兩種由不同算法所生成的分類解。

3 ?變量聚類法 ?

在實際工作中,變量聚類法的應用也是十分重要的。在系統分析或評估過程中,為 避免遺漏某些重要因素,往往在一開始選取指標時,盡可能多地考慮所有的相關因素。 而這樣做的結果,則是變量過多,變量間的相關度高,給系統分析與建模帶來很大的不 便。因此,人們常常希望能研究變量間的相似關系,按照變量的相似關系把它們聚合成 若干類,進而找出影響系統的主要因素。?

?3.1 ?變量相似性度量 ?

在對變量進行聚類分析時,首先要確定變量的相似性度量,常用的變量相似性度量 有兩種。

?1)相關系數?

2)夾角余弦?

各種定義的相似度量均應具有以下兩個性質:?

3.2 ?變量聚類法 ?

類似于樣本集合聚類分析中常用的最短距離法、最長距離法等,變量聚類法采用 了與系統聚類法相同的思路和過程。在變量聚類問題中,常用的有最大系數法、最小系 數法等。 ?

1)最大系數法 ?

在最大系數法中,定義兩類變量的距離為?

2) 最小系數法

在最小系數法中,定義兩類變量的距離為?

例2 ?服裝標準制定中的變量聚類法。 ?在服裝標準制定中,對某地成年女子的各部位尺寸進行了統計,通過14個部位的測 量資料,獲得各因素之間的相關系數表(見表2)。?

計算的MATLAB程序如下:?

%把下三角相關系數矩陣粘貼到純文本文件ch.txt中 a=textread('ch.txt'); for i=1:14 a(i,i)=0; end b=a(:);b=nonzeros(b);b=b';b=1-b; z=linkage(b,'complete'); y=cluster(z,2) dendrogram(z) ind1=find(y==2);ind1=ind1' ind2=find(y==1);ind2=ind2'

可以看出,人體的變量大體可以分為兩類:一類反映人高、矮的變量,如上體長, 手臂長,前腰節高,后腰節高,總體長,身高,下體長;另一類是反映人體胖瘦的變量, 如胸圍,頸圍,總肩圍,總胸寬,后背寬,腰圍,臀圍。?

2 ?聚類分析案例—我國各地區普通高等教育發展狀況分析?

聚類分析又稱群分析,是對多個樣本(或指標)進行定量分類的一種多元統計分析 方法。對樣本進行分類稱為Q型聚類分析,對指標進行分類稱為R型聚類分析。

本案例 運用Q型和R型聚類分析方法對我國各地區普通高等教育的發展狀況進行分析。

?1.案例研究背景:??近年來,我國普通高等教育得到了迅速發展,為國家培養了大批人才。但由于我國 各地區經濟發展水平不均衡,加之高等院校原有布局使各地區高等教育發展的起點不一 致,因而各地區普通高等教育的發展水平存在一定的差異, 不同的地區具有不同的特 點。對我國各地區普通高等教育的發展狀況進行聚類分析,明確各類地區普通高等教育 發展狀況的差異與特點,有利于管理和決策部門從宏觀上把握我國普通高等教育的整體 發展現狀,分類制定相關政策,更好的指導和規劃我國高教事業的整體健康發展。

2.案例研究過程

(1)建立綜合評價指標體系

高等教育是依賴高等院校進行的,高等教育的發展狀況主要體現在高等院校的相 關方面。遵循可比性原則,從高等教育的五個方面選取十項評價指標,具體如圖4。

(2)數據資料?

(3)R型聚類分析 ?

定性考察反映高等教育發展狀況的五個方面十項評價指標,可以看出,某些指標之 間可能存在較強的相關性。比如每十萬人口高等院校畢業生數、每十萬人口高等院校招 生數與每十萬人口高等院校在校生數之間可能存在較強的相關性, 每十萬人口高等院 校教職工數和每十萬人口高等院校專職教師數之間可能存在較強的相關性。為了驗證這 種想法,運用MATLAB軟件計算十個指標之間的相關系數,相關系數矩陣如表6所示。?

可以看出某些指標之間確實存在很強的相關性,因此可以考慮從這些指標中選取幾個有代表性的指標進行聚類分析。為此,把十個指標根據其相關性進行R型聚類,再 從每個類中選取代表性的指標。首先對每個變量(指標)的數據分別進行標準化處理。 變量間相近性度量采用相關系數,類間相近性度量的計算選用類平均法。聚類樹型圖見 圖5。?

計算的 MATLAB 程序如下:?

load gj.txt %把原始數據保存在純文本文件 gj.txt 中 r=corrcoef(gj); %計算相關系數矩陣 d=tril(r); %取出相關系數矩陣的下三角元素 for i=1:10 %對角線元素化成零 d(i,i)=0; end d=d(:); d=nonzeros(d); %取出非零元素 d=d';d=1-d; z=linkage(d) dendrogram(z)

從聚類圖中可以看出,每十萬人口高等院校招生數、每十萬人口高等院校在校生數、 每十萬人口高等院校教職工數、每十萬人口高等院校專職教師數、每十萬人口高等院校 畢業生數 5 個指標之間有較大的相關性,先被聚到一起。如果將 10 個指標分為 6 類, 其它 5 個指標各自為一類。這樣就從十個指標中選定了六個分析指標:?

可以根據這六個指標對30 個地區進行聚類分析。

(4)Q 型聚類分析

根據這六個指標對30個地區進行聚類分析。首先對每個變量的數據分別進行標準化 處理,樣本間相近性采用歐氏距離度量,類間距離的計算選用類平均法。聚類樹型圖見 圖6。?

計算的MATLAB程序如下:?

load gj.txt %把原始數據保存在純文本文件gj.txt中 gj(:,3:6)=[]; gj=zscore(gj); y=pdist(gj); z=linkage(y) dendrogram(z,'average')

4.案例研究結果

各地區高等教育發展狀況存在較大的差異,高教資源的地區分布很不均衡。

如果根 據各地區高等教育發展狀況把30 個地區分為三類,結果為: ?第一類:北京;第二類:西藏;第三類:其他地區。

如果根據各地區高等教育發展狀況把30個地區分為四類,結果為: 第一類:北京;第二類:西藏;第三類:上海天津;第四類:其他地區。

如果根據各地區高等教育發展狀況把30個地區分為五類,結果為: ?第一類:北京;第二類:西藏;第三類:上海天津;第四類:寧夏、貴州、青海; 第五類:其他地區。

從以上結果結合聚類圖中的合并距離可以看出,北京的高等教育狀況與其它地區相 比有非常大的不同,主要表現在每百萬人口的學校數量和每十萬人口的學生數量以及國家財政預算內普通高教經費占國內生產總值的比重等方面遠遠高于其他地區,這與北京 作為全國的政治、經濟與文化中心的地位是吻合的。上海和天津作為另外兩個較早的直 轄市,高等教育狀況和北京是類似的狀況。寧夏、貴州和青海的高等教育狀況極為類似, 高等教育資源相對匱乏。西藏作為一個非常特殊的民族地區,其高等教育狀況具有和其 他地區不同的情形,被單獨聚為一類,主要表現在每百萬人口高等院校數比較高,國家 財政預算內普通高教經費占國內生產總值的比重和生均教育經費也相對較高,而高級職 稱占專職教師的比例與平均每所高等院校的在校生數又都是全國低的。這正是西藏高 等教育狀況的特殊之處:人口相對較少,經費比較充足,高等院校規模較小,師資力量 薄弱。其他地區的高等教育狀況較為類似,共同被聚為一類。針對這種情況,有關部門 可以采取相應措施對寧夏、貴州、青海和西藏地區進行扶持,促進當地高等教育事業的 發展。

聚類算法的分類

總結

以上是生活随笔為你收集整理的多元统计分析 (一):聚类分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。