第九章 列联分析
列聯分析主要用于分類數據的分析
1 分類數據與列聯表
1 分類數據
如:完整家庭/離異家庭、一等品/二等品、三等品……
2 列聯表的構造
列聯表是由兩個以上的變量進行交叉分類的頻數分布表。
3 列聯表的分布
列聯表的分布可以從兩個方便來看:一個是觀察值的分布;一個是期望值的分布。
(1)觀察值
條件頻數、行邊緣頻數、列邊緣頻數、百分比
(2)期望值分布
根據比例求出的各個變量的期望值
以四個公司對改革方案的贊成/反對為例,若全部樣本為420(100+120+90+110),贊成改革方案的有279,占總數的66.4%。如果各公司對改革方案的看法相同,則對一公司來說,贊成該方案的人數應當為:0.664*100=66人,期望值與觀察值應非常相近。
對于π?1?=π?2?=π?3?=π?4?=0.664(π?i??為第i?個公司贊成改革方案的百分比),可以采用χ 2 檢驗。
一般情況下,任何一個單元中頻數的期望值:
f?e?=RTn?×CTn?×n=RT×CTn??
其中:RT為給定單元格所在行的合計,CT為給定單元格所在列的合計,n為觀察值總個數,即樣本容量。
2 χ?2??檢驗
若用f?o??表示觀察值頻數,用f?e??表示期望值頻數,χ?2??統計量可為:
χ?2?=∑(f?o??f?e?)?2?f?e???
步驟:(1) H?0?:?不存在差異 H?1?:?存在差異
(2) 計算統計量值和臨界值
χ?2??分布的自由度為(行數-1)(列數-1)
(3) 比較統計量值和臨界值大小,做出是否拒絕原假設的決策
3 列聯表中的相關測量
在上面利用χ?2??分布對兩個分類變量之間的相關性進行統計檢驗。如果變量相互獨立,說明它們之間沒有聯系;反之,則認為它們之間存在聯系。如果存在聯系,它們之間的相關程度多大?
把分類數據之間的相關稱為品質相關。
1 φ?相關系數
φ?相關系數是描述2×?2列聯表數據相關程度最常用的一種相關系數,計算公式為:
φ=χ?2?/n??????????√??
此時φ?系數的取值范圍是在0~?1之間,且φ?的絕對值越大,說明變量的相關程度越大。但當列聯表的行數R或列數C大于2時,φ?系數將隨著R或C的變動而增大,且φ?值沒有上線,這是φ?系數測定兩個變量的相關程度,可以采用列聯相關系數。
2 列聯相關系數
列聯相關系數又稱列聯系數,簡稱c?系數,主要用于大于2× 2列聯表的情況,計算公式為:
c=χ?2?χ?2?+n???????????????√??
特點:相互獨立時,系數為0,不可能大于1,其可能的最大值依賴于列聯表的行數和列數,且隨著R和C的增大和增大。
缺點:根據不同的行和列計算的列聯系數不便于比較,除非兩個兩個列聯表中的行數和列數一致。
3 V?相關系數
鑒于φ 系數無上限,c?系數小于1的情況,克萊默提出了V 系數,計算公式為:
V=χ?2?n×min[(R?1),(C?1)]?????????????????????????????????????????????√??
V?的取值在0~ 1之間
4 數值分析
在描述相關程度究竟有多高時,可以比較計算出的相關系數與此相關系數的最大值,以看出相關程度的高低。
4 列聯分析中應注意的問題
1 條件百分表的方向
一般來說,在列聯表中變量的位置是任意的。如果變量X和Y存在因果關系,令X為自變量,Y為因變量,那么一般把自變量X放在列位置,條件百分比也多按自變量的方向計算。但也有例外情況。
2 χ?2??分布的期望值準則
利用χ?2??分布進行獨立性檢驗,要求樣本量必須足夠大,特別是每個單元中的期望頻數(理論頻數)不能過小,否則應用χ?2??檢驗可能會得出錯誤結論。
關于小單元次數通常有兩項準則:
(一) 如果只有兩個單元,每個單元的期望頻數必須是5或5以上
(二) 倘若有兩個以上單元,如果20%的單元期望頻率f?e??小于5,則不能應用χ?2??檢驗
總結