统计学相关问答
1、為什么要對(duì)相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)?
1)實(shí)際上完全沒(méi)有關(guān)系的變量,在利用樣本數(shù)據(jù)進(jìn)行計(jì)算時(shí)也可能得到一個(gè)較大的相關(guān)系數(shù)值(尤其是時(shí)間序列數(shù)值)
2)當(dāng)樣本數(shù)較少,相關(guān)系數(shù)就很大。當(dāng)樣本量從100減少到40后,相關(guān)系數(shù)大概率會(huì)上升,但上升到多少,這個(gè)就不能保證了;取決于你的剔除數(shù)據(jù)原則,還有這組數(shù)據(jù)真的可能不存在相關(guān)性;
改變兩列數(shù)據(jù)的順序,不會(huì)對(duì)相關(guān)系數(shù),和散點(diǎn)圖(擬合的函數(shù)曲線(xiàn))造成影響;對(duì)兩列數(shù)據(jù)進(jìn)行歸一化處理,標(biāo)準(zhǔn)化處理,不會(huì)影響相關(guān)系數(shù);
我們計(jì)算的相關(guān)系數(shù)是線(xiàn)性相關(guān)系數(shù),只能反映兩者是否具備線(xiàn)性關(guān)系。相關(guān)系數(shù)高是線(xiàn)性模型擬合程度高的前提;此外相關(guān)系數(shù)反映兩個(gè)變量之間的相關(guān)性,多個(gè)變量之間的相關(guān)性可以通過(guò)復(fù)相關(guān)系數(shù)來(lái)衡量;
?
2、多重共線(xiàn)性與統(tǒng)計(jì)假設(shè)檢驗(yàn)傻傻分不清?
多重共線(xiàn)性與統(tǒng)計(jì)假設(shè)沒(méi)有直接關(guān)聯(lián),但是對(duì)于解釋多元回歸的結(jié)果非常重要。相關(guān)系數(shù)反應(yīng)兩個(gè)變量之間的相關(guān)性;回歸系數(shù)是假設(shè)其他變量不變,自變量變化一個(gè)單位,對(duì)因變量的影響,而存在多重共線(xiàn)性(變量之間相關(guān)系數(shù)很大),就會(huì)導(dǎo)致解釋困難;比如y~x1+x2;x·1與x2存在多重共線(xiàn)性,當(dāng)x1變化一個(gè)單位,x2不變,對(duì)y的影響;而x1與x2高度相關(guān),就會(huì)解釋沒(méi)有意義。
一元回歸不存在多重共線(xiàn)性的問(wèn)題;而多元線(xiàn)性回歸要摒棄多重共線(xiàn)性的影響;所以要先對(duì)所有的變量進(jìn)行相關(guān)系數(shù)分3、什么樣的模型才是一個(gè)好模型?
在測(cè)試集表現(xiàn)與預(yù)測(cè)集相當(dāng),說(shuō)明模型沒(méi)有過(guò)度擬合:在訓(xùn)練集上表現(xiàn)完美,在測(cè)試集上一塌糊涂;原因:模型過(guò)于剛性:“極盡歷史規(guī)律,考慮隨機(jī)誤差”;擬合精度不能作為衡量模型方法的標(biāo)準(zhǔn);
一個(gè)好的模型:只描述規(guī)律性的東西(抓住事務(wù)的主要特征),存在隨機(jī)誤差是好事,在預(yù)測(cè)時(shí),就有了“容錯(cuò)空間“,預(yù)測(cè)誤差可能減小!
?
4、假設(shè)檢驗(yàn)顯著性水平的兩種理解:
1顯著性水平:通過(guò)小概率準(zhǔn)則來(lái)理解
在假設(shè)檢驗(yàn)時(shí)先確定一個(gè)小概率標(biāo)準(zhǔn)----顯著性水平;用α表示;凡出現(xiàn)概率小于顯著性水平的事件稱(chēng)小概率事件;
2通過(guò)兩類(lèi)錯(cuò)誤理解:??α為拒絕域面積
?
5、中心極限定律與大數(shù)定理:
大數(shù)定理---正態(tài)分布的“左磅”
隨著樣本數(shù)的增加,樣本的平均值可以估計(jì)總體平均值;
中心極限定理---正態(tài)分布的“右臂”具有穩(wěn)定性,
大數(shù)定理說(shuō)明大量重復(fù)實(shí)驗(yàn)的平均結(jié)果具有穩(wěn)定解決了變量均值的收斂性問(wèn)題
中心極限定理說(shuō)明隨機(jī)變量之和逐漸服從某一分布,解決了分布收斂性問(wèn)題
9方差
方差能最大程度的反映原始數(shù)據(jù)信息;
?
反映了一組數(shù)據(jù)相對(duì)于平均數(shù)的波動(dòng)程度,相比于??,其平方項(xiàng)更放大了波動(dòng),且差的平方在數(shù)學(xué)公式推導(dǎo)上有大用。
6、使用最小二乘法條件:
自變量之間不能存在完全共線(xiàn)性;
總體方程誤差項(xiàng)服從均值為0的正態(tài)分布(大數(shù)定理)
誤差項(xiàng)的方差不受自變量影響且為固定值;(同方差性)
7、最大似然估計(jì)與最小二乘法區(qū)別
最小二乘法是基于幾何意義上距離最小
最大似然估計(jì)是基于概率意義上出現(xiàn)的概率最大
最小二乘法:對(duì)數(shù)據(jù)分布無(wú)要求
最大似然估計(jì):需要知道概率密度函數(shù)
8、關(guān)于H0與H1
H0:原假設(shè),零假設(shè)----零是相關(guān)系數(shù)為0,說(shuō)明兩個(gè)變量無(wú)關(guān)系
H1:備用假設(shè)
如何設(shè)置原假設(shè):1)H0與H1是完備事件組,相互對(duì)立,有且只有一個(gè)成立
2)在確立假設(shè)時(shí),先確定備設(shè)H1,然后再確定H0,且保證“=”總在H0上
3)原H0一般是需要反駁的,而H1是需要支持的
4)假設(shè)檢驗(yàn)只提供原假設(shè)不利證據(jù)
即使“假設(shè)”設(shè)置嚴(yán)密,檢驗(yàn)方法“精確”;假設(shè)檢驗(yàn)始終是建立在一定概率基礎(chǔ)上的,所以我們常會(huì)犯兩類(lèi)錯(cuò)誤;
第一類(lèi):原H0是真,卻拒絕原假設(shè);犯 α?類(lèi)錯(cuò)誤
第二類(lèi):原H0是假,卻不拒絕原假設(shè);犯 β?類(lèi)錯(cuò)誤
通常只能犯兩種錯(cuò)誤中的一種,且?α??增加,? β?減少
通常,?α??類(lèi)錯(cuò)誤是可控的,先設(shè)法降低第一類(lèi)錯(cuò)誤概率?α?
9、什么是雙尾檢驗(yàn),單尾檢驗(yàn)?
1) 當(dāng)H0采用等號(hào),而H1采用不等號(hào),雙尾檢驗(yàn)
2)當(dāng)H0是有方向性的,單尾檢驗(yàn)
10、P值
當(dāng)原假設(shè)為真時(shí),比所得到的樣本觀察,結(jié)果更極端的結(jié)果會(huì)出現(xiàn)的概率。
如果P值很小,我們拒絕原假設(shè)的理由越充分。
P的意義不表示兩組差別大小,p反映兩組差別有無(wú)統(tǒng)計(jì)學(xué)意義
顯著性檢驗(yàn)只是統(tǒng)計(jì)結(jié)論,判斷差別還需要專(zhuān)業(yè)知識(shí);
11、T檢驗(yàn)與U檢驗(yàn)
當(dāng)樣本容量n夠大,樣本觀察值符合正態(tài)分布,可采用U檢驗(yàn)
當(dāng)樣本容量n較小,若觀測(cè)值符合正態(tài)分布,可采用T型檢驗(yàn)
12. 方差分析
主要用于兩樣本及以上樣本間的比較,又被稱(chēng)為F檢驗(yàn),變異數(shù)分析;
基本思想:通過(guò)分析研究不同來(lái)源的變異對(duì)總體變異的貢獻(xiàn)大小,從而確定可控因素對(duì)研究結(jié)果影響力的大小;
總變異可以被分解為組間變異與組內(nèi)變異
組間變異:由于不同實(shí)驗(yàn)處理而造成的各組之間的變異
組內(nèi)變異:組內(nèi)各被適變量的差異范圍所呈現(xiàn)的變異
?
13. 不同類(lèi)型的圖
直方圖:對(duì)數(shù)據(jù)進(jìn)行整體描述,突出細(xì)節(jié)
箱線(xiàn)圖:對(duì)數(shù)據(jù)進(jìn)行概要描述,或?qū)Σ煌瑯颖具M(jìn)行比較。箱線(xiàn)圖可以讓我們迅速了解數(shù)據(jù)的匯集情況
統(tǒng)計(jì)學(xué)中,把所有數(shù)值由小到大排列并分成四等份,處于三個(gè)分割點(diǎn)位置的得分就是四分位數(shù)。
所以,四分位數(shù)有三個(gè)!四指四等份!
第一四分位數(shù):下四分位數(shù);等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字(所以下四分位數(shù)可以不是樣本中的數(shù)值,它是一個(gè)統(tǒng)計(jì)指標(biāo)(就像平均數(shù)一樣,不一定是原數(shù)據(jù)中的一點(diǎn))
第二四分位數(shù):中位數(shù)
第三四分位數(shù):上四分位數(shù)
其中,下四分位數(shù)與上四分位數(shù)的距離叫四分位距!(IQR)
?
總結(jié)
- 上一篇: 统计学十问答
- 下一篇: 决定系数R2真的可靠吗?