讲讲方差分析
這一篇講講方差分析。
1.背景:
假如你們現在針對用戶提出了三種提高客單價的策略A、B、C,現在想看一下這三種策略最后對提高客單價的效果有什么不同,那我們怎么才能知道這三種策略效果有什么不同?最簡單的方法就是做一個實驗,我們可以隨機挑選一部分用戶,然后把這些用戶分成三組A、B、C組,A組用戶使用A策略、B組用戶使用B策略、C組用戶使用C策略,等策略實施一段時間以后,我們來看一下這三組分別的客單價是什么水平?哪組平均客單價高,就說明哪組策略有效果。真的可以得出這的結論嗎?是可以,但是不夠嚴謹。
為什么說不夠嚴謹呢?是因為我們用來做實驗的用戶是隨機挑選的,有可能客單價高的那部分用戶(比如高價值用戶)本身就要比其他用戶群體的客單價高,那為了避免這種可能是因為隨機抽樣造成的結果不一致問題,我們就需要去證明下,到底是不是因為隨機挑選的原因,如果不是,我們就可以去比較各組的平均客單價,哪組客單價較高,就說明哪組策略更有效果。
我們的最終目的其實就是為了比較各組的平均客單價,但是在比較均值之前,我們需要先證明下各組之間的結果不同是因為策略的原因還是隨機挑選的原因,我們把這個過程叫做方差分析。
2.三個假設:
方差分析有三個假設:
1.每組樣本數據對應的總體應該服從正態分布;
2.每組樣本數據對應的總體方差要相等,方差相等又叫方差齊性;
3.每組之間的值是相互獨立的,就是A、B、C組的值不會相互影響。
正態檢驗主要有兩種大的方法,一種是統計檢驗的方法:主要有基于峰度和偏度的SW檢驗、基于擬合度的KS、CVM、AD檢驗;另一種是用描述的方法:Q-Q圖和P-P圖、莖葉圖,利用四分位數間距和標準差來判斷。
方差齊性的主要判斷方法有:方差比、Hartley檢驗、Levene檢驗、BF法。
由于篇幅問題,關于上面涉及到的方法以后專門來講,有興趣的同學可以先自行查閱。
3.方差分析流程
3.1建立假設
H0:各組的客單價均值相等;
H1:各組的客單價均值不相等或不全等。
檢驗水準為0.05。
3.2計算檢驗統計量F值
F值 = 組間方差/組內方差。我們主要是通過比較F值的大小來判斷各組之間是否存在顯著差異。
所謂的組間方差就是用來反映組與組之間的差異程度,組內方差就是用來反映各組內部數據的差異程度。
如果各組之間的客單價相等,即假設H0成立,也就意味著各組之間是沒啥區別的,也就是組間方差會很小甚至為0,與之對應的方差很大的概率會很低,所以如果F值越大,表明在假設H0成立的前提下出現出現這一結果的概率越小,相當于我們前面提到的小概率事件,如果一旦小概率事件發生了,我們就有理由去拒絕原假設。
要來計算方差,我們需要先計算平方和。為了讓大家能夠更加理解,我們來舉個例子來講解各個指標怎么計算。
現在有兩組數據:
第一組:80、85、96
第二組:110、125、130、145、160
第一組和第二組的總算術平均值為:
(80+85+96+110+125+130+145+160)/8 = 116.375。
第一組的算術平均值:(80+85+96)/3 = 87
第二組的算術平均值:
(110+125+130+145+160)/5 = 134
組間平方和(SSA):
= 第一組平均值與總體平均值的平方和×第一組樣本數+第二組平均值與總體平均值的平方和×第二組樣本數
= (87-116.375)^2×3 + (134-116.375)^2×5 = 4141.875
組內平方和(SSE):
= 第一組平方和 + 第二組平方和
=(80-87)^2+(85-87)^2+(96-87)^2
+(110-134)^2+(125-134)^2+(130-134)^2
+(145-134)^2+(160-134)^2
=134+1470=1604
總體平方和(SST):
=所有樣本數據與總體平均值之間的平方和
=(80-116.375)^2+(85-116.375)^2+(96-116.375)^2
+(110-116.375)^2+(125-116.375)^2+(130-116.375)^2
+(145-116.375)^2+(160-116.375)^2
=5745.875
通過以上數據,我們可以看出?SST = SSA + SSE。
總平方和會有一個問題,就是隨著數據量越大,這個值會越大,所以我們引入另外一個概念:均方。均方=平方和/自由度,其中自由度是樣本數-1。
組間均方(MSA) = SSA/自由度 = 4141.875/(2-1) = 4141.875
組內均方(MSE) = SSE/自由度 = 1604/(8-2) = 267.333
MSA又稱為組間方差,MSE稱為組內方差。
F = MSA/MSE = 4141.875/267.333 = 15.4933
3.3確定邊界值并做出決策
此時我們就可以通過查F表,來獲得置信度為95%時的F邊界值:
如果F<F邊界值表面各組數據之間沒有顯著差異,接受H0假設;
如果F≥F邊界值表面各組數據之間存在明顯差異,拒絕H0假設,接受H1假設。
如果我們證實了各組數據之間是存在明顯差異的,這個時候就可以去拿各組的均值來進行比較,均值越大,可以說明策略效果越好。
F值表:
https://wenku.baidu.com/view/3165819af71fb7360b4c2e3f5727a5e9846a2743.html
一般最后我們都可以得到下面這么一個表:
| 組間(因素影響) | |||||
| 組內(誤差影響) | |||||
| 總和 |
以上就是簡單的方差分析的基本原理與流程,也是單因素方差分析(單因素,就是只有策略這一個維度),還有雙因素方差分析,就是不止考慮策略這一個維度,還需要別的維度,比如時間、地域之類的,還有交叉作用的雙因素分析,就是不止策略和地域分別的影響,這兩者結合在一起可能會產生第三種影響。關于方差分析的更多內容,我們之后再來分享。
點分享
點收藏
點點贊
點在看
總結
- 上一篇: 只狼水生的凛怎么打 水生的凛招式分解及打
- 下一篇: 「原理」AB测试-详细过程和原理解读