當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

AB实验平台：为什么AB实验平台必不可少？

發布時間：2024/3/12 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 AB实验平台：为什么AB实验平台必不可少？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.概述

1.1 為什么AB實驗平臺必不可少？

1.1.1 依據統計數據做決策

當面對眾多選擇時，我們應該怎么選才能最大化我們的收益（或者說最小化我們的開銷）呢？舉例來說，怎么選擇最優的上班的路線才能使途中花費的時間最少？在這個例子中，我們的收益可能是依據于上班時間，但同樣可以是燃料成本或交通時間。

1.1.2 什么問題用于A/B測試？

任何問題，只要它的每個選項能夠被多次進行測試，并且每個選項在被測試時都能返回固定的結果，那么它就能使用A/B測試技術來進行優化。

1.1.3 大廠產品

市面上可參考的平臺：

美團AB平臺-Gemi：《美團機器學習實踐》第17章

云測AB實驗：https://testin.cn/（內測版本已關閉）

貝殼流量實驗平臺-Athena：https://www.jianshu.com/p/79d31a72978f

騰訊實驗平臺：https://abtest.qq.com/

京東商戶實驗平臺：http://aiceshi.shop.jd.com

1.2 平臺架構

1.2.1 架構設計圖

@TODO

1.2.2 使用接口定義

請求數據

-- 按單一AB實驗訪問 {"page": 1,"uid": "111122233" }-- 按一系列AB實驗訪問 {"biz": "test","uid": "111122233" }

返回數據

{"code": 0,"expid": [1, 2, 6],"params": {"add_recall": "deepfm","use_rank": "dnn"} }

1.3 AB平臺的3大特性

AB平臺要發揮數據驅動的作用，要做到三大特性：并行性、先驗性、科學性。

1.3.1 并行性：實驗正交進行

基準點

正交性：各層之間互相不影響
均勻性：實驗組和對照組的流量是對等的
充足性：每個分支實驗的流量是足夠的
- 日均人數少于1000的實驗結果波動將會非常大
- 日均人數大于2W的實驗結果更具參考性

最終目標

快速構建實驗
隨時上下線實驗
同時支持多組實驗

實現原理

**前提：在流量無窮的情況，每個層A組和B組的流量是均勻的

重點關注

實驗流量分配
排除實驗自身干擾

1.3.2 先驗性：驗證決策過程而非決策本身

A/B測試是當面對一個改進目標有兩種甚至多種不同的方案的時候，為了避免盲目決策帶來的不確定性好隨機性，將各種不同的實驗同時放到線上讓實際目標群體選擇，然后利用實際數據分析的結果來輔助進行決策的一種方式和手段。

所以A/B的常見的應用場景應該滿足一下4個條件：

優化場景
- A/B測試并不能給出解決方案，而只是輔助我們對若干候選方案進行選擇。
量化指標
- 要運用A/B測試來改進系統，另外一個重要的因素就是要改進的目標需要有一個或多個可量化的明確指標，并且這個指標會直接或間接收到該方案的影響
用戶穩定
- 由于A/B測試將不同的設計或者策略呈現給一些隨機的用戶群體，之后統計各用戶群體的群體指標，因此用戶群體的選擇和劃分也是A/B測試是否成功的重要因素。
長期反饋
- 在設計和實現A/B測出實驗的時候，要盡量控制除實驗之外的影響因素保持固定

建議流程

步驟一：提出目標
步驟二：建立假設
步驟三：設計方案
步驟四：執行實驗
步驟五：分析數據
步驟六：發布版本

案例講解

搜索是發現好物的開始，是電商平臺主要的流量入口，可以說三分天下有其一

案例背景

搜索使用日均人次：3045w+（曝光）
搜索推薦詞的日均CTR：0.38%

怎樣提高搜索推薦詞的CTR，節省用戶時間？

步驟一：提出目標

提升CTR：節省更多用戶更多時間，提升平臺體驗

步驟二：建立假設

CTR的原因（假設）

前端體驗不佳
- 對搜索詞進行標簽分類
- 通過色彩突出搜索詞
- 搜索詞添加熱度提示
后端推薦策略不佳
- 發掘用戶偏好
- 匹配用戶歷史搜索
- 協同過濾算法

步驟三：設計方案

A001：推薦詞添加類別標簽，如書籍/店鋪/話題
A002：推薦詞依據排列的位置，字體顏色漸變
A003：推薦詞前三添加熱度指數，體現詞熱度

步驟四：執行實驗

抽樣人群：20000人，權衡實驗效果和成本
均勻分配：A001、A002、A003 三組均勻流量保證人群特征相似
上線環境：同時上線
監控數據：一致的統計方式，評估標準

步驟五：分析數據

數據短期看比較，長期看趨勢，要經過一段的檢驗
總體的提升置信度提示等等

步驟六：發布版本

基于5的數據分析，選擇A001是毫無爭議的

1.3.3 科學性：經典的統計學理論

決策相關的統計學參考，詳見2.2節。

2 原理

2.1 樣本分流

谷歌分層實驗框架論文

![image.png](https://img-blog.csdnimg.cn/img_convert/dda5527a94c4f999aa4e7d822f62a5f6.png#align=left&display=inline&height=490&margin=[object Object]&name=image.png&originHeight=490&originWidth=759&size=435105&status=done&style=none&width=759)
重疊實驗框架.pdf

2.2 提升的衡量

（p-value , 置信區間，power的具體含義和計算方法）

2.2.1 基礎概念

互逆假設

統計學上有2個互逆的假設：

原假設：我們希望通過試驗結果推翻的假設
備擇假設：我們希望通過試驗結果驗證的假設

在A/B測試過程中，我們試驗的目的是通過反證法證明測試版本和對照版本有明顯的不同（提升），因此在這個場景中，原假設就是原始版本和試驗版本無差異，而備擇假設就是這兩個版本存在差異，因此，A/B試驗的目的，做A/B試驗的目的就是推翻2個版本無差異的原假設，驗證他們有差異的備擇假設。
**
在統計學上，存在兩大錯誤，一是棄真錯誤，二是納偽錯誤。

第一類錯誤(棄真錯誤）：原假設為真時拒絕了原假設

首先我們容易犯的就是第一類錯誤，就是原假設為真時拒絕了原假設，說白了就是過來就是2個版本無差異時候，我們錯誤的認為他們有差異（從統計學角度講也叫棄真錯誤）這個錯誤的后果非常嚴重，所以我們把這它的標準設一個值0.05，它其實就是一個概率，這個概率就是我們容許自己出錯的概率。
這個5%就是在統計學里的 α , 它代表著我們這個試驗結果的置信水平。與這個置信水平相對應的就是置信區間的置信度，由 1- α 得出，所以你在這里看到如果 α 是0.05，那置信度就是0.95，也就是說，如果我們容許自己出錯的幾率是5%，那我們將得到一個有 95% 的可能性包含真實的總體均值區間范圍，如果你把這個 α 調整成0.07，那你的置信區間的置信度將變成93%。
由于 α 是我們自己設置的，那么當然需要通過數據去驗證一下，這個通過計算出來的值就是p-value ， p 的定義就是，如果兩個版本無差異的前提下，得到當前試驗數據的概率。
**

第二類錯誤（納偽錯誤）：原假設為假時接受了原假設

第二類錯誤是指原假設為假時接受了原假設，即當2個版本有差異時候，我們錯誤的認為他們沒有差異，這個錯誤的概率在統計學角度也稱為取偽錯誤，記為 β ，這個概率可以相對大一些，業界大約定俗成的一個標準就是10%和20%的概率。
和顯著性水平一樣，為了避免我們犯第二類錯誤，我們需要通核算 β 從而計算出另一個參數來給我們參考，就是統計功效，和核算置信區間的置信度類似，它是的思路是 1-β 來得出（統計功效 power = 1 – β ）
** 統計功效是指版本差異（效果）為某個指定值時，通過顯著性檢驗能正確地把差異檢驗出來的概率。說白了就是，假設兩個版本的確存在差異，我們能夠正確拒絕原假設，獲得統計顯著性結果（95%置信區間中數據）的概率。
** 統計功效的核算涉及樣本數量，方差， α 、以及最小變化度或者置信區間下限。
由此可見，只有我們把第一類錯誤控制在5%以內，第二類錯誤控制在10%-20%左右，我們才可以說得出具有參考價值的出的試驗數據。換句話說，我們在做A/B測試時，試驗結果達到95%的置信度，以及80%-90%的統計功效時，它對我們來說才是有意義、可以作為決策參考的。
**

各值推理及計算

因為AB的統計符合二項分布，接下來的公式用二項分布做推導

p-value

p-value的定義是，如果兩個版本無差異的前提下，得到當前試驗數據的概率，其計算公式如下圖所示，在A/B實驗中，采用右側檢驗的方式
![image.png](https://img-blog.csdnimg.cn/img_convert/36adc3840f9f86bb8543601021033dee.png#align=left&display=inline&height=826&margin=[object Object]&name=image.png&originHeight=826&originWidth=1142&size=865301&status=done&style=none&width=1142)
中心極限定理說明，在適當的條件下，大量相互獨立隨機變量的均值經適當標準化后依分布收斂于正態分布（具體推導參考大數定理、中心極限定理），在樣本數量比較大情況下，可以采用z檢驗。
ABtest需要采用雙樣本對照的z檢驗公式。
**
$\frac{p_{exp} - p_{ctrl}}{\sqrt{SE_{exp}^2 + SE_{ctrl}^2}}$
**

其中p代表轉化率， $KaTeX parse error: Expected group after '^' at position 3: SE^?$ 代表標準誤差，由于轉化過程是符合二項分布的，因此用戶行為可以看作單次伯努利試驗（single Bernoulli trial），而積極結果（完成轉化）的可能性是未知的。假設樣本數量足夠大，我們可以使用廣泛采用的Wald方法，將該分布近似為正態分布。因此有
$SE^2 = SE_{exp}^2 + SE_{ctrl}^2$
$SEexp2=pexp(1?pexp)nexpSE_{exp}^2 = \frac{p_{exp}(1 - p_{exp})}{n_{exp}}$
$SEctrl2=pctrl(1?pctrl)nctrlSE_{ctrl}^2 = \frac{p_{ctrl}(1 - p_{ctrl})}{n_{ctrl}}$

** 根據計算出的z值，即可根據概率累積函數(CDF)計算出p-value**
** p-value = 1 - **Φ(z)

置信區間

根據統計學的中心極限定理，樣本均值的抽樣分布呈正態分布。由之前計算得出Z值，再根據兩個總體的均值、標準差和樣本大小，利用以下公式即可求出兩個總體均值差的置信度為α置信區間。

$(ρ1?ρ2)±zα2?σ12n1+σ22n2(\rho_1 - \rho_2) ± z_{\frac{\alpha}{2}}\cdot \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}$
$ρ1,ρ2是雙樣本的觀察均值\rho_1,\rho_2是雙樣本的觀察均值$

統計功效

**統計功效是指版本差異（效果）為某個指定值時，通過顯著性檢驗能正確地把差異檢驗出來的概率。**說白了就是，假設兩個版本的確存在差異，我們能夠正確拒絕原假設，獲得統計顯著性結果（95%置信區間中數據）的概率。其計算公式如下圖所示
![image.png](https://img-blog.csdnimg.cn/img_convert/83a2abbb2199a501b32a6abc6db63314.png#align=left&display=inline&height=738&margin=[object Object]&name=image.png&originHeight=738&originWidth=1414&size=840813&status=done&style=none&width=1414)

2.2.2 代碼實現

Java版本

import org.apache.commons.math3.distribution.NormalDistribution;import java.math.BigDecimal; import java.math.MathContext; import java.math.RoundingMode; import java.util.ArrayList; import java.util.List;/*** 描述:** @author zhourao* @create 2020-04-26 2:40 下午*/ public class AlalysisUtils {private static NormalDistribution nd = new NormalDistribution();private final static int SCALE = 16;//采用雙邊檢測private static final double FIRST_TYPE_ERROR_CHANCE = 0.05;// 統計功效計算public static double GetStatisticalPower(BigDecimal expCt, BigDecimal controlCt, BigDecimal expCnt, BigDecimal controlCnt) {if (BigDecimal.ZERO.equals(expCt) && BigDecimal.ZERO.equals(controlCt)) {return 0;}BigDecimal zScore = GetZScore(expCt, controlCt, expCnt, controlCnt);BigDecimal staticZScore = BigDecimal.ZERO.subtract(new BigDecimal(nd.inverseCumulativeProbability(1 - FIRST_TYPE_ERROR_CHANCE / 2)));return 2 - nd.cumulativeProbability(staticZScore.add(zScore).doubleValue()) - nd.cumulativeProbability(staticZScore.subtract(zScore).doubleValue());}// 置信區間計算public static List<BigDecimal> GetConfidenceInterval(BigDecimal expCt, BigDecimal controlCt, BigDecimal expCnt, BigDecimal controlCnt) {List<BigDecimal> result = new ArrayList<>();if (BigDecimal.ZERO.equals(expCt) && BigDecimal.ZERO.equals(controlCt)) {result.add(BigDecimal.ZERO);result.add(BigDecimal.ZERO);return result;}BigDecimal expRatio = expCt.divide(expCnt, SCALE, BigDecimal.ROUND_HALF_UP);BigDecimal controlRatio = controlCt.divide(controlCnt, SCALE, BigDecimal.ROUND_HALF_UP);BigDecimal variance = getVariance(expRatio, controlRatio, expCnt, controlCnt);double v = nd.inverseCumulativeProbability(FIRST_TYPE_ERROR_CHANCE / 2);BigDecimal wave = variance.multiply(new BigDecimal(v)).abs();result.add(expRatio.subtract(controlRatio).subtract(wave));result.add(expRatio.subtract(controlRatio).add(wave));return result;}// p值計算public static double GetPValue(BigDecimal expCt, BigDecimal controlCt, BigDecimal expCnt, BigDecimal controlCnt) {if (BigDecimal.ZERO.equals(expCt) && BigDecimal.ZERO.equals(controlCt)) {return 1;}BigDecimal zScore = GetZScore(expCt, controlCt, expCnt, controlCnt);return 1 - nd.cumulativeProbability(zScore.doubleValue());}// z分數計算public static BigDecimal GetZScore(BigDecimal expCt, BigDecimal controlCt, BigDecimal expCnt, BigDecimal controlCnt) {BigDecimal expRatio = expCt.divide(expCnt, SCALE, BigDecimal.ROUND_HALF_UP);BigDecimal controlRatio = controlCt.divide(controlCnt, SCALE, BigDecimal.ROUND_HALF_UP);BigDecimal variance = getVariance(expRatio, controlRatio, expCnt, controlCnt);return (expRatio.subtract(controlRatio)).divide(variance, SCALE, BigDecimal.ROUND_HALF_UP).abs();}private static BigDecimal getVariance(BigDecimal expRatio, BigDecimal controlRatio, BigDecimal expCnt, BigDecimal controlCnt) {BigDecimal se_experiment = expRatio.multiply(BigDecimal.ONE.subtract(expRatio)).divide(expCnt, SCALE, BigDecimal.ROUND_HALF_UP);BigDecimal se_control = controlRatio.multiply(BigDecimal.ONE.subtract(controlRatio)).divide(controlCnt, SCALE, BigDecimal.ROUND_HALF_UP);return sqrt(se_experiment.add(se_control));}public static BigDecimal sqrt(BigDecimal value) {BigDecimal num2 = BigDecimal.valueOf(2);int precision = 100;MathContext mc = new MathContext(precision, RoundingMode.HALF_UP);BigDecimal deviation = value;int cnt = 0;while (cnt < precision) {deviation = (deviation.add(value.divide(deviation, mc))).divide(num2, mc);cnt++;}deviation = deviation.setScale(SCALE, BigDecimal.ROUND_HALF_UP);return deviation;} }

2.2.3 使用流量建議

在做AB測試的時候，我們希望能測試兩組間的轉化率在統計上是否存在明顯差異。由于樣本量大，我們可以采用雙樣本單尾z-檢驗（two-sample, one-tailed z-test）。另外，對于較小的樣本集合，我們可以依賴于t-檢驗。

轉化率的數據分布按二項分布計算

大流量-z檢驗

大流量及推薦用戶量

確定相較原來有轉化率的增長，置信度95%（p-value<0.05）

序號原始轉化率增長1%需要各組人數增長2%需要各組人數

1	5%	1032974	259459
2	10%	489160	122829
3	20%	217253	54514
4	30%	126617	31743
5	40%	81299	20357
6	50%	54109	13526

過程推理

按二項分布，推導的z值求解公式如下：
$\frac{p_{exp} - p_{ctrl}}{\sqrt{SE_{exp}^2 + SE_{ctrl}^2}}$
置信區間95%對應的z值為1.65，按相對原來增長1%計算

import math import matplotlib.pyplot as plt from scipy.stats import normdef get_cnt(old_cvr, ratio):p_experiment = old_cvr + old_cvr * ratiop_control = old_cvrreturn (p_experiment * (1 - p_experiment) + p_control * (1 - p_control)) / math.pow(old_cvr * ratio / norm.ppf(0.95), 2)# 按相對原來增長1%計算 def get_z(old_cvr, cnt, ratio):p_experiment = old_cvr + old_cvr * ratiop_control = old_cvrn_experiment = cntn_control = cntse_experiment = p_experiment * (1 - p_experiment) / n_experimentse_control = p_control * (1 - p_control) / n_controlreturn (p_experiment - p_control) / math.sqrt(se_experiment + se_control)print(get_cnt(0.05, 0.01)) print(get_cnt(0.10, 0.01)) print(get_cnt(0.20, 0.01)) print(get_cnt(0.30, 0.01)) print(get_cnt(0.40, 0.01)) print(get_cnt(0.50, 0.01))print(get_cnt(0.05, 0.02)) print(get_cnt(0.10, 0.02)) print(get_cnt(0.20, 0.02)) print(get_cnt(0.30, 0.02)) print(get_cnt(0.40, 0.02)) print(get_cnt(0.50, 0.02))x = range(1, 1200000, 100) y_5 = [] y_10 = [] y_20 = [] y_30 = [] y_40 = [] y_50 = [] line_2 = [] for i in x:y_5.append(get_z(0.05, i, 0.01))y_10.append(get_z(0.10, i, 0.01))y_20.append(get_z(0.20, i, 0.01))y_30.append(get_z(0.30, i, 0.01))y_40.append(get_z(0.40, i, 0.01))y_50.append(get_z(0.50, i, 0.01))line_2.append(norm.ppf(0.95)) # 0.95plt.plot(x, y_5, label='cvr_5%') plt.plot(x, y_10, label='cvr_10%') plt.plot(x, y_20, label='cvr_20%') plt.plot(x, y_30, label='cvr_30%') plt.plot(x, y_40, label='cvr_40%') plt.plot(x, y_50, label='cvr_50%') plt.plot(x, line_2) plt.legend(['cvr_5%', 'cvr_10%', 'cvr_20%', 'cvr_30%', 'cvr_40%', 'cvr_50%']) plt.show()

結果圖

![image.png](https://img-blog.csdnimg.cn/img_convert/dd8beb62c3b63c4ebb48659f978a706d.png#align=left&display=inline&height=480&margin=[object Object]&name=image.png&originHeight=480&originWidth=640&size=51594&status=done&style=none&width=640)

小流量-t檢驗

小用戶流量推薦：單邊檢測，統計功效大于80%，

![image.png](https://img-blog.csdnimg.cn/img_convert/2a9ac123343d8252c75f64890022e37e.png#align=left&display=inline&height=324&margin=[object Object]&name=image.png&originHeight=324&originWidth=890&size=181681&status=done&style=none&width=890)

import math from scipy.stats import normdef get_cnt(old_cvr, ratio):p_experiment = old_cvr + old_cvr * ratiop_control = old_cvrreturn math.ceil((norm.ppf(0.95) + norm.ppf(0.8)) ** 2 * (p_experiment * (1 - p_experiment) + p_control * (1 - p_control)) / (old_cvr * ratio ** 2))print(get_cnt(0.05, 0.01)) print(get_cnt(0.10, 0.01)) print(get_cnt(0.20, 0.01)) print(get_cnt(0.30, 0.01)) print(get_cnt(0.40, 0.01)) print(get_cnt(0.50, 0.01))print(get_cnt(0.05, 0.02)) print(get_cnt(0.10, 0.02)) print(get_cnt(0.20, 0.02)) print(get_cnt(0.30, 0.02)) print(get_cnt(0.40, 0.02)) print(get_cnt(0.50, 0.02)) 序號原始轉化率增長1%需要各組人數增長2%需要各組人數

1	5%	118025	29646
2	10%	111781	28069
3	20%	99291	24915
4	30%	86802	21761
5	40%	74312	18608
6	50%	61823	15454

3 實戰經驗

3.1 指標體系的設立

3.3.1 常用指標類別

人次
頻次
人均
- 普通人均=頻次/人次
- 同一個人重復點擊去除的人均，A點擊了B 2次、C 1次，按上述人均是3，按此人均是2
頻次轉化率
人次轉化率
總和（如成交金額）

3.2 結合數據分析

3.2.1 AAARR漏斗模型

3.2.2 渠道分析統計

3.3 報表統計分層

4 常見問題

4.1 辛普森悖論

當人們嘗試探究兩種變量（比如新生錄取率與性別）是否具有相關性的時候，會分別對之進行分組研究。然而，在分組比較中都占優勢的一方，在總評中有時反而是失勢的一方。該現象于20世紀初就有人討論，但一直到1951年，E.H.辛普森在他發表的論文中闡述此一現象后，該現象才算正式被描述解釋。后來就以他的名字命名此悖論，即辛普森悖論。

4.2 A/B測試方法的副作用和處理辦法

對于非常小的效果變化，往往都需要創建相當大的對照組和測試組來實現AB測試，這個的代價往往是很大的。設想下在零售商場中，每天觀察到的用戶數量，往往需要很久的時間才能得出明顯的結論。在實際業務應用中，會遇到的問題是：當你運行測試時整體運行的效果是受到很大影響的，因為必須有一半的用戶處于效果不佳的實驗組，或者有一半的用戶處于效果不佳的對照組，而且你必須等待測試完成才能停止這種局面。

這是被稱為**探索利用難題（explore-exploit conundrum）**的一個經典問題。我們需要運行次優方法，以探索空間，并找到效果更好的解決方案，而一旦找到了更好的解決方案，我們還需要盡快利用它們來實現效果提升。能否可以更快地利用新的解決方案，而不必等待測試完全完成呢？答案是肯定的。下面簡單介紹下多臂賭博機（multi-armed bandit，MAB）的概念。

多臂賭博機的定義

多臂賭博機（multi-armed bandit，MAB）的名字來源于著名的賭博游戲角子賭博機（one-armed bandit）。對那些從沒去過賭場的人，我們來做下解釋：角子機（又稱老虎機）是一個需要你拉杠桿（或搖臂）的賭博機器，根據機器展示的數值，你可能會得到一筆獎勵，也可能（更大幾率）得不到任何東西。和你想的一樣，這些機器的設置都對莊家有利，所以能獲的獎勵的幾率是非常非常小的。

多臂賭博機（理論上的）擴展了這種形式，想象你面對的是一堆角子賭博機，每個賭博機都被分配按照一個獨立的概率進行獎勵。作為一個玩家，你不知道在這些機器后的獲獎概率，你唯一可以找到獲獎概率的方法是進行游戲。你的任務是通過玩這些機器，最大限度地提高所獲的獎勵。那么你應該使用什么策略呢？

附錄

附錄A 流程

附錄B 問題排查

總結

以上是生活随笔為你收集整理的AB实验平台：为什么AB实验平台必不可少？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：使用 Mailgun 配置 Ghost
下一篇：图解GHOST使用教程