A/B 测试:数据驱动的产品优化
編者按:本文為國(guó)內(nèi) A/B 測(cè)試云服務(wù)商 “吆喝科技” 的投稿。文章來(lái)源于吆喝科技創(chuàng)始人、CEO 王曄在 “大數(shù)據(jù)江湖” 的演講分享。
大數(shù)據(jù)時(shí)代,擁有數(shù)據(jù)就是擁有了寶貴的財(cái)富。現(xiàn)在獲得數(shù)據(jù)已經(jīng)變得越來(lái)越容易。但是數(shù)據(jù)的價(jià)值怎么才能最大的挖掘出來(lái)呢?僅僅擁有數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,要使用數(shù)據(jù)來(lái)發(fā)揮價(jià)值。僅僅讓機(jī)器來(lái)使用數(shù)據(jù)還是遠(yuǎn)遠(yuǎn)不夠的,更最重要的在于企業(yè)里的 “人” 可以正確高效的使用數(shù)據(jù)。這就需要企業(yè)具備數(shù)據(jù)驅(qū)動(dòng)的理念。
那么什么是數(shù)據(jù)驅(qū)動(dòng)的理念?怎么定義數(shù)據(jù)驅(qū)動(dòng)?有很多人從不同角度給出了不同的解釋和闡述。我最喜歡的是 DataStax 公司 CEO Bosworth 的一句話:
“從現(xiàn)在開(kāi)始的 10年 內(nèi),當(dāng)我們回顧大數(shù)據(jù)時(shí)代是如何發(fā)展時(shí),我們會(huì)震驚于以往做出決策時(shí)信息的匱乏。”
數(shù)據(jù)驅(qū)動(dòng)的理念在于企業(yè)應(yīng)該充分的用數(shù)據(jù)方法來(lái)優(yōu)化自己的產(chǎn)品,運(yùn)營(yíng),決策,乃至戰(zhàn)略。
具體來(lái)說(shuō),數(shù)據(jù)的使用方法可以分為后驗(yàn)和先驗(yàn)兩類。
后驗(yàn)就是指對(duì)過(guò)往采集到的數(shù)據(jù)進(jìn)行挖掘分析,從中發(fā)現(xiàn)和歸納新的知識(shí),透過(guò)現(xiàn)象看本質(zhì)。1682年 有位天文學(xué)家發(fā)現(xiàn)了一顆有著巨大拖尾的星體快速劃過(guò)夜空。他對(duì)比過(guò)往天文數(shù)據(jù),發(fā)現(xiàn) 1531年 和 1607年 也有類似的觀測(cè)記載。他判斷這些觀測(cè)看到的是同一顆彗星,并且預(yù)言 76年 以后這顆星還會(huì)光顧地球。這就是著名的哈雷彗星,一個(gè)靠后驗(yàn)數(shù)據(jù)挖掘發(fā)現(xiàn)的重要天體。
后驗(yàn)數(shù)據(jù)對(duì)企業(yè)決策很有用,而我個(gè)人覺(jué)得先驗(yàn)數(shù)據(jù)對(duì)企業(yè)決策可能更有用。什么是先驗(yàn)數(shù)據(jù)?
在一個(gè)決策完全實(shí)施以前就能得出它實(shí)施后的效果數(shù)據(jù),這就是先驗(yàn)數(shù)據(jù)。在傳統(tǒng)中國(guó)文化里,我們往往更善于后驗(yàn)數(shù)據(jù),通過(guò)總結(jié)和歸納得出重要的結(jié)論。而現(xiàn)代西方文化更講究 “科學(xué)”,找到了先驗(yàn)數(shù)據(jù)的獲取方法,那就是做 “試驗(yàn)”。設(shè)定一個(gè)合理的小型的試驗(yàn)環(huán)境,然后將決策想法在這個(gè)環(huán)境中實(shí)施,得出數(shù)據(jù)化的結(jié)論,最終通過(guò)數(shù)學(xué)方法預(yù)測(cè)出這個(gè)決策想法在真實(shí)環(huán)境中的表現(xiàn),這就是先驗(yàn)的方法。
一個(gè)非常經(jīng)典的試驗(yàn)方法就是我們今天要展開(kāi)討論的 A/B 測(cè)試。A/B 測(cè)試是指在所有條件都相等的條件下,只改變一個(gè)條件,從 A 改成 B,然后對(duì)比兩者產(chǎn)生的效果的不同。注意這是一個(gè)非常重要的定義,決定了 A/B 測(cè)試的科學(xué)性。我們來(lái)看看 A/B 測(cè)試與后驗(yàn)方法的不同:假如我們做了一個(gè)新決策,比如改了產(chǎn)品的某個(gè)設(shè)計(jì),試賣它一天,然后第二天再拿出老設(shè)計(jì)試賣一天。這樣對(duì)比新老設(shè)計(jì)就很可能 “不” 是 A/B 測(cè)試。新設(shè)計(jì)銷售好,并不一定是因?yàn)樾略O(shè)計(jì)好,可能是因?yàn)闀r(shí)間不同,新設(shè)計(jì)試賣那一天正好趕上周邊動(dòng)物園活動(dòng)帶來(lái)了很多游客。
正是考慮到后驗(yàn)方法的局限性,西醫(yī)(現(xiàn)代醫(yī)學(xué)科學(xué))首先引入了 A/B 測(cè)試的方法來(lái)驗(yàn)證新藥的療效。新藥的驗(yàn)證可能是這樣一個(gè)流程:100 位患者,被測(cè)試醫(yī)生悄悄劃分為 AB 兩組,注意患者自己并不知道自己被分組,注意 AB 兩組患者的健康情況應(yīng)該是接近一致的;A 組患者將會(huì)得到試驗(yàn)新藥,B 組患者將會(huì)得到長(zhǎng)的和新藥幾乎一模一樣的安慰劑;如果最終 A 組患者比 B 組的療效更好,才能證明新藥的藥效。
那么對(duì)應(yīng)到技術(shù)產(chǎn)品里,A/B 測(cè)試的方法就是將產(chǎn)品的用戶流量分割成 A/B 兩組,一組試驗(yàn)組,一組對(duì)照組,兩組用戶特點(diǎn)類似,并且同時(shí)運(yùn)行。試驗(yàn)運(yùn)行一段時(shí)間后分別統(tǒng)計(jì)兩組用戶的表現(xiàn),再將數(shù)據(jù)結(jié)果進(jìn)行對(duì)比,就可以科學(xué)的幫助決策。比如在這個(gè)例子里,50%用戶看到 A 版本頁(yè)面,50%用戶看到 B 版本頁(yè)面,結(jié)果 A 版本用戶轉(zhuǎn)化率 23%,高于 B 版本的 11%,在試驗(yàn)流量足夠大的情況下,我們就可以判定 A 版本勝出,然后將 A 版本頁(yè)面推送給所有的用戶。
有了 A/B 測(cè)試,產(chǎn)品的優(yōu)化過(guò)程就可以看作兩個(gè)階段。
第一個(gè)階段是后驗(yàn)的,通過(guò)統(tǒng)計(jì)分析目前的用戶行為和系統(tǒng)指標(biāo)來(lái)判斷產(chǎn)品的哪些地方可以做改進(jìn),比如是注冊(cè)頁(yè)面流失率太高需要優(yōu)化?還是購(gòu)物車報(bào)廢率太高需要改進(jìn)?
第二個(gè)階段就是試驗(yàn)階段,嘗試改進(jìn)這些產(chǎn)品的薄弱環(huán)節(jié)。比如是不是可以在注冊(cè)流程里增加一個(gè)送優(yōu)惠券環(huán)節(jié)?是不是可以精簡(jiǎn)一下購(gòu)物車付款的流程?要不要改寫(xiě)文案?要不要替換圖片?等等。這就需要對(duì)可能的決策進(jìn)行 A/B 測(cè)試評(píng)估,只有那些被試驗(yàn)數(shù)據(jù)證明了真正有改進(jìn)效果的那些決策才會(huì)被真正實(shí)施。那些不成功的改進(jìn)是不會(huì)上線的。比如剛才那個(gè)案例里面,B 版本的轉(zhuǎn)化率還不如 A 版本,那我們就不該把 B 版本推給所有的用戶。
對(duì)國(guó)際頂級(jí)互聯(lián)網(wǎng)公司來(lái)說(shuō),幾乎所有的產(chǎn)品改動(dòng)都是要經(jīng)過(guò)嚴(yán)格的 A/B 測(cè)試考驗(yàn)之后才能上線。我們來(lái)看看他們得到的效果:
這是微軟的 bing 搜索引擎通過(guò)反復(fù) A/B 測(cè)試之后的改版結(jié)果,左邊是老版,右邊是新版。僅僅從肉眼看來(lái),幾乎看不出區(qū)別。實(shí)際上就是在顏色上做了一些微調(diào),結(jié)果右邊版本比左邊版本提升了 10,000,000 美元的年化營(yíng)收。
這是亞馬遜購(gòu)物網(wǎng)站推出的一個(gè)信用卡推銷策略。最早這個(gè)推銷信用卡的廣告出現(xiàn)在用戶選擇購(gòu)物商品的頁(yè)面,結(jié)果幾乎無(wú)人問(wèn)津,還浪費(fèi)了好幾個(gè)寶貴的商品展示位置;后來(lái)運(yùn)營(yíng)人員想出了一個(gè)策略,說(shuō)把這個(gè)推銷放在用戶購(gòu)物車結(jié)算的時(shí)候,結(jié)果 A/B 測(cè)試顯示這個(gè)改動(dòng)大幅度提高了信用卡申請(qǐng)率,給亞馬遜帶來(lái)了上億美元的營(yíng)收增長(zhǎng)。
說(shuō)到亞馬遜,有誰(shuí)能想起來(lái)它的 “加入購(gòu)物車” 按鈕是什么樣式么?它是黃色底色,黑色邊框,綠色字體……從設(shè)計(jì)美學(xué)來(lái)看,是很怪異很難看的。但是反復(fù) A/B 測(cè)試會(huì)發(fā)現(xiàn)這個(gè)樣式卻是用戶購(gòu)買轉(zhuǎn)化率最高的一個(gè)設(shè)計(jì)。數(shù)據(jù)驅(qū)動(dòng)的優(yōu)化,結(jié)果就是決策要聽(tīng)數(shù)據(jù)的,而不是聽(tīng)藝術(shù)家或者老板的。
這是一個(gè)互聯(lián)網(wǎng)教育網(wǎng)站,在這個(gè)主要的學(xué)生注冊(cè)頁(yè)面,通過(guò)反復(fù) A/B 測(cè)試試驗(yàn),發(fā)現(xiàn)一個(gè)很好的頁(yè)面排版,可以提升學(xué)生注冊(cè)率 40%以上。這個(gè)排版和常用的課程分類不同,將課程按照上課熱門(mén)程度排序,可能刺激了很多潛在學(xué)生的競(jìng)爭(zhēng)心理。“我不知道該上什么課,但是大家都學(xué)的課我不能不學(xué)”。用戶可能是這么想的。當(dāng)然,這是馬后炮。還是 A/B 測(cè)試能告訴我們到底什么排版更好。
這個(gè)電商網(wǎng)站賣防水耳機(jī),原來(lái)排版是 Call-To-Action 按鈕在左文案在右,后來(lái)調(diào)換了位置,A/B 測(cè)試發(fā)現(xiàn)這個(gè)簡(jiǎn)單的改動(dòng)可以提升銷量 35%以上。
現(xiàn)實(shí)中,通過(guò) A/B 測(cè)試可以發(fā)現(xiàn)很多產(chǎn)品上的改動(dòng)或者運(yùn)營(yíng)上的策略其實(shí)并不產(chǎn)生效果, 有些甚至?xí)胸?fù)效果。比如很多改版并不會(huì)帶來(lái)轉(zhuǎn)化率的提升,比如手機(jī) App 里的漢堡菜單經(jīng)常會(huì)帶來(lái)用戶活躍度下降,比如有一些電商網(wǎng)站在增加了商品分類功能之后用戶下單率會(huì)下跌。
對(duì)大多數(shù)成熟的互聯(lián)網(wǎng)產(chǎn)品來(lái)說(shuō),只有少數(shù)的改動(dòng)策略才會(huì)帶來(lái)提升,所以國(guó)際互聯(lián)網(wǎng)企業(yè)都會(huì)跑大量的 A/B 測(cè)試試驗(yàn),從各種各樣的嘗試中找到少數(shù)有提升效果的試驗(yàn),將這些策略全面實(shí)施,不斷優(yōu)化產(chǎn)品。A/B 測(cè)試先驗(yàn)數(shù)據(jù)方法,有時(shí)候并不是在選擇更優(yōu)的策略,而是在排除掉不好的策略。只有通過(guò) A/B 測(cè)試驗(yàn)證好的改動(dòng)才會(huì)上線,這就保證了產(chǎn)品總是在不斷優(yōu)化和提升,而不會(huì)出現(xiàn)上下波動(dòng)的情況耽誤進(jìn)展。
這張示意圖很好的展示了使用 A/B 測(cè)試優(yōu)化產(chǎn)品之后的產(chǎn)品迭代效果,每一次新版本的發(fā)布都首先經(jīng)歷過(guò)小流量的 A/B 測(cè)試驗(yàn)證,所以可以保證確定性的提升。每一版更新都比老版要更好一些,日積月累就會(huì)大幅度超過(guò) “裸奔” 的競(jìng)爭(zhēng)對(duì)手。
說(shuō)到這里,就得提一下專業(yè)第三方 A/B 測(cè)試云服務(wù)的作用。A/B 測(cè)試的原理聽(tīng)上去很簡(jiǎn)單,但是實(shí)踐中會(huì)遇到很多問(wèn)題:
首先是試驗(yàn)流量分割的科學(xué)性和試驗(yàn)結(jié)果的準(zhǔn)確性。舉個(gè)不恰當(dāng)?shù)睦?#xff0c;Google 做了一個(gè)社交網(wǎng)站 Google+,用自己的員工測(cè)試了一下,發(fā)現(xiàn)用戶活躍度很高。結(jié)果發(fā)布這個(gè)網(wǎng)站給全球用戶,結(jié)果完全不同。所以如果試驗(yàn)流量采樣不科學(xué),就可能帶來(lái)試驗(yàn)結(jié)論的巨大偏差,導(dǎo)致 A/B 測(cè)試白費(fèi)功夫。專業(yè) A/B 測(cè)試云服務(wù)可以通過(guò)對(duì)用戶進(jìn)行機(jī)器學(xué)習(xí)分類,再做動(dòng)態(tài)采樣來(lái)保證試驗(yàn)流量的代表性(representative sampling)。
(大家可以留意一下第二張圖)
其次是試驗(yàn)結(jié)果的敏感性問(wèn)題。因?yàn)樵囼?yàn)結(jié)果是統(tǒng)計(jì)學(xué)意義上的結(jié)果,比如以 95%置信區(qū)間的形式展示出來(lái),如果不確性太強(qiáng),那么對(duì)我們也沒(méi)有多少用處。例如我們吆喝科技自己的官網(wǎng),在早期做 A/B 測(cè)試試驗(yàn)的時(shí)候,就因?yàn)樵囼?yàn)流量太少而得不出什么結(jié)論。舉個(gè)例子,我們嘗試把 “申請(qǐng)注冊(cè)” 這個(gè)表單更換了一個(gè)樣式,得出試驗(yàn)結(jié)果是申請(qǐng)注冊(cè)率 “平均” 提高了 4 倍!但是置信區(qū)間太寬,從-200%到 +1000%,到底是提升了還是降低了很難判斷,顯然不是一個(gè)很有用的結(jié)論。
這個(gè)反例是因?yàn)楫?dāng)時(shí)我們的訪客數(shù)量太少,試驗(yàn)中只有 500 左右,而且隨機(jī)性太強(qiáng),只有 1%的用戶會(huì)申請(qǐng),所以置信區(qū)間很寬。隨著試驗(yàn)運(yùn)行時(shí)間加長(zhǎng)以及試驗(yàn)流量增大,置信區(qū)間可以逐漸收斂。專業(yè) A/B 測(cè)試系統(tǒng)可以利用統(tǒng)計(jì)學(xué)算法對(duì)小采樣進(jìn)行更細(xì)致的模型分析,加速置信區(qū)間的收斂。
最后要談到的是 A/B 測(cè)試的效率問(wèn)題。很多朋友嘗試 “手工” 做 A/B 測(cè)試,先由技術(shù)人員寫(xiě)點(diǎn)代碼來(lái)做分流,收集一段時(shí)間數(shù)據(jù)再寫(xiě)點(diǎn)代碼來(lái)把數(shù)據(jù)分開(kāi)統(tǒng)計(jì),最后發(fā)現(xiàn)老頁(yè)面點(diǎn)擊 100 下,新頁(yè)面點(diǎn)擊 98 下,然后過(guò)幾天數(shù)據(jù)又變化了。這個(gè)體驗(yàn)就是 “驗(yàn)證 1 個(gè)小小的想法,花了幾天,最后還是不知道是提高了,是降低了,還是沒(méi)有變”,覺(jué)得 A/B 測(cè)試沒(méi)有實(shí)用價(jià)值。
專業(yè)的 A/B 測(cè)試云服務(wù)就是給大家提供各種各樣方便的 API,圖形界面,編輯工具,分析工具,可以大幅度提高 A/B 測(cè)試的效率。有了強(qiáng)大的工具,一個(gè)人一個(gè)星期就可以做大量試驗(yàn),其中哪怕只有少數(shù)是成功的(大部分試驗(yàn)無(wú)效,小部分試驗(yàn)失敗),一個(gè)星期提升 20%,一個(gè)多月就可以超過(guò)競(jìng)爭(zhēng)對(duì)手 1 倍了。
這張圖展示了 Google 從 07年 以來(lái) A/B 測(cè)試試驗(yàn)數(shù)量的增長(zhǎng)情況。 Google 是從 2004年 到 2007年 構(gòu)建了自己的強(qiáng)大的 A/B 測(cè)試引擎的,在這之后,Google 的優(yōu)化效率和對(duì)應(yīng)的優(yōu)化努力都直線上升,現(xiàn)在每個(gè)月都會(huì)跑幾百個(gè) A/B 測(cè)試試驗(yàn)。我以前在 Google 負(fù)責(zé)搜索廣告優(yōu)化的時(shí)候,天天都會(huì)做 A/B 測(cè)試,也會(huì)不斷改進(jìn) Google 自己的 A/B 測(cè)試系統(tǒng),來(lái)提高效率。有這樣一個(gè)強(qiáng)大的工具,Google 完全不擔(dān)心競(jìng)爭(zhēng)對(duì)手的逆襲。
Facebook 是移動(dòng)互聯(lián)網(wǎng)時(shí)代的王者,Facebook App 在每次 AppStore 上線的時(shí)候都會(huì)將未來(lái) 6 個(gè)月想要做的試驗(yàn)都集成進(jìn)代碼里。然后不斷的放小流量進(jìn)行 A/B 測(cè)試,將好的改動(dòng)發(fā)布,將不好的改動(dòng)下線。這不僅為 Facebook 帶來(lái)了用戶活躍的提升而且使 Facebook 得到了 “沒(méi)有 bug” 的口碑!這個(gè)口碑往往被人忽視,實(shí)際上是非常厲害的。
Airbnb 和 Uber 作為新一代線上線下結(jié)合的互聯(lián)網(wǎng)產(chǎn)品,更是從第一天就開(kāi)始做 A/B 測(cè)試,不僅在自己的體系里做,還用第三方工具做,保證所有的決策,從產(chǎn)品,到運(yùn)營(yíng),乃至到戰(zhàn)略,都是經(jīng)過(guò)數(shù)據(jù)驅(qū)動(dòng)的優(yōu)化決策。每一個(gè)改動(dòng),都先用 1%的流量來(lái)試驗(yàn),然后再推到 5%,再到 10%,到 20%,到 50%,最后再發(fā)布給所有用戶。
現(xiàn)在大家把這樣的一種數(shù)據(jù)驅(qū)動(dòng)的工作叫做 “增長(zhǎng)黑客”(growth hacking),而增長(zhǎng)黑客的武器就和黑客一樣,是強(qiáng)大的技術(shù)工具與精密的數(shù)據(jù)分析。A/B 測(cè)試是其中必不可少的一環(huán),而且被很多黑客稱為增長(zhǎng)黑客必殺技。
Ronny 是微軟公司的科學(xué)家,一手主導(dǎo)了微軟多個(gè)產(chǎn)品線的線上 A/B 測(cè)試系統(tǒng)的搭建與使用。發(fā)表過(guò)很多著名的關(guān)于 A/B 測(cè)試的學(xué)術(shù)論文,可以說(shuō)是這個(gè)領(lǐng)域的頂級(jí)專家。7 條經(jīng)驗(yàn)如下:
效果驚人:某些微小的改動(dòng)可能造成對(duì) KPI 的巨大影響
耐心測(cè)試:但是大多數(shù)改動(dòng)都不會(huì)大幅度提高 KPI。這里說(shuō)一個(gè)很有意思的 Twyman 法則:凡是看上去很出人意料的圖表,通常都是因?yàn)閿?shù)據(jù)統(tǒng)計(jì)錯(cuò)了
你很不同:各個(gè)產(chǎn)品幾乎完全不同,所以復(fù)制他人經(jīng)驗(yàn)往往得不到什么效果
速度是關(guān)鍵:任何能加速用戶響應(yīng)時(shí)間的改動(dòng)都會(huì)給 KPI 帶來(lái)提升
關(guān)注產(chǎn)品質(zhì)量本身:點(diǎn)擊率容易提高,流失率很難改進(jìn),勿將精力都放在提高某個(gè)頁(yè)面的點(diǎn)擊率上
快速輕量迭代:盡量不要做復(fù)雜的大量改動(dòng)的大試驗(yàn),盡量做很多很多個(gè)簡(jiǎn)單改動(dòng)的小試驗(yàn)
用戶數(shù)量是基礎(chǔ):幾千上萬(wàn)用戶才容易展開(kāi)高效的 AB 測(cè)試
這幾條經(jīng)驗(yàn)和我個(gè)人以及我們公司的實(shí)踐經(jīng)驗(yàn)完全吻合,希望以后能幫到大家的實(shí)踐。“最好的 PM 也只能跑贏一半的 A/B 測(cè)試”,歡迎大家在未來(lái)的工作中充分使用 A/B 測(cè)試這樣強(qiáng)大的工具來(lái)實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的優(yōu)化增長(zhǎng)。
最后,附上幾個(gè) QA 問(wèn)答:
1、測(cè)試所需的數(shù)據(jù)從何而來(lái)?
試驗(yàn)數(shù)據(jù)是統(tǒng)計(jì)得來(lái),如果用第三方工具,往往是接入 SDK 然后通過(guò) SDK 匯報(bào)到云端的。注意 A/B 測(cè)試是真實(shí)用戶無(wú)感知測(cè)試,是用的真實(shí)流量。
2、A/B 測(cè)試的對(duì)象如何選取?
好問(wèn)題。一般來(lái)說(shuō)是根據(jù)你的新策略是針對(duì)什么用戶的就對(duì)這些用戶進(jìn)行 “定向” 的 A/B 測(cè)試。比如按鈕顏色的選擇,是針對(duì)所有用戶的,那就對(duì)所有用戶進(jìn)行采樣,從所有用戶里選 1%來(lái)測(cè)試。比如推薦算法的選擇,可能是針對(duì)老用戶的,那就只在老用戶里采樣 10%來(lái)測(cè)試。
3、一般來(lái)說(shuō),網(wǎng)站 UV 或者用戶數(shù)達(dá)到多少時(shí),就應(yīng)該嘗試 A/B 測(cè)試,也比較容易看到效果了呢?
一般 UV 有上千就可以試試看了:)
4、感覺(jué) A/B 測(cè)試是比較適用于 POC 或決策分析,能用于外部攻擊的結(jié)果分析嗎?
這個(gè)問(wèn)題很高端,我個(gè)人對(duì)安全領(lǐng)域很無(wú)知,所以不夠資格回答這個(gè)問(wèn)題。A/B 測(cè)試的核心在于無(wú)感知的分流,對(duì)不同流量群的控制,以及對(duì)比分析,不知道這個(gè)對(duì)外部攻擊的分析有沒(méi)有用。
5、測(cè)試肯定是有針對(duì)性的,A/B 測(cè)試一般應(yīng)用于那些場(chǎng)景?互聯(lián)網(wǎng)產(chǎn)品推崇快速失敗快速迭代,和 A/B 測(cè)試有無(wú)想關(guān)注。
主要應(yīng)用場(chǎng)景包括灰度發(fā)布,新舊版本對(duì)比,保證無(wú) bug 和無(wú)事故;嘗試新決策,比如推送優(yōu)惠券,或者界面改版,或者算法參數(shù)變化,看看哪個(gè)改動(dòng)更好;研究用戶行為,比如通過(guò)設(shè)計(jì)好的 A/B 測(cè)試來(lái)分析用戶的喜好。沒(méi)錯(cuò),互聯(lián)網(wǎng)產(chǎn)品講究快速迭代,增長(zhǎng)黑客,A/B 測(cè)試是其中的必殺技:)
6、如果 A/B 測(cè)試決策后一定時(shí)間后進(jìn)行后驗(yàn),會(huì)出現(xiàn)結(jié)果有差異么?如果有怎么做
好問(wèn)題。有的時(shí)候會(huì)有這樣的情況,一個(gè)新試驗(yàn)效果很好,時(shí)間長(zhǎng)了發(fā)現(xiàn)不行了。這被 Google 稱為 “User Blindness” 用戶盲性。目前的經(jīng)驗(yàn)是,大部分試驗(yàn)都沒(méi)有盲性,但是有些是有的。這個(gè)仍然是個(gè)研究課題……后驗(yàn)發(fā)現(xiàn)問(wèn)題,就只能總結(jié)經(jīng)驗(yàn),再尋其他方法,沒(méi)有什么捷徑。
7、如何保證 A/B test 只受目標(biāo)因素影響,不受其他因素的干擾。
這個(gè)就是要做到試驗(yàn)流量采樣的科學(xué)性。A/B 測(cè)試的核心思想就是 “所有條件都相等,只有一個(gè)條件從 A 改成 B,會(huì)發(fā)生什么”。我們的做法就是在隨機(jī)采樣的算法里盡量讓采樣出來(lái)的 1%用戶的行為的統(tǒng)計(jì)分布和 100%用戶的分布保持一致。當(dāng)然,還有一些其他可能干擾的因素需要我們?nèi)藖?lái)應(yīng)對(duì)。一個(gè)經(jīng)驗(yàn)就是把重要的試驗(yàn)跑 7 天,至少覆蓋 “周中” 和 “周末” 兩個(gè)不同時(shí)間段,因?yàn)橛脩粜袨樵谶@兩個(gè)時(shí)間段不一樣。
8、是否有專門(mén)團(tuán)隊(duì)負(fù)責(zé)實(shí)驗(yàn)設(shè)計(jì)?多個(gè)實(shí)驗(yàn)并行如何評(píng)估實(shí)驗(yàn)結(jié)果?
像 Facebook, Airbnb, Uber 都是會(huì)有專門(mén)的 growth hacker 去設(shè)計(jì)試驗(yàn),當(dāng)然優(yōu)秀的 PM 和運(yùn)營(yíng)人員都可以勝任。
9、實(shí)際運(yùn)營(yíng)中可能需要或者說(shuō)想要改進(jìn)的東西有很多,那么在 A/B 測(cè)試前是不是有進(jìn)行其他分析,以便于取舍先做哪個(gè)后做哪個(gè)測(cè)試
好問(wèn)題。一般來(lái)說(shuō)先期的數(shù)據(jù)分析很重要,先判斷系統(tǒng)什么地方最需要改進(jìn),從那里先入手。通常來(lái)說(shuō),關(guān)鍵轉(zhuǎn)化率相關(guān)都是最值得做大量 A/B 測(cè)試的,比如注冊(cè)流程,購(gòu)買流程,付費(fèi)流程,等等。
10、結(jié)果數(shù)據(jù)從 A 到 B 效果驚人,改變一個(gè)條件就可能導(dǎo)致從 A 到 B,這個(gè)條件如何選取,是否有理論依據(jù),感覺(jué)容易導(dǎo)致漫無(wú)目的的亂測(cè)呢?
很多時(shí)候是 growth hacker,產(chǎn)品經(jīng)理,技術(shù)大牛的經(jīng)驗(yàn)遠(yuǎn)比理論更重要
11、怎么衡量 AB 測(cè)試是否真的有效?一般會(huì)用什么統(tǒng)計(jì)方式進(jìn)行檢驗(yàn)?
一般是在試驗(yàn)結(jié)束,發(fā)布了 “成功” 的新版之后,通過(guò)后驗(yàn)數(shù)據(jù)來(lái)做基礎(chǔ)的判斷。另一方面,也可以通過(guò)反向 A/B 測(cè)試做驗(yàn)證,比如發(fā)布新版本給 98%的用戶,留下 2%用戶用老版,看看對(duì)比數(shù)據(jù)有沒(méi)有問(wèn)題。
本文轉(zhuǎn)自d1net(轉(zhuǎn)載)
總結(jié)
以上是生活随笔為你收集整理的A/B 测试:数据驱动的产品优化的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Microsoft Visual C++
- 下一篇: java爬虫爬取B站弹幕