日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【阿里妈妈数据科学系列】第五篇:实验指标设定方法与指标体系构建

發(fā)布時(shí)間:2023/12/15 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【阿里妈妈数据科学系列】第五篇:实验指标设定方法与指标体系构建 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

??前言

在【阿里媽媽數(shù)據(jù)科學(xué)系列】前四期內(nèi)容中,我們介紹了 AB TEST 的基礎(chǔ)知識(shí)與框架及每個(gè)部分的方法論與技術(shù),本期我們主要介紹實(shí)驗(yàn)指標(biāo)設(shè)定方法與指標(biāo)體系構(gòu)建。

指標(biāo)體系構(gòu)建在 AB Test 中是不可或缺的重要環(huán)節(jié),量化的指標(biāo)體系是衡量一個(gè) AB Test 實(shí)驗(yàn)成功與否、能否擴(kuò)量以及是否達(dá)到預(yù)期必不可少的條件,同時(shí),一套科學(xué)的指標(biāo)體系可以在抽樣環(huán)節(jié)和同質(zhì)性角度對(duì)實(shí)驗(yàn)組的可信度起到巨大的幫助。

??實(shí)驗(yàn)評(píng)價(jià)指標(biāo)設(shè)計(jì)

針對(duì)一個(gè)實(shí)驗(yàn),如何設(shè)計(jì)評(píng)價(jià)指標(biāo)來(lái)評(píng)估監(jiān)控?一個(gè)關(guān)鍵點(diǎn)是從實(shí)驗(yàn)的目的去自頂向下設(shè)計(jì)指標(biāo),例如高層次的指標(biāo)可以是用戶(hù)活躍率和采納率,在這個(gè)頂點(diǎn)上,需要向下定義什么算用戶(hù)活躍?什么又算完成采納?依照這個(gè)邏輯給到每一個(gè)關(guān)注指標(biāo)一個(gè)明確的定義。同時(shí),可以將一系列的指標(biāo)進(jìn)行聚合,通過(guò)構(gòu)造一個(gè)目標(biāo)函數(shù)或者簡(jiǎn)單的加權(quán)指標(biāo),組成一個(gè)單一指標(biāo),例如總體評(píng)價(jià)指標(biāo)(OEC)。最后在指標(biāo)設(shè)計(jì)中,還需要考慮指標(biāo)的普適性有多少,如果你在運(yùn)用 AB Test 測(cè)試,那么最好能有一個(gè)指標(biāo)能夠貫穿整個(gè)體系。

指標(biāo)特性

  • 敏感性:敏感性是指指標(biāo)對(duì)所關(guān)系的事物是否足夠敏感。

  • 魯棒性:魯棒性性是指對(duì)不關(guān)心的事物是否足夠不敏感。

  • 指標(biāo)分布:通過(guò)對(duì)指標(biāo)的歷史數(shù)據(jù)的分析得到指標(biāo)分布,反映指標(biāo)的分布特征和結(jié)構(gòu)狀況,有助于進(jìn)一步研究指標(biāo)的構(gòu)成、平均水平及其變動(dòng)規(guī)律。

  • 敏感性和魯棒性都可以通過(guò)預(yù)先小規(guī)模實(shí)驗(yàn),來(lái)驗(yàn)證指標(biāo)是否符合直覺(jué)。另一個(gè)方法是使用 A/A 測(cè)試,也就是什么都不改變,以此來(lái)排除一些偽關(guān)系。

    ? 指標(biāo)分類(lèi)及選取

    指標(biāo)分類(lèi)

    AB Test 測(cè)試的指標(biāo)通??梢苑譃楹诵闹笜?biāo)、質(zhì)量指標(biāo)以及觀(guān)測(cè)指標(biāo)。1. 核心指標(biāo)通常是指比較敏感的,有很強(qiáng)的可操作性,同時(shí)能夠受實(shí)驗(yàn)干預(yù)措施帶來(lái)較為直接的影響,主要用來(lái)決定實(shí)驗(yàn)是否成功的指標(biāo)。例如人均消耗、點(diǎn)擊率、轉(zhuǎn)化率、人均使用時(shí)長(zhǎng)等,其特性包括可歸因性,可測(cè)量性,在實(shí)驗(yàn)干預(yù)前,通常采用A/A測(cè)試來(lái)測(cè)量魯棒性,用回溯性分析來(lái)測(cè)量敏感性;2. 質(zhì)量指標(biāo)在AB Test中起到的是兜底作用,通常是作為一個(gè)約束底線(xiàn)而存在,幫助我們戒備核心指標(biāo)給予錯(cuò)誤信號(hào)的情況,能夠幫助實(shí)驗(yàn)更好的確定是否需要繼續(xù)進(jìn)行或擴(kuò)量;3. 觀(guān)測(cè)指標(biāo)在實(shí)驗(yàn)中起到輔助作用,可以更好的觀(guān)測(cè)實(shí)驗(yàn)帶來(lái)的一些其余方向的影響。這三類(lèi)指標(biāo)共同構(gòu)建了AB Test的指標(biāo)體系。

    如何選取核心指標(biāo)

    首先要清楚業(yè)務(wù)或產(chǎn)品所處的階段,根據(jù)這個(gè)階段的目標(biāo)來(lái)確定核心指標(biāo)。例如,在業(yè)務(wù)或產(chǎn)品的起步階段,目標(biāo)更多的側(cè)重于增加用戶(hù)使用,其核心指標(biāo)更應(yīng)該集中在使用率、點(diǎn)擊率、轉(zhuǎn)化率等指標(biāo);而在業(yè)務(wù)產(chǎn)品的成熟及穩(wěn)定期,此時(shí)業(yè)務(wù)目標(biāo)逐漸轉(zhuǎn)向的是產(chǎn)品收益、用戶(hù)的使用留存情況,核心指標(biāo)則應(yīng)該重點(diǎn)關(guān)注在ROI、留存率、使用頻次、停留時(shí)長(zhǎng)等。同時(shí),核心指標(biāo)的個(gè)數(shù)不宜太多,一般不超過(guò)三個(gè)。通過(guò)觀(guān)察成功指標(biāo)的差別,我們可以決定是否接受產(chǎn)品的改動(dòng) 核心指標(biāo)的是否成功必須是能在短時(shí)間內(nèi)被驗(yàn)證,并能夠指示長(zhǎng)期影響的指標(biāo)。例如,如果業(yè)務(wù)的期望是為了提升平臺(tái)用戶(hù)粘性,日活率是一個(gè)好的核心指標(biāo),通過(guò)數(shù)據(jù)可以快速的知道平臺(tái)有多少登錄用戶(hù),其中又有多少有活躍動(dòng)作,但是30天留存率就不是一個(gè)很好的核心指標(biāo),因?yàn)楸仨毜却辽?0天才能知道用戶(hù)是否還在該產(chǎn)品上繼續(xù)活躍,雖然日活率和長(zhǎng)期留存率都衡量了長(zhǎng)期商業(yè)的影響,但由于滯后性,長(zhǎng)期留存率并不能拿來(lái)作為核心指標(biāo)。但核心指標(biāo)的成功度量并不需要直接測(cè)量長(zhǎng)期商業(yè)影響,間接指示也可以,例如:Netflix 就利用用戶(hù)觀(guān)看時(shí)長(zhǎng)作為用戶(hù)增長(zhǎng)的成功指標(biāo),他們的收入與訂閱用戶(hù)數(shù)量直接相關(guān),由于 Netflix 提供包月業(yè)務(wù),大部分取消業(yè)務(wù)的用戶(hù)都會(huì)選在續(xù)費(fèi)前取消,這就造成了訂閱用戶(hù)數(shù)量會(huì)存在一個(gè)月的間隔,剛開(kāi)始的 AB Test 測(cè)試需要至少一個(gè)月才能知道成效。而且,Netflix 也不希望用戶(hù)退訂,他們希望知道用戶(hù)是否已經(jīng)開(kāi)始不滿(mǎn)意產(chǎn)品的變動(dòng),并及時(shí)做出決策,所以通過(guò)相關(guān)性分析,Netflix 發(fā)現(xiàn)用戶(hù)每周觀(guān)看時(shí)間和留存率有很大的相關(guān)性,因此,每周觀(guān)看時(shí)間也能作為核心指標(biāo),因?yàn)樗g接并且快速的指示長(zhǎng)期的商業(yè)影響。

    如何選取質(zhì)量指標(biāo)

    質(zhì)量指標(biāo)可以是產(chǎn)品的性能指標(biāo)。例如測(cè)試新的搜索引擎,一般也會(huì)對(duì)搜索引擎的性能進(jìn)行衡量,如:多少搜索成功完成,平均耗時(shí)多少?雖然這些度量并不完全決定是否發(fā)布新的搜索引擎,但是如果我們發(fā)現(xiàn)它的表現(xiàn)非常差,即使核心指標(biāo)(搜索相關(guān)性)有些許的提高,往往也不會(huì)發(fā)布新的產(chǎn)品。它也可以是產(chǎn)品不直接影響的商業(yè)價(jià)值指標(biāo),例如在做用戶(hù)增長(zhǎng)實(shí)驗(yàn)時(shí),也可以將用戶(hù)體驗(yàn)作為質(zhì)量指標(biāo),雖然大部分的新產(chǎn)品和新功能都不應(yīng)該影響用戶(hù)體驗(yàn),但是將它們加入質(zhì)量指標(biāo)可以對(duì)實(shí)驗(yàn)結(jié)果更有信心。

    如何選取觀(guān)測(cè)指標(biāo)

    觀(guān)測(cè)指標(biāo)可以從兩個(gè)角度來(lái)挖掘,一方面是用來(lái)幫助我們理解核心指標(biāo)為什么改變的指標(biāo),舉例而言,如果想測(cè)試廣告是否有效,一個(gè)很直接的核心指標(biāo)就是廣告的點(diǎn)擊率,但通過(guò)對(duì)于點(diǎn)擊率的分析,我們能夠更深刻的了解到廣告利潤(rùn)是如何來(lái)的,以及如何設(shè)計(jì)新的廣告形式或者廣告內(nèi)容,這是觀(guān)測(cè)指標(biāo)可以包括廣告的曝光和點(diǎn)擊,這些指標(biāo)可以更好的幫助我們理解點(diǎn)擊率的變化發(fā)生在了哪一塊。另一方面觀(guān)測(cè)指標(biāo)用來(lái)幫助我們監(jiān)測(cè)一些其余視角的得失,同樣以廣告為例,除了核心的點(diǎn)擊率,用戶(hù)的15日留存這個(gè)指標(biāo)可以從側(cè)面反映廣告機(jī)制的優(yōu)化是否會(huì)對(duì)用戶(hù)造成反感等。

    ? 綜合評(píng)價(jià)指標(biāo)(OEC)指標(biāo)構(gòu)建

    根據(jù)上述內(nèi)容我們得出,一個(gè)好的 AB Test 囊括的合理的核心指標(biāo)、質(zhì)量指標(biāo)及觀(guān)測(cè)指標(biāo),在這個(gè)背景下,可以發(fā)現(xiàn)一個(gè)實(shí)驗(yàn)可能同時(shí)需要監(jiān)測(cè)大量的指標(biāo),一個(gè)很容易的矛盾點(diǎn)便產(chǎn)生了,我們?nèi)绾魏饬窟@個(gè)實(shí)驗(yàn)是否成功?如果核心指標(biāo)提升但質(zhì)量指標(biāo)下降,我們又如何權(quán)衡這兩者之間的得失、判斷是否需要推全?觀(guān)測(cè)指標(biāo)對(duì)于實(shí)驗(yàn)的結(jié)論又有多大的幫助性?這些問(wèn)題導(dǎo)致了我們?cè)趯?shí)驗(yàn)之后有時(shí)難以做出下一步的決定,這時(shí)除了基于經(jīng)驗(yàn)以外,構(gòu)建一個(gè)綜合評(píng)價(jià)指數(shù)(OEC)便是解決這個(gè)問(wèn)題的一個(gè)方法,那么如何構(gòu)建一個(gè)OEC指標(biāo)呢。

  • 良好的指標(biāo)體系。我們知道不同的業(yè)務(wù)目的我們觀(guān)測(cè)的指標(biāo)各不相同,例如對(duì)于廣告平臺(tái)來(lái)說(shuō),提升收益的項(xiàng)目更關(guān)注的是廣告主的消耗,提升留存的項(xiàng)目更加關(guān)注的是廣告主的留存率等。此時(shí),便需要對(duì)業(yè)務(wù)進(jìn)行劃分,針對(duì)不同類(lèi)型的業(yè)務(wù),定義一套標(biāo)準(zhǔn)的指標(biāo)體系,包括該業(yè)務(wù)場(chǎng)景下的核心指標(biāo)、質(zhì)量指標(biāo)和觀(guān)測(cè)指標(biāo)。

  • 對(duì)指標(biāo)進(jìn)行處理,包括正向化和無(wú)量綱化。a)正向化:指標(biāo)一般分為正向指標(biāo)(越大越好)、逆向指標(biāo)(越小越好)、適度指標(biāo)(不能太小也不能太大)。為了可以進(jìn)行綜合匯總,需要解決同方向性,一般需要將逆向指標(biāo)和適度指標(biāo)正向化。逆向指標(biāo)正向化的方法可選擇的方法包括倒數(shù)法,最小閾值法、最大閾值法。適度指標(biāo)正向化包括絕對(duì)值倒數(shù)法和距離倒數(shù)法。具體方法不在此進(jìn)行介紹。b)無(wú)量綱化:指標(biāo)的無(wú)量綱化可以消除指標(biāo)間量級(jí)不同的影響,可以使各個(gè)指標(biāo)轉(zhuǎn)化成可以直接加減的的數(shù)值,常用的消除定量指標(biāo)無(wú)量綱化的方式如下。常用的方法包括閾值比較法、中心化、規(guī)格化、標(biāo)準(zhǔn)化、比重法。具體方法不在此進(jìn)行介紹。

  • 設(shè)置各指標(biāo)的權(quán)重,權(quán)重的設(shè)置是否合理對(duì)于構(gòu)建 OEC 至關(guān)重要,但什么樣的權(quán)重算作合理?對(duì)此,通常來(lái)說(shuō)需要將主觀(guān)賦權(quán)法與客觀(guān)賦權(quán)法相結(jié)合。a)主觀(guān)賦權(quán)法:又分為專(zhuān)家賦權(quán)法和層次分析法(AHP),這兩種方法都更多的依賴(lài)長(zhǎng)期的經(jīng)驗(yàn)及主觀(guān)認(rèn)知 b)客觀(guān)賦權(quán)法:基本思想是利用各指標(biāo)間的相互關(guān)系或提供的信息量來(lái)確定權(quán)重,實(shí)際實(shí)現(xiàn)是通過(guò)對(duì)原始數(shù)據(jù)經(jīng)過(guò)數(shù)學(xué)公式上的處理獲取權(quán)重,原始數(shù)據(jù)所包含的信息包括兩種,一種是指標(biāo)變異程度上的信息差異,一般通過(guò)指標(biāo)的標(biāo)準(zhǔn)差或變異系數(shù)來(lái)反映,一種是指標(biāo)間的相互影響程度,這種信息一般隱含在指標(biāo)見(jiàn)相關(guān)關(guān)系矩陣中。常見(jiàn)的客觀(guān)賦權(quán)的方法包括變異系數(shù)法、相關(guān)系數(shù)法、熵值法。

  • 根據(jù)權(quán)重進(jìn)行綜合打分:將賦權(quán)后的多指標(biāo)進(jìn)行綜合的方法主要有四大類(lèi):線(xiàn)性綜合法、幾何綜合法、混合綜合法和模型綜合法,前三種方法較為簡(jiǎn)單,可以理解為加權(quán)求和、加權(quán)幾何平均、線(xiàn)性加權(quán)與幾何綜合結(jié)合,而模型綜合法較為復(fù)雜,通過(guò)各種復(fù)雜的函數(shù)和相關(guān)關(guān)系得到綜合評(píng)價(jià)數(shù)值,同時(shí)該關(guān)系必須為描述對(duì)象間的關(guān)系清晰,可以用合適的數(shù)學(xué)表達(dá)式表述。

  • OEC的優(yōu)點(diǎn)

  • 綜合了各方面的指標(biāo),可以把握 AB Test 總體的好壞。

  • 可以避免多重檢驗(yàn)問(wèn)題。如果單獨(dú)比較多個(gè)指標(biāo)會(huì)出現(xiàn)多重檢驗(yàn)的問(wèn)題。

  • 對(duì)于不同的業(yè)務(wù)場(chǎng)景可以合理規(guī)范出通用的指標(biāo)體系,能夠幫助同類(lèi)型業(yè)務(wù)間進(jìn)行橫向的對(duì)比。

  • 對(duì)于單一項(xiàng)目,同時(shí)也可以做到時(shí)間上的縱向?qū)Ρ?#xff0c;方便進(jìn)行實(shí)驗(yàn)后的長(zhǎng)期追蹤。

  • ? 總結(jié)

    當(dāng)前的互聯(lián)網(wǎng)公司中,每天都有成百上千的 AB Test 正在進(jìn)行,因此,指標(biāo)的合理選擇及構(gòu)建一方面能夠直接影響實(shí)驗(yàn)的成功判斷,另一方面能夠清晰的幫助分析師從各個(gè)視角看清實(shí)驗(yàn),無(wú)論從產(chǎn)品的未來(lái)優(yōu)化方向還是長(zhǎng)期收益角度,良好的指標(biāo)定義及構(gòu)建都不容忽視。當(dāng)然,科學(xué)的指標(biāo)體系除了依賴(lài)數(shù)據(jù)上的輸入以外,長(zhǎng)期的經(jīng)驗(yàn)積累也是一種手段,尤其是在 OEC 指標(biāo)的構(gòu)建上,從理論及實(shí)踐的角度都依然有著巨大的挖掘空間。

    【阿里媽媽數(shù)據(jù)科學(xué)系列】持續(xù)更新,歡迎關(guān)注!

    【阿里媽媽數(shù)據(jù)科學(xué)系列】第一篇:認(rèn)識(shí)在線(xiàn)實(shí)驗(yàn)

    【阿里媽媽數(shù)據(jù)科學(xué)系列】第二篇:在線(xiàn)分流框架下的AB Test

    【阿里媽媽數(shù)據(jù)科學(xué)系列】第三篇:離線(xiàn)抽樣框架下的AB Test

    【阿里媽媽數(shù)據(jù)科學(xué)系列】第四篇:Bootstrap方法在AB TEST中的應(yīng)用

    END

    瘋狂暗示↓↓↓↓↓↓↓

    總結(jié)

    以上是生活随笔為你收集整理的【阿里妈妈数据科学系列】第五篇:实验指标设定方法与指标体系构建的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。