日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

样本量过少时,如何科学衡量喜好程度?

發布時間:2023/12/19 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 样本量过少时,如何科学衡量喜好程度? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

分享一個常見的場景,也是經常困擾大家的問題。

先來一個場景:假設平臺售賣兩款手機A和B。A手機有800人喜歡,200人不喜歡;B手機有9人喜歡,2人不喜歡。那么,用戶更喜歡哪款手機?

相信這個場景,各位朋友在日常生活中、在工作中都遇到過。你們平時是如何做判斷呢?希望通過今天的文章,能給大家一個新的視角、也更加科學的方案。

01

常見的衡量方法

我想,大家的第一反應應該是按照比率進行衡量吧?因此,

A手機喜好率=800÷(800+200)=80%

B手機喜好率=9÷(9+2)=82%

80%<82%,因此用戶更喜歡B手機。

這樣對嗎?

看起來沒毛病。畢竟喜歡率越高,代表用戶更喜歡嘛!但是,相信朋友也看出了這個例子的端倪:B手機的總共的樣本量才11個,雖然喜歡率高,但是樣本量這么低,隨便一個數據變化都會對結果產生巨大的影響。

因此,按照這種比率的方法,算出的喜歡率,“靠譜”嗎?用統計學的語言,置信嗎?

02


威爾遜得分

上面我們覺得按照簡單的喜歡率來計算,有點難衡量。但是,如果不按照喜歡率來比較,還能如何計算呢?這就是我們今天的主題了:威爾遜得分。

(1)公式定義

先看看具體的威爾遜得分計算公式:

u表示正例數(喜歡),v表示負例數(不喜歡),n表示實例總數(總樣本數),p表示喜歡率,z是正態分布的分位數(參數),S表示最終的威爾遜得分。得分越高,代表越喜歡的程度、喜歡的概率越大。

通常,當置信度95%的情況下,z取1.96(近似2)即可。其他常見置信水平與z取值的對應關系如下:

關于置信區間的概念,可以參考文章《區間估計的置信區間概念及方法》。

(2)案例驗證

下面,我們根據上面的公式,計算一下我們開頭案例的A手機和B手機的威爾遜得分情況。

對于A手機,n=1000,p=0.8,按照95%的置信度,取z≈2,代入威爾遜得分公式中,求得S(A)=0.77

對于B手機,n=11,p=0.82,按照95%的置信度,取z≈2,代入威爾遜得分公式中,求得S(B)=0.52

因此,0.77>0.52,A手機的威爾遜得分高于B手機,按照該算法,我們有結論:在置信度95%的情況下,雖然A手機的喜歡率不如B手機,但是有理由相信用戶對A手機其實是更加喜歡的。

(3)相關應用

其實該得分算法的應用還是比較多的。

除了上文中提出的例子外,該得分算法經常應用于各個網站的排序上。比如知乎的搜索排序(我看網上有說知乎是用的威爾遜得分進行的。這里我也沒法驗證,如果有知乎的朋友可以留言驗證一下。關于搜索算法可以參考文章《搜索系統的基礎知識以及應用》):

可以看出,知乎的搜索結果排序中,并不是完全基于贊同數量進行的倒敘排列。如果完全贊同數多的回答置頂,那么新的高質量回答,就永遠沒有出頭之日了,對于內容生態的維護一定是有很大問題的。

當然,哪怕是用了威爾遜得分,真實實踐中,也會在這個基礎上增加更多維度的打分,咱們這里就是以此舉例,說明威爾遜得分的應用場景,大家清楚就好。

如果只是想把威爾遜得分作為工具,那么掌握到這里、知道了公式該如何使用、如何計算、應用場景是啥,就足夠了。但如果想深入理解一下公式的統計學含義以及推導邏輯,可以參考下面一節。

03


統計原理與邏輯

下面,我們一起看看這個威爾遜公式是怎么得到的,以及背后的統計學原理是啥。

(1)原理概述

首先,威爾遜得分只是威爾遜區間的一個變形,取了威爾遜區間的下限值作為威爾遜得分。

那什么是威爾遜區間呢?

本質上,威爾遜區間其實就是用戶喜歡率的一個區間估計(關于區間估計可參考歷史文章《區間估計的基礎介紹》)。但是該區間估計考慮了樣本過小時候的情況,根據樣本量對區間估計進行了修正,使得該區間估計能夠較好的衡量不同樣本量情況。

說白了,我們用樣本計算的用戶喜歡率,本質上只是對用戶真正的喜歡率的一個點估計而已,樣本越少,可信度越低;樣本數越多,根據中心極限定理,點估計越接近真實值。如果樣本數都很多,那么我們直接計算手機A和B的喜歡率,基本就能代表真實情況了,是可以比較的。但是當樣本數不夠,就面臨了上文中的問題。威爾遜,就是1920年代提出了這個區間估計的公式,用以解決小樣本的準確性問題。

由于提出的公式是區間估計公式,所以本來是一個一個的區間。比如假設A手機的喜歡率95%置信區間估計是[0.77,0.83],B手機喜歡率95%的置信區間估計是[0.52,1]。如何對比兩個區間呢?威爾遜得分就是取了不同區間的下限進行比較,因此哪個下限高,代表概率更高。

(2)公式推導

這里的公式推導其實還是有點復雜的,我不一一展開了,放一下網上的推導步驟截圖,有興趣的朋友可以自行探索一下啊!

(3)性質特性

最后我們看看這個公式的一些性質吧。

  • 性質1:得分S的范圍是[0,1),效果:已經歸一化,適合排序

  • 性質2:當正例數u為0時,p為0,得分S為0;效果:沒有好評,分數最低;

  • 性質3:當負例數v為0時,p為1,退化為1/(1 + z^2 / n),得分S永遠小于1;效果:分數具有永久可比性;

  • 性質4:當p不變時,n越大,分子減少速度小于分母減少速度,得分S越多,反之亦然;效果:好評率p相同,實例總數n越多,得分S越多;

  • 性質5:當n趨于無窮大時,退化為p,得分S由p決定;效果:當評論總數n越多時,好評率p帶給得分S的提升越明顯;

  • 性質6:當分位數z越大時,總數n越重要,好評率p越不重要,反之亦然;效果:z越大,評論總數n越重要,區分度低;z越小,好評率p越重要;

(4)變形擴展

另外,我們這里都是二項分布。如果是評分等級問題:如五星評價體系,或者百分評價體系,該怎么辦呢?

將威爾遜得分的公式由伯努利分布修改為正態分布,帶入相關參數即可。

注意:均值和方差均是歸一化之后的數值。

關于威爾遜得分,我們就分享這些,希望對大家今后的數據工作能有所幫助。以后再衡量哪個更好,可以有更專業的算法模型了!

-?END -

對比Excel系列圖書累積銷量達15w冊,讓你輕松掌握數據分析技能,可以在全網搜索書名進行了解選購:

總結

以上是生活随笔為你收集整理的样本量过少时,如何科学衡量喜好程度?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 日韩精品一区二区三区在线播放 | 国产精品成人一区二区网站软件 | 亚洲av无码国产精品久久 | 国产黄色小视频在线观看 | 日av在线播放 | 日韩免费小视频 | 久热在线视频 | 久久精品黄aa片一区二区三区 | 波多野结衣一本 | 青青青免费在线 | 芭乐视频色 | 精品国产区一区二 | 97超级碰碰人妻中文字幕 | 懂色av一区二区在线播放 | 亚洲精品网站在线播放gif | 欧美美女色图 | 精品热| 国产九色sp调教91 | 久久精品无码毛片 | 黄色小视频免费观看 | 国产在线h | 欧美一区永久视频免费观看 | 成人网在线观看 | 日本在线第一页 | 爱情岛论坛自拍亚洲品质极速最新章 | 一卡二卡在线观看 | 污污视频网站免费观看 | 久久影视精品 | 亚洲29p| 欧美精品国产一区 | 亚洲啊啊| 播放美国生活大片 | 天天伊人网 | 国产精品一区二区三区在线播放 | 高清二区 | 99久久久无码国产精品免费 | 亚洲人天堂 | 岛国片免费在线观看 | 91欧美视频 | 国产人妖一区二区三区 | 在线观看少妇 | 精品美女一区二区三区 | 国产成人综合精品 | 欧美大片在线 | 综合亚洲视频 | 老女人丨91丨九色 | 帮我拍拍漫画全集免费观看 | 色在线看 | 91福利影院 | 日韩精品视频一区二区三区 | 亚洲综合网av | 成人国产精品免费观看视频 | 狂野欧美性猛交免费视频 | 男受被做哭激烈娇喘gv视频 | 中文字幕第15页 | 日韩激情久久 | 精品美女在线观看 | 国产伦精品一区二区三区妓女下载 | 精品久久成人 | 嫩草影院一区二区 | 久草中文在线视频 | 中文字幕精品无码亚 | 婷婷亚洲激情 | 久久久久免费观看 | 在线视频第一页 | 91热精品 | 日本免费在线播放 | 欧美色图综合网 | 亚洲一区二区激情 | 一级片一区二区三区 | 色婷婷狠狠18禁久久 | 热久久亚洲 | 色婷婷综合久久久中文字幕 | 精品熟妇视频一区二区三区 | 自拍偷拍第八页 | 精品国产一区二区三区四 | 极品蜜桃臀肥臀-x88av | 欧美精品自拍偷拍 | 欧美3p在线观看 | 国产激情自拍 | 国产成人无码www免费视频播放 | 欧美专区第二页 | 久久视频免费看 | 午夜888 | 亚洲最新在线 | 日本大尺度吃奶做爰视频 | 国语对白一区二区 | 超碰成人久久 | 日韩美女网站 | 三年中国片在线高清观看 | 国产一区二区成人 | 蜜桃臀av一区二区三区 | 欧美日韩午夜精品 | 国产99热 | 黑人狂躁日本妞hd | 国产日韩片 | 久久尤物 | 超碰777| 狠狠干狠狠操视频 |