imdb.com排名算法
IMDB.COM是目前互聯(lián)網(wǎng)上最為權(quán)威、系統(tǒng)、全面的電影資料網(wǎng)站,里面包括了幾乎所有的電影,以及1982 年以后的電視劇集。 它所特有的電影評(píng)分系統(tǒng)深受影迷的歡迎,注冊(cè)的用戶可以給任何一部影片打分并加以評(píng)述,而網(wǎng)站又會(huì)根據(jù)影片所得平均分、選票的數(shù)目等計(jì)算得出影片的加權(quán)平均分并以此進(jìn)行TOP250(最佳250部影片)和Bottom100(最差100部影片)的排行。
評(píng)選最佳250部電影時(shí)只考慮正式的投票者的投票結(jié)果。分值系統(tǒng)采用10分制,最低為awful(令人厭惡)的1分,最高為excellent(出類拔萃)的10分。值得注意的是,雖然很多影片在資料系統(tǒng)中得分很高,但由于未能達(dá)到TOP所要求的最低投票數(shù)而無法參加排行。
下面就一起來學(xué)習(xí)下IMDB所使用的排名算法。?imdb top 250用的是貝葉斯統(tǒng)計(jì)的算法得出的加權(quán)分(Weighted Rank-WR),公式如下:
- ?WR, 加權(quán)得分(weighted rating)。
- ?R,該電影的用戶投票的平均得分(Rating)。
- ?v,該電影的投票人數(shù)(votes)。
- ?m,排名前 250 名的電影的最低投票數(shù)(現(xiàn)在為 3000)。
- ?C, 所有電影的平均得分(現(xiàn)在為6.9)。
仔細(xì)研究這個(gè)公式,你會(huì)發(fā)現(xiàn),IMDB 為每部電影增加了 3000 張選票,并且這些選票的評(píng)分都為6.9。這樣做的原因是,假設(shè)所有電影都至少有 3000 張選票,那么就都具備了進(jìn)入前 250 名的評(píng)選條件;然后假設(shè)這 3000 張選票的評(píng)分是所有電影的平均得分(即假設(shè)這部電影具有平均水準(zhǔn));最后,用現(xiàn)有的觀眾投票進(jìn)行修正,長期來看,v/(v+m)這部分的權(quán)重將越來越大,得分將慢慢接近真實(shí)情況。這樣做拉近了不同電影之間投票人數(shù)的差異,使得投票人數(shù)較少的電影也有可能排名前列。
把這個(gè)公式寫成更一般的形式:
- ?C,投票人數(shù)擴(kuò)展的規(guī)模,是一個(gè)自行設(shè)定的常數(shù),與整個(gè)網(wǎng)站的總體用戶人數(shù)有關(guān),可以等于每個(gè)項(xiàng)目的平均投票數(shù)。
- ?n,該項(xiàng)目的現(xiàn)有投票人數(shù)。
- ?x,該項(xiàng)目的每張選票的值。
- m,總體平均分,即整個(gè)網(wǎng)站所有選票的算術(shù)平均值。
這種算法被稱為”貝葉斯平均”(Bayesian average)。因?yàn)槟撤N程度上,它借鑒了”貝葉斯推斷”(Bayesian inference)的思想:既然不知道投票結(jié)果,那就先估計(jì)一個(gè)值,然后不斷用新的信息修正,使得它越來越接近正確的值。
在這個(gè)公式中,m(總體平均分)是”先驗(yàn)概率”,每一次新的投票都是一個(gè)調(diào)整因子,使總體平均分不斷向該項(xiàng)目的真實(shí)投票結(jié)果靠近。投票人數(shù)越多,該項(xiàng)目的”貝葉斯平均”就越接近算術(shù)平均,對(duì)排名的影響就越小。因此,這種方法可以給一些投票人數(shù)較少的項(xiàng)目,以相對(duì)公平的排名。
“貝葉斯平均”也有缺點(diǎn),主要問題是它假設(shè)用戶的投票是正態(tài)分布。比如,電影A有 10 個(gè)觀眾評(píng)分,5個(gè)為五星,5個(gè)為一星;電影B也有 10 個(gè)觀眾評(píng)分,都給了三星。這兩部電影的平均得分(無論是算術(shù)平均,還是貝葉斯平均)都是三星,但是電影A可能比電影B更值得看。
解決這個(gè)問題的思路是,假定每個(gè)用戶的投票都是獨(dú)立事件,每次投票只有n個(gè)選項(xiàng)可以選擇,那么這就服從“多項(xiàng)分布”(Multinomial distribution),就可以結(jié)合貝葉斯定理,計(jì)算該分布的期望值。由于這涉及復(fù)雜的統(tǒng)計(jì)學(xué)知識(shí),這里就不深入了,感興趣的朋友可以繼續(xù)閱讀 William Morgan 的How to rank products based on user input。
另外對(duì)于無時(shí)間參與的評(píng)價(jià)系統(tǒng),也可以參考威爾遜得分區(qū),威爾遜得分分區(qū)的缺點(diǎn)在于排行榜前列總是那些票數(shù)最多的項(xiàng)目,新項(xiàng)目或者冷門的項(xiàng)目,很難有出頭機(jī)會(huì),排名可能會(huì)長期靠后。
參考地址:http://www.imdb.com/chart/top
總結(jié)
以上是生活随笔為你收集整理的imdb.com排名算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《电动自行车充电领域的液体冷却技术研究》
- 下一篇: Flash数据丢失