日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

imdb.com排名算法

發(fā)布時(shí)間:2023/12/18 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 imdb.com排名算法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

IMDB.COM是目前互聯(lián)網(wǎng)上最為權(quán)威、系統(tǒng)、全面的電影資料網(wǎng)站,里面包括了幾乎所有的電影,以及1982 年以后的電視劇集。 它所特有的電影評(píng)分系統(tǒng)深受影迷的歡迎,注冊(cè)的用戶可以給任何一部影片打分并加以評(píng)述,而網(wǎng)站又會(huì)根據(jù)影片所得平均分、選票的數(shù)目等計(jì)算得出影片的加權(quán)平均分并以此進(jìn)行TOP250(最佳250部影片)和Bottom100(最差100部影片)的排行。

評(píng)選最佳250部電影時(shí)只考慮正式的投票者的投票結(jié)果。分值系統(tǒng)采用10分制,最低為awful(令人厭惡)的1分,最高為excellent(出類拔萃)的10分。值得注意的是,雖然很多影片在資料系統(tǒng)中得分很高,但由于未能達(dá)到TOP所要求的最低投票數(shù)而無法參加排行。

下面就一起來學(xué)習(xí)下IMDB所使用的排名算法。?imdb top 250用的是貝葉斯統(tǒng)計(jì)的算法得出的加權(quán)分(Weighted Rank-WR),公式如下:

  • ?WR, 加權(quán)得分(weighted rating)。
  • ?R,該電影的用戶投票的平均得分(Rating)。
  • ?v,該電影的投票人數(shù)(votes)。
  • ?m,排名前 250 名的電影的最低投票數(shù)(現(xiàn)在為 3000)。
  • ?C, 所有電影的平均得分(現(xiàn)在為6.9)。

仔細(xì)研究這個(gè)公式,你會(huì)發(fā)現(xiàn),IMDB 為每部電影增加了 3000 張選票,并且這些選票的評(píng)分都為6.9。這樣做的原因是,假設(shè)所有電影都至少有 3000 張選票,那么就都具備了進(jìn)入前 250 名的評(píng)選條件;然后假設(shè)這 3000 張選票的評(píng)分是所有電影的平均得分(即假設(shè)這部電影具有平均水準(zhǔn));最后,用現(xiàn)有的觀眾投票進(jìn)行修正,長期來看,v/(v+m)這部分的權(quán)重將越來越大,得分將慢慢接近真實(shí)情況。這樣做拉近了不同電影之間投票人數(shù)的差異,使得投票人數(shù)較少的電影也有可能排名前列。

把這個(gè)公式寫成更一般的形式:

  • ?C,投票人數(shù)擴(kuò)展的規(guī)模,是一個(gè)自行設(shè)定的常數(shù),與整個(gè)網(wǎng)站的總體用戶人數(shù)有關(guān),可以等于每個(gè)項(xiàng)目的平均投票數(shù)。
  • ?n,該項(xiàng)目的現(xiàn)有投票人數(shù)。
  • ?x,該項(xiàng)目的每張選票的值。
  • m,總體平均分,即整個(gè)網(wǎng)站所有選票的算術(shù)平均值。

這種算法被稱為”貝葉斯平均”(Bayesian average)。因?yàn)槟撤N程度上,它借鑒了”貝葉斯推斷”(Bayesian inference)的思想:既然不知道投票結(jié)果,那就先估計(jì)一個(gè)值,然后不斷用新的信息修正,使得它越來越接近正確的值。

在這個(gè)公式中,m(總體平均分)是”先驗(yàn)概率”,每一次新的投票都是一個(gè)調(diào)整因子,使總體平均分不斷向該項(xiàng)目的真實(shí)投票結(jié)果靠近。投票人數(shù)越多,該項(xiàng)目的”貝葉斯平均”就越接近算術(shù)平均,對(duì)排名的影響就越小。因此,這種方法可以給一些投票人數(shù)較少的項(xiàng)目,以相對(duì)公平的排名。

“貝葉斯平均”也有缺點(diǎn),主要問題是它假設(shè)用戶的投票是正態(tài)分布。比如,電影A有 10 個(gè)觀眾評(píng)分,5個(gè)為五星,5個(gè)為一星;電影B也有 10 個(gè)觀眾評(píng)分,都給了三星。這兩部電影的平均得分(無論是算術(shù)平均,還是貝葉斯平均)都是三星,但是電影A可能比電影B更值得看。

解決這個(gè)問題的思路是,假定每個(gè)用戶的投票都是獨(dú)立事件,每次投票只有n個(gè)選項(xiàng)可以選擇,那么這就服從“多項(xiàng)分布”(Multinomial distribution),就可以結(jié)合貝葉斯定理,計(jì)算該分布的期望值。由于這涉及復(fù)雜的統(tǒng)計(jì)學(xué)知識(shí),這里就不深入了,感興趣的朋友可以繼續(xù)閱讀 William Morgan 的How to rank products based on user input。

另外對(duì)于無時(shí)間參與的評(píng)價(jià)系統(tǒng),也可以參考威爾遜得分區(qū),威爾遜得分分區(qū)的缺點(diǎn)在于排行榜前列總是那些票數(shù)最多的項(xiàng)目,新項(xiàng)目或者冷門的項(xiàng)目,很難有出頭機(jī)會(huì),排名可能會(huì)長期靠后。

參考地址:http://www.imdb.com/chart/top

總結(jié)

以上是生活随笔為你收集整理的imdb.com排名算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。