来自闪闪宝石的光芒 - “宝石迷阵” x 信息检索 | 论文访谈间 #20
「論文訪談間」是由 PaperWeekly 和中國中文信息學(xué)會(huì)青工委聯(lián)合發(fā)起的論文報(bào)道欄目,旨在讓國內(nèi)優(yōu)質(zhì)論文得到更多關(guān)注和認(rèn)可。?這是第 20?期「論文訪談間」
論文作者 |?張帆、劉奕群、李昕、徐盈輝、張敏、馬少平
(清華大學(xué))
特約記者 | 楊凱杰(南京理工大學(xué))
在信息檢索技術(shù)研究中,評價(jià)指標(biāo)的設(shè)計(jì)是對檢索系統(tǒng)進(jìn)行評價(jià)的重要一環(huán)。而在評價(jià)指標(biāo)的建模中,估計(jì)用戶的期望收益與期望付出是搜索用戶行為模型的關(guān)鍵組成部分,用戶在實(shí)際搜索會(huì)話中終止條件的判斷會(huì)同時(shí)受這兩方面的影響。
但由于受模型框架限制,當(dāng)前幾乎所有信息檢索評價(jià)指標(biāo)均無法做到同時(shí)將用戶的期望收益和期望付出納入會(huì)話終止條件的估計(jì)。那么如何對用戶的交互過程進(jìn)行建模,從而將這兩者考慮進(jìn)去呢??
在今年 SIGIR 的最佳學(xué)生論文 Evaluating Web Search with a Bejeweled Player Model 中,作者針對傳統(tǒng)信息檢索評價(jià)指標(biāo)設(shè)計(jì)時(shí)未能兼顧用戶期望收益與期望付出兩方面因素的缺陷,借鑒“寶石迷陣”這款游戲設(shè)計(jì)了一個(gè)創(chuàng)新性的用戶交互模型框架,將用戶的期望收益與期望付出因素重新建模,建立了相應(yīng)的評價(jià)體系,取得了顯著效果。?
在游戲“寶石迷陣”中,關(guān)卡開始時(shí)會(huì)出現(xiàn)半滿的時(shí)間條,每秒不斷減少。玩家必須通過匹配寶石來獲得更多的時(shí)間,匹配越多時(shí)間條增長越多。當(dāng)時(shí)間條積累至滿時(shí),玩家進(jìn)入下一關(guān);當(dāng)時(shí)間條消耗殆盡時(shí),玩家將輸?shù)絷P(guān)卡??偠灾?#xff0c;當(dāng)前關(guān)卡的終止條件可以是時(shí)間條空(游戲結(jié)束)或時(shí)間條滿(進(jìn)入下一關(guān))。?
與游戲類似,失望(Frustration)和滿意(Satisfaction)也是信息搜索的兩個(gè)終止?fàn)顟B(tài)。作者假設(shè)失望意味著用戶付出(Cost)過多后失去耐心,滿意代表收益(Benefit)達(dá)成,提出 BPM(Bejeweled Player Model)模型來描述信息檢索的終止條件。但不同的是,游戲中的付出與收益均使用時(shí)間來表示,而 BPM 模型將付出與收益分別累計(jì)并且有各自的上限。達(dá)到任一上限則會(huì)話結(jié)束。
△?圖1:基于BPM模型的用戶搜索評價(jià)框架
既然傳統(tǒng)評價(jià)指標(biāo)只考慮用戶期望收益與期望付出中某一方面因素,那么現(xiàn)有評價(jià)指標(biāo)是否可以利用 BPM 框架進(jìn)行解釋呢?作者在文中通過分析不同評價(jià)指標(biāo)用戶期望收益與期望付出的不同定義,將現(xiàn)有絕大多數(shù)評價(jià)指標(biāo)納入 BPM 框架中,表明現(xiàn)有的評價(jià)指標(biāo)是新框架下指標(biāo)的某種退化形式,并以 DCG 為例進(jìn)行了嚴(yán)格數(shù)學(xué)證明。
為了驗(yàn)證 BPM 模型的有效性,作者沒有按照通常的方法將不同評價(jià)指標(biāo)用于不同檢索系統(tǒng)的比較,而是在真實(shí)用戶的實(shí)驗(yàn)數(shù)據(jù)集上,比較了不同指標(biāo)與用戶反饋的滿意度之間的相關(guān)系數(shù)。實(shí)驗(yàn)結(jié)果表明,文中的指標(biāo)能夠更好地?cái)M合用戶的滿意度,從而表明了新框架的有效性。
△?圖2:在不同類型查詢上DCG@10和靜態(tài)BPM指標(biāo)與用戶滿意度的相關(guān)性
△?圖3:在信息類查詢上不同參數(shù)下靜態(tài)和動(dòng)態(tài)BPM指標(biāo)與用戶滿意度的相關(guān)性
對話作者
關(guān)注信息檢索評價(jià)領(lǐng)域的問題也已經(jīng)一年多了,之前其實(shí)是打算開展移動(dòng)端的搜索評價(jià)研究,不過一次組會(huì)的討論催生了新的想法。從一開始對收益與付出的討論,到用戶感知因素的考慮,再到以游戲?yàn)榛A(chǔ)的交互模型的提出,整個(gè)工作的框架在一次次的思維碰撞中不斷完善。
從小到大也玩過不少游戲,但從未想過有一天會(huì)將游戲?qū)懙秸撐闹?。剛開始的時(shí)候只是單純覺得這個(gè)想法挺有意思,之后則是對已有指標(biāo)的分析與推導(dǎo),這個(gè)過程中自己也有了一些信心,至少這個(gè)工作不會(huì)是完全沒有意義的。最后的結(jié)果也還不錯(cuò),能夠獲得 SIGIR 的最佳學(xué)生論文可以說是意外之喜吧,這里也要感謝我實(shí)驗(yàn)室的老師們和同學(xué)們。
信息檢索的評價(jià)還有很多值得研究的地方,特別是目前我們對于用戶搜索時(shí)的認(rèn)知過程了解得還不是很清楚,大多已有工作都基于一些相對簡單的用戶行為假設(shè)。如何更好地對用戶的交互過程進(jìn)行建模,并將其應(yīng)用于搜索評價(jià),還需要更多感興趣的學(xué)者的共同努力。
歡迎點(diǎn)擊「閱讀原文」查看論文:
Evaluating Web Search with a Bejeweled Player Model
關(guān)于中國中文信息學(xué)會(huì)青工委
中國中文信息學(xué)會(huì)青年工作委員會(huì)是中國中文信息學(xué)會(huì)的下屬學(xué)術(shù)組織,專門面向全國中文信息處理領(lǐng)域的青年學(xué)者和學(xué)生開展工作。
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
點(diǎn)擊 |?閱讀原文?| 查看論文
總結(jié)
以上是生活随笔為你收集整理的来自闪闪宝石的光芒 - “宝石迷阵” x 信息检索 | 论文访谈间 #20的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Training RNNs as Fas
- 下一篇: 深度强化学习实战:Tensorflow实