日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

论文浅尝 | 打通推荐系统与知识图谱: 第一个公开的大规模链接数据集合

發(fā)布時間:2024/7/5 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 打通推荐系统与知识图谱: 第一个公开的大规模链接数据集合 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文轉(zhuǎn)載自:RUC智能情報站,知乎專欄鏈接:https://zhuanlan.zhihu.com/RucAIBox



前言:近年來,知識圖譜(KB)被廣泛應(yīng)用于推薦系統(tǒng)(RS),但尚未有公開將推薦系統(tǒng)物品鏈接到知識圖譜實(shí)體的數(shù)據(jù)集。本文結(jié)合SIGIR2018論文《Improving Sequential Recommendation with Knowledge-Enhanced Memory Networks》所用數(shù)據(jù)集 [1],公布了相關(guān)鏈接數(shù)據(jù)集 [2],希望能對大家有所幫助。


一、動機(jī)/引介


近年來,學(xué)術(shù)界和工業(yè)界都致力于利用結(jié)構(gòu)化的知識信息和相關(guān)領(lǐng)域的已知事實(shí)來提升各項(xiàng)應(yīng)用。在眾多數(shù)據(jù)形式中,知識圖譜高度結(jié)構(gòu)化,能夠有效組織和關(guān)聯(lián)相關(guān)實(shí)體,被廣泛運(yùn)用到各個領(lǐng)域。推薦任務(wù)中利用知識圖譜提升推薦的質(zhì)量和可解釋性,相關(guān)的推薦系統(tǒng)被稱為knowledge-aware recommender systems。

為了適應(yīng)推薦系統(tǒng)和知識圖譜相關(guān)研究需求,本工作啟發(fā)式地將推薦數(shù)據(jù)中的物品鏈接到大型知識圖譜中的實(shí)體,為推薦系統(tǒng)的物品提供蘊(yùn)含豐富語義的結(jié)構(gòu)化知識信息。本工作將其整理,發(fā)布為公開的推薦系統(tǒng)-知識圖譜鏈接數(shù)據(jù)集KB4Rec v1.0。


二、數(shù)據(jù)集概況


KB4Rec v1.0數(shù)據(jù)集,構(gòu)建了推薦系統(tǒng)數(shù)據(jù)集物品(RS item)到知識圖譜實(shí)體(KB entity)的鏈接。在推薦系統(tǒng)方面,選取了三個得到廣泛使用的數(shù)據(jù)集:MovieLens 20M [3]、LFM-1b [4]、Amazon book [5],分別對應(yīng)電影、音樂和書籍三個領(lǐng)域;在知識圖譜方面,選取了研究者常用的Freebase [6]。

KB4Rec v1.0數(shù)據(jù)集由鏈接的ID對組成,包括推薦系統(tǒng)的物品ID和Freebase中的實(shí)體ID。鏈接文件片段(電影數(shù)據(jù)集合MovieLens 20M)如下所示:


? ? 25991 m.09pglcq25993 m.0cjwhb25994 m.0k44325995 m.0b7kj8


通過此鏈接,能夠找到部分推薦系統(tǒng)中物品在知識圖譜內(nèi)對應(yīng)的實(shí)體,并通過讀取與該實(shí)體相關(guān)的三元組,獲取相應(yīng)的屬性。舉個例子,電影“阿凡達(dá)”通過鏈接找到相應(yīng)實(shí)體,讀出與之相關(guān)的三元組能夠在知識圖譜中找到相應(yīng)的演員、導(dǎo)演等屬性。

鏈接數(shù)據(jù)集(三個領(lǐng)域)的數(shù)據(jù)統(tǒng)計(jì)見下表:


三、鏈接分析


可以看到不是所有推薦系統(tǒng)中的物品都能夠在Freebase中找到對應(yīng)的實(shí)體。對于各領(lǐng)域鏈接比例(linkage ratio),本工作參照各推薦領(lǐng)域內(nèi)物品流行度做了相關(guān)分析,其中物品流行度由推薦數(shù)據(jù)中與物品有交互記錄的用戶數(shù)代表。首先,將推薦系統(tǒng)中的物品按流行度升序排序,等分到5個桶(bin)中,展示相應(yīng)部分鏈接比例。如下圖,可以發(fā)現(xiàn):流行度高的物品更傾向于被Freebase所包含。



針對MovieLens 20M數(shù)據(jù)集,還對電影的發(fā)布時間與鏈接比例做了分析。對所有電影按發(fā)布時間升序排序,等分到10桶(bin)中,展示相應(yīng)鏈接比例。如下圖所示,可以發(fā)現(xiàn):越早發(fā)布的電影越傾向于被Freebase所包含。


四、數(shù)據(jù)獲取


本工作將相關(guān)項(xiàng)目部署在github上,數(shù)據(jù)的獲取和使用需遵照相關(guān)證書(license)。更多鏈接和數(shù)據(jù)集構(gòu)建的細(xì)節(jié)請參照我們的相關(guān)論文 [2]。


五、相關(guān)論文


[1] Jin Huang, Wayne Xin Zhao, Hong-Jian Dou, Ji-Rong Wen, Edward Y. Chang : Improving Sequential Recommendation with Knowledge-Enhanced Memory Networks. SIGIR 2018: 505-514

[2] ?Wayne Xin Zhao, Gaole He, Hongjian Dou, Jin Huang, Siqi Ouyang and Ji-Rong Wen : KB4Rec: A Dataset for Linking Knowledge Bases with Recommender Systems. Arxiv 1807.11141.

[3] F. Maxwell Harper, Joseph A. Konstan : The MovieLens Datasets: History and Context. TiiS 5(4): 19:1-19:19 (2016)

[4] Markus Schedl : The LFM-1b Dataset for Music Retrieval and Recommendation. ICMR 2016: 103-110

[5] Ruining He, Julian McAuley : Ups and Downs: Modeling the Visual Evolution of Fashion Trends with One-Class Collaborative Filtering. WWW 2016: 507-517

[6] Google : 2016. Freebase Data Dumps. developers.google.com/f data.


本文作者:何高樂,2018級研究生,目前研究方向?yàn)榫W(wǎng)絡(luò)表示學(xué)習(xí)、深度學(xué)習(xí),來自中國人民大學(xué)大數(shù)據(jù)管理與分析方法研究北京市重點(diǎn)實(shí)驗(yàn)室。


RUC 智能情報站由中國人民大學(xué)信息學(xué)院的趙鑫副教授 (微博 @趙鑫RUC) 所帶領(lǐng)的研究小組維護(hù)。關(guān)注的領(lǐng)域是數(shù)據(jù)挖掘、社會計(jì)算和機(jī)器學(xué)習(xí)。該專欄會定期會分享相關(guān)學(xué)術(shù)內(nèi)容,歡迎各位來郵件進(jìn)行交流,也歡迎大家向該專欄投稿精品文章。知乎賬號聯(lián)系人為 竇洪健,負(fù)責(zé)資訊、投稿、宣傳以及一切賬號相關(guān)問題,郵箱為43404873@qq.com;企業(yè)和轉(zhuǎn)載合作需求請致謝趙鑫老師,郵箱為 batmanfly@qq.com。趙鑫老師個人情況詳見個人主頁 http://playbigdata.com/batmanfly 和 http://info.ruc.edu.cn/academic_professor.php?teacher_id=55 。




OpenKG.CN


中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 打通推荐系统与知识图谱: 第一个公开的大规模链接数据集合的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。