日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | KGQR: 用于交互式推荐的知识图谱增强Q-learning框架

發(fā)布時(shí)間:2024/7/5 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | KGQR: 用于交互式推荐的知识图谱增强Q-learning框架 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

筆記整理:李爽,天津大學(xué)

鏈接:https://dl.acm.org/doi/pdf/10.1145/3397271.3401174

動(dòng)機(jī)

交互式推薦系統(tǒng)(IRS)以其靈活的推薦策略和考慮最佳的長(zhǎng)期用戶體驗(yàn)而備受關(guān)注。為了處理動(dòng)態(tài)用戶偏好,研究人員將強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)引入到IRS中。然而,RL方法有一個(gè)普遍的樣本效率問題,即訓(xùn)練有效的推薦策略需要大量的交互數(shù)據(jù),這是由于稀疏的用戶響應(yīng)和由大量候選項(xiàng)組成的大的行為空間造成的。此外,在網(wǎng)絡(luò)環(huán)境中,通過探索性政策收集大量數(shù)據(jù)是不可行的,這可能會(huì)損害用戶體驗(yàn)。在這項(xiàng)工作中,作者研究了利用知識(shí)圖譜(KG)來處理IRS RL方法存在的這些問題,它為推薦決策提供了豐富的側(cè)面信息。在兩個(gè)真實(shí)世界的數(shù)據(jù)集上進(jìn)行全面的實(shí)驗(yàn),證明了作者提出的方法與先進(jìn)技術(shù)相比有顯著的改進(jìn)。

亮點(diǎn)

KGQR的亮點(diǎn)主要包括:

1.通過利用KG中的先驗(yàn)知識(shí)進(jìn)行候選項(xiàng)選擇和從稀疏用戶反饋中學(xué)習(xí)用戶偏好,KGQR可以提高基于RL的IRS模型的樣本效率;2.采用圖神經(jīng)網(wǎng)絡(luò)的方法,考慮項(xiàng)目之間的語(yǔ)義相關(guān)性,能夠更準(zhǔn)確地表示用戶的動(dòng)態(tài)偏好。

概念及模型

模型的整體框架如下圖所示。

?KG增強(qiáng)的狀態(tài)表示

在IRS場(chǎng)景中,不可能直接獲得用戶的狀態(tài),可以直接觀察到的是記錄的用戶系統(tǒng)交互歷史。

(1)圖卷積嵌入層

為了將圖中的結(jié)構(gòu)和語(yǔ)義知識(shí)提取為低維稠密的節(jié)點(diǎn)表示,作者使用了圖卷積網(wǎng)絡(luò)(GCN)。在單個(gè)圖卷積嵌入層中,節(jié)點(diǎn)表示的計(jì)算分為兩步:聚合和集成。這兩個(gè)過程可以擴(kuò)展到多跳,使用符號(hào)k來標(biāo)識(shí)第k跳。在每個(gè)層中,首先聚合給定節(jié)點(diǎn)h的相鄰節(jié)點(diǎn)的表示:

其中N(h)=N(head)={tail | (head,relation,tail)∈G} 是h的相鄰節(jié)點(diǎn)集合。其次,將鄰居的表示與h的表示集成為

(2)行為聚合層

由于交互式推薦是一個(gè)連續(xù)的決策過程,因此在每一步中,模型都需要用戶的當(dāng)前觀察作為輸入,并提供推薦項(xiàng)作為輸出。作者使用帶有門控循環(huán)單元(GRU)的RNN作為網(wǎng)絡(luò)單元,以聚合用戶的歷史行為并提取用戶的狀態(tài)s_t (G)。GRU單元的更新函數(shù)定義為

?基于鄰居的候選項(xiàng)選擇

作者基于KG中的k-hop鄰居執(zhí)行采樣策略。在每個(gè)時(shí)間步中,用戶的歷史交互項(xiàng)充當(dāng)種子集E_t^0={i_1,i_2,…,i_n}。從種子實(shí)體開始的k-hop鄰居集表示為

然后,將當(dāng)前用戶狀態(tài)的候選操作集定義為

?學(xué)習(xí)深度Q-Network

在對(duì)用戶狀態(tài)s_t (G)進(jìn)行建模并獲得候選集I_t (G)后,需要設(shè)計(jì)Q-Network來結(jié)合這些信息,并改進(jìn)交互式推薦過程的推薦策略。

(1)深度Q-Network

使用兩個(gè)網(wǎng)絡(luò)分別計(jì)算值函數(shù)V(i_t (G))和優(yōu)勢(shì)函數(shù)A(i_t (G),s_t (G)),Q值可以計(jì)算為,

(2)模型訓(xùn)練

在交互式推薦過程中,在時(shí)間步t,推薦代理從用戶的觀察結(jié)果o_t中獲取用戶的狀態(tài)s_t,并通過?-貪婪策略推薦項(xiàng)目i_t。然后,代理從用戶的反饋中接收獎(jiǎng)勵(lì)r_t,并將經(jīng)驗(yàn)(o_t, i_t, r_t, o_(t+1))存儲(chǔ)在緩沖區(qū)D中。從D開始,對(duì)小批量的經(jīng)驗(yàn)進(jìn)行采樣,并最小化均方損失函數(shù)以改進(jìn)Q-Network,定義為

為了緩解原始DQN中的過擬合問題,利用了目標(biāo)網(wǎng)絡(luò)Q′和在線網(wǎng)絡(luò)Q(即雙DQN結(jié)構(gòu))。在線網(wǎng)絡(luò)在每個(gè)訓(xùn)練步驟反向傳播和更新其權(quán)重。目標(biāo)網(wǎng)絡(luò)是在線網(wǎng)絡(luò)的副本,并隨訓(xùn)練延遲更新其參數(shù)。然后,在線網(wǎng)絡(luò)更新的目標(biāo)值更改為

理論分析

實(shí)驗(yàn)

作者通過兩個(gè)真實(shí)的基準(zhǔn)數(shù)據(jù)集Book-Crossing和Movielens-20M對(duì)模型進(jìn)行評(píng)估。實(shí)驗(yàn)中采用了三種指標(biāo)進(jìn)行評(píng)估:

① Average Reward:

② Average Cumulative Precision@T:

③ Average Cumulative Recall@T:

上表顯示了KGQR與幾種基線模型性能比較的結(jié)果。可以看出,KGQR始終在所有環(huán)境設(shè)置上獲得了最好的性能。對(duì)于傳統(tǒng)的評(píng)價(jià)指標(biāo),KGQR在兩個(gè)數(shù)據(jù)集中分別將Precision@32提高了0.5%和1.9%。這表明,利用KG中的先驗(yàn)知識(shí)顯著提高了推薦性能。在大多數(shù)情況下,非RL方法的表現(xiàn)都不如基于RL的方法。一方面,除了GRU4Rec外,其他非RL方法在不考慮序列信息的情況下,對(duì)用戶偏好建模的能力有限。另一方面,它們專注于即時(shí)道具獎(jiǎng)勵(lì),而不將整個(gè)序列的整體表現(xiàn)的值帶入當(dāng)前決策中,這使得這些模型在給予更多未來獎(jiǎng)勵(lì)的環(huán)境中表現(xiàn)更差。

利用KG的動(dòng)機(jī)之一是在基于RL的推薦中提高樣本效率,即減少實(shí)現(xiàn)相同性能所需的交互數(shù)據(jù)量。作者分析了每個(gè)基于DRL的模型實(shí)現(xiàn)相同性能所需的交互次數(shù),如下圖表所示。

可以看出, KGQR可以用最少的交互次數(shù)實(shí)現(xiàn)與其他基于RL的方法相同的性能,這一結(jié)果驗(yàn)證了利用語(yǔ)義和相關(guān)信息提高樣本效率的有效性。

在KGQR中,有三個(gè)利用KG的組件可能會(huì)影響KGQR的性能:KG增強(qiáng)的項(xiàng)目表示、狀態(tài)表示中的GCN傳播和基于鄰居的候選項(xiàng)選擇。為了研究這些成分的有效性,作者評(píng)估了四種不同的KGQR變體,即KGQR_(-KG),KGQR_(-CS),KGQR_(-GCN-CS)和KGQR。下表顯示了這四種變體的性能。

為了研究基于鄰居的候選項(xiàng)大小的影響,在{1000, 2000, 3000, 5000, 10000}范圍內(nèi)改變候選項(xiàng)大小,并將推薦性能呈現(xiàn)在下圖中。

可以觀察到推薦性能首先隨著候選大小的增加而增長(zhǎng),因?yàn)檩^小的候選大小限制了推薦算法的可能選擇。然而,由于基于鄰居的候選選擇預(yù)先過濾了一些不相關(guān)的項(xiàng)目,候選大小的進(jìn)一步增加會(huì)降低性能。這些不相關(guān)的項(xiàng)目被推薦和收集反饋的機(jī)會(huì)非常有限,這使得它們無法通過推薦算法很好地學(xué)習(xí),最終對(duì)性能產(chǎn)生負(fù)面影響。

總結(jié)

文章提出了一個(gè)用于交互式推薦的知識(shí)圖譜增強(qiáng)Q-learning框架(KGQR)。這是首次在基于RL的交互式推薦系統(tǒng)中利用KG的工作,在很大程度上解決了樣本復(fù)雜性問題,并顯著提高了性能。此外,作者利用知識(shí)圖譜的結(jié)構(gòu)信息直接縮小行為空間,有效地解決了行為空間大的問題。在基于兩個(gè)真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)表明,與現(xiàn)有技術(shù)相比,該模型具有更高的采樣效率和更高的性能。


OpenKG

OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | KGQR: 用于交互式推荐的知识图谱增强Q-learning框架的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 少妇特黄a一区二区三区 | 成人区人妻精品一区二 | 国产一区日韩 | 中文字幕+乱码+中文 | 爱爱精品 | 婷婷视频 | 综合伊人av | 国产成人无码av | 久久久亚洲天堂 | 有码在线视频 | 青青草手机视频 | 国产aaa级片 | 亚洲男人第一天堂 | 91色啪| 欧美在线观看a | 成人免费一区二区三区在线观看 | 久久国产色av | 色综合久久天天综合网 | 国产极品福利 | 丁香久久久 | 91国偷自产一区二区三区老熟女 | 99久久综合 | 国产学生美女无遮拦高潮视频 | 亚洲第8页| 8x8x成人| 久久免费精彩视频 | 国产精品久久久久久久久久久久 | 成人一区二区三区视频 | 中文字幕av一区二区三区人妻少妇 | 日本乱子伦 | 中文字幕日韩精品在线 | 国产在线激情 | 超碰人人人人人人人 | 国产山村乱淫老妇女视频 | 超碰97国产在线 | 欧美精品99 | 日韩在线视频免费观看 | 蜜桃视频在线入口www | 亚洲图片欧美在线看 | 黄页网站免费观看 | a毛毛片| 少妇真人直播免费视频 | 奇米影视久久久 | 住在隔壁的她动漫免费观看全集下载 | 色婷婷激情网 | 国产精品专区在线观看 | 欧美日韩亚洲视频 | 免费在线一级片 | 国产综合第一页 | 琪琪午夜伦理 | 国产在线97| 久久久久久久偷拍 | 亚洲一区二区在线播放 | 操她视频网站 | 日本一本不卡 | 亚洲精品乱码久久久久久蜜桃不卡 | 青青草激情 | 精品国产欧美日韩 | 校园春色亚洲色图 | 日本一区二区视频免费 | 涩涩网站视频 | 一区二区三区国产精品 | av在线播放网址 | 欧美伦理片网站 | 在线99视频 | 日韩亚洲欧美综合 | 亚洲第一黄色网址 | 人妻少妇一区二区 | 久久久不卡| 人人看人人草 | 国产在线播放网站 | 91福利网址 | 亚洲美女性生活视频 | 9i精品福利一区二区三区 | 欧美一级片在线免费观看 | www久久com | 欧美成人做爰大片免费看黄石 | 黄色录像片子 | 国产伦精品一区二区三区免费视频 | 姝姝窝人体www聚色窝 | 亚洲v天堂| zzji欧美大片 | 在线不卡av电影 | 婷婷久久亚洲 | 亚洲国产精品久久精品怡红院 | 老王66福利网 | 成人在线观看免费网站 | www.性欧美 | 2019毛片| 精品久久免费观看 | 在线视频观看一区二区 | 操韩国美女| 亚洲一区二区三区四区av | 中文字幕在线观看第一页 | 国产欧美日韩一区二区三区 | av卡一卡二 | 欧美性生活在线视频 | 91精品国自产在线观看 | 色老头在线一区二区三区 |