论文浅尝 | KGQR: 用于交互式推荐的知识图谱增强Q-learning框架
筆記整理:李爽,天津大學(xué)
鏈接:https://dl.acm.org/doi/pdf/10.1145/3397271.3401174
動(dòng)機(jī)
交互式推薦系統(tǒng)(IRS)以其靈活的推薦策略和考慮最佳的長(zhǎng)期用戶體驗(yàn)而備受關(guān)注。為了處理動(dòng)態(tài)用戶偏好,研究人員將強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)引入到IRS中。然而,RL方法有一個(gè)普遍的樣本效率問題,即訓(xùn)練有效的推薦策略需要大量的交互數(shù)據(jù),這是由于稀疏的用戶響應(yīng)和由大量候選項(xiàng)組成的大的行為空間造成的。此外,在網(wǎng)絡(luò)環(huán)境中,通過探索性政策收集大量數(shù)據(jù)是不可行的,這可能會(huì)損害用戶體驗(yàn)。在這項(xiàng)工作中,作者研究了利用知識(shí)圖譜(KG)來處理IRS RL方法存在的這些問題,它為推薦決策提供了豐富的側(cè)面信息。在兩個(gè)真實(shí)世界的數(shù)據(jù)集上進(jìn)行全面的實(shí)驗(yàn),證明了作者提出的方法與先進(jìn)技術(shù)相比有顯著的改進(jìn)。
亮點(diǎn)
KGQR的亮點(diǎn)主要包括:
1.通過利用KG中的先驗(yàn)知識(shí)進(jìn)行候選項(xiàng)選擇和從稀疏用戶反饋中學(xué)習(xí)用戶偏好,KGQR可以提高基于RL的IRS模型的樣本效率;2.采用圖神經(jīng)網(wǎng)絡(luò)的方法,考慮項(xiàng)目之間的語(yǔ)義相關(guān)性,能夠更準(zhǔn)確地表示用戶的動(dòng)態(tài)偏好。
概念及模型
模型的整體框架如下圖所示。
?KG增強(qiáng)的狀態(tài)表示
在IRS場(chǎng)景中,不可能直接獲得用戶的狀態(tài),可以直接觀察到的是記錄的用戶系統(tǒng)交互歷史。
(1)圖卷積嵌入層
為了將圖中的結(jié)構(gòu)和語(yǔ)義知識(shí)提取為低維稠密的節(jié)點(diǎn)表示,作者使用了圖卷積網(wǎng)絡(luò)(GCN)。在單個(gè)圖卷積嵌入層中,節(jié)點(diǎn)表示的計(jì)算分為兩步:聚合和集成。這兩個(gè)過程可以擴(kuò)展到多跳,使用符號(hào)k來標(biāo)識(shí)第k跳。在每個(gè)層中,首先聚合給定節(jié)點(diǎn)h的相鄰節(jié)點(diǎn)的表示:
其中N(h)=N(head)={tail | (head,relation,tail)∈G} 是h的相鄰節(jié)點(diǎn)集合。其次,將鄰居的表示與h的表示集成為
(2)行為聚合層
由于交互式推薦是一個(gè)連續(xù)的決策過程,因此在每一步中,模型都需要用戶的當(dāng)前觀察作為輸入,并提供推薦項(xiàng)作為輸出。作者使用帶有門控循環(huán)單元(GRU)的RNN作為網(wǎng)絡(luò)單元,以聚合用戶的歷史行為并提取用戶的狀態(tài)s_t (G)。GRU單元的更新函數(shù)定義為
?基于鄰居的候選項(xiàng)選擇
作者基于KG中的k-hop鄰居執(zhí)行采樣策略。在每個(gè)時(shí)間步中,用戶的歷史交互項(xiàng)充當(dāng)種子集E_t^0={i_1,i_2,…,i_n}。從種子實(shí)體開始的k-hop鄰居集表示為
然后,將當(dāng)前用戶狀態(tài)的候選操作集定義為
?學(xué)習(xí)深度Q-Network
在對(duì)用戶狀態(tài)s_t (G)進(jìn)行建模并獲得候選集I_t (G)后,需要設(shè)計(jì)Q-Network來結(jié)合這些信息,并改進(jìn)交互式推薦過程的推薦策略。
(1)深度Q-Network
使用兩個(gè)網(wǎng)絡(luò)分別計(jì)算值函數(shù)V(i_t (G))和優(yōu)勢(shì)函數(shù)A(i_t (G),s_t (G)),Q值可以計(jì)算為,
(2)模型訓(xùn)練
在交互式推薦過程中,在時(shí)間步t,推薦代理從用戶的觀察結(jié)果o_t中獲取用戶的狀態(tài)s_t,并通過?-貪婪策略推薦項(xiàng)目i_t。然后,代理從用戶的反饋中接收獎(jiǎng)勵(lì)r_t,并將經(jīng)驗(yàn)(o_t, i_t, r_t, o_(t+1))存儲(chǔ)在緩沖區(qū)D中。從D開始,對(duì)小批量的經(jīng)驗(yàn)進(jìn)行采樣,并最小化均方損失函數(shù)以改進(jìn)Q-Network,定義為
為了緩解原始DQN中的過擬合問題,利用了目標(biāo)網(wǎng)絡(luò)Q′和在線網(wǎng)絡(luò)Q(即雙DQN結(jié)構(gòu))。在線網(wǎng)絡(luò)在每個(gè)訓(xùn)練步驟反向傳播和更新其權(quán)重。目標(biāo)網(wǎng)絡(luò)是在線網(wǎng)絡(luò)的副本,并隨訓(xùn)練延遲更新其參數(shù)。然后,在線網(wǎng)絡(luò)更新的目標(biāo)值更改為
理論分析
實(shí)驗(yàn)
作者通過兩個(gè)真實(shí)的基準(zhǔn)數(shù)據(jù)集Book-Crossing和Movielens-20M對(duì)模型進(jìn)行評(píng)估。實(shí)驗(yàn)中采用了三種指標(biāo)進(jìn)行評(píng)估:
① Average Reward:
② Average Cumulative Precision@T:
③ Average Cumulative Recall@T:
上表顯示了KGQR與幾種基線模型性能比較的結(jié)果。可以看出,KGQR始終在所有環(huán)境設(shè)置上獲得了最好的性能。對(duì)于傳統(tǒng)的評(píng)價(jià)指標(biāo),KGQR在兩個(gè)數(shù)據(jù)集中分別將Precision@32提高了0.5%和1.9%。這表明,利用KG中的先驗(yàn)知識(shí)顯著提高了推薦性能。在大多數(shù)情況下,非RL方法的表現(xiàn)都不如基于RL的方法。一方面,除了GRU4Rec外,其他非RL方法在不考慮序列信息的情況下,對(duì)用戶偏好建模的能力有限。另一方面,它們專注于即時(shí)道具獎(jiǎng)勵(lì),而不將整個(gè)序列的整體表現(xiàn)的值帶入當(dāng)前決策中,這使得這些模型在給予更多未來獎(jiǎng)勵(lì)的環(huán)境中表現(xiàn)更差。
利用KG的動(dòng)機(jī)之一是在基于RL的推薦中提高樣本效率,即減少實(shí)現(xiàn)相同性能所需的交互數(shù)據(jù)量。作者分析了每個(gè)基于DRL的模型實(shí)現(xiàn)相同性能所需的交互次數(shù),如下圖表所示。
可以看出, KGQR可以用最少的交互次數(shù)實(shí)現(xiàn)與其他基于RL的方法相同的性能,這一結(jié)果驗(yàn)證了利用語(yǔ)義和相關(guān)信息提高樣本效率的有效性。
在KGQR中,有三個(gè)利用KG的組件可能會(huì)影響KGQR的性能:KG增強(qiáng)的項(xiàng)目表示、狀態(tài)表示中的GCN傳播和基于鄰居的候選項(xiàng)選擇。為了研究這些成分的有效性,作者評(píng)估了四種不同的KGQR變體,即KGQR_(-KG),KGQR_(-CS),KGQR_(-GCN-CS)和KGQR。下表顯示了這四種變體的性能。
為了研究基于鄰居的候選項(xiàng)大小的影響,在{1000, 2000, 3000, 5000, 10000}范圍內(nèi)改變候選項(xiàng)大小,并將推薦性能呈現(xiàn)在下圖中。
可以觀察到推薦性能首先隨著候選大小的增加而增長(zhǎng),因?yàn)檩^小的候選大小限制了推薦算法的可能選擇。然而,由于基于鄰居的候選選擇預(yù)先過濾了一些不相關(guān)的項(xiàng)目,候選大小的進(jìn)一步增加會(huì)降低性能。這些不相關(guān)的項(xiàng)目被推薦和收集反饋的機(jī)會(huì)非常有限,這使得它們無法通過推薦算法很好地學(xué)習(xí),最終對(duì)性能產(chǎn)生負(fù)面影響。
總結(jié)
文章提出了一個(gè)用于交互式推薦的知識(shí)圖譜增強(qiáng)Q-learning框架(KGQR)。這是首次在基于RL的交互式推薦系統(tǒng)中利用KG的工作,在很大程度上解決了樣本復(fù)雜性問題,并顯著提高了性能。此外,作者利用知識(shí)圖譜的結(jié)構(gòu)信息直接縮小行為空間,有效地解決了行為空間大的問題。在基于兩個(gè)真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)表明,與現(xiàn)有技術(shù)相比,該模型具有更高的采樣效率和更高的性能。
OpenKG
OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | KGQR: 用于交互式推荐的知识图谱增强Q-learning框架的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源开放 | 一个融合多元关系和事件表示
- 下一篇: 论文浅尝 - CIKM2021 | DT