當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | KGQR: 用于交互式推荐的知识图谱增强Q-learning框架

發(fā)布時(shí)間：2024/7/5 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | KGQR: 用于交互式推荐的知识图谱增强Q-learning框架小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

筆記整理：李爽，天津大學(xué)

鏈接：https://dl.acm.org/doi/pdf/10.1145/3397271.3401174

動(dòng)機(jī)

交互式推薦系統(tǒng)(IRS)以其靈活的推薦策略和考慮最佳的長(zhǎng)期用戶體驗(yàn)而備受關(guān)注。為了處理動(dòng)態(tài)用戶偏好，研究人員將強(qiáng)化學(xué)習(xí)(reinforcement learning，RL)引入到IRS中。然而，RL方法有一個(gè)普遍的樣本效率問題，即訓(xùn)練有效的推薦策略需要大量的交互數(shù)據(jù)，這是由于稀疏的用戶響應(yīng)和由大量候選項(xiàng)組成的大的行為空間造成的。此外，在網(wǎng)絡(luò)環(huán)境中，通過探索性政策收集大量數(shù)據(jù)是不可行的，這可能會(huì)損害用戶體驗(yàn)。在這項(xiàng)工作中，作者研究了利用知識(shí)圖譜(KG)來處理IRS RL方法存在的這些問題，它為推薦決策提供了豐富的側(cè)面信息。在兩個(gè)真實(shí)世界的數(shù)據(jù)集上進(jìn)行全面的實(shí)驗(yàn)，證明了作者提出的方法與先進(jìn)技術(shù)相比有顯著的改進(jìn)。

亮點(diǎn)

KGQR的亮點(diǎn)主要包括：

1.通過利用KG中的先驗(yàn)知識(shí)進(jìn)行候選項(xiàng)選擇和從稀疏用戶反饋中學(xué)習(xí)用戶偏好，KGQR可以提高基于RL的IRS模型的樣本效率；2.采用圖神經(jīng)網(wǎng)絡(luò)的方法，考慮項(xiàng)目之間的語(yǔ)義相關(guān)性，能夠更準(zhǔn)確地表示用戶的動(dòng)態(tài)偏好。

概念及模型

模型的整體框架如下圖所示。

?KG增強(qiáng)的狀態(tài)表示

在IRS場(chǎng)景中，不可能直接獲得用戶的狀態(tài)，可以直接觀察到的是記錄的用戶系統(tǒng)交互歷史。

（1）圖卷積嵌入層

為了將圖中的結(jié)構(gòu)和語(yǔ)義知識(shí)提取為低維稠密的節(jié)點(diǎn)表示，作者使用了圖卷積網(wǎng)絡(luò)（GCN）。在單個(gè)圖卷積嵌入層中，節(jié)點(diǎn)表示的計(jì)算分為兩步：聚合和集成。這兩個(gè)過程可以擴(kuò)展到多跳，使用符號(hào)k來標(biāo)識(shí)第k跳。在每個(gè)層中，首先聚合給定節(jié)點(diǎn)h的相鄰節(jié)點(diǎn)的表示：

其中N(h)=N(head)={tail | (head,relation,tail)∈G} 是h的相鄰節(jié)點(diǎn)集合。其次，將鄰居的表示與h的表示集成為

（2）行為聚合層

由于交互式推薦是一個(gè)連續(xù)的決策過程，因此在每一步中，模型都需要用戶的當(dāng)前觀察作為輸入，并提供推薦項(xiàng)作為輸出。作者使用帶有門控循環(huán)單元（GRU）的RNN作為網(wǎng)絡(luò)單元，以聚合用戶的歷史行為并提取用戶的狀態(tài)s_t (G)。GRU單元的更新函數(shù)定義為

?基于鄰居的候選項(xiàng)選擇

作者基于KG中的k-hop鄰居執(zhí)行采樣策略。在每個(gè)時(shí)間步中，用戶的歷史交互項(xiàng)充當(dāng)種子集E_t^0={i_1,i_2,…,i_n}。從種子實(shí)體開始的k-hop鄰居集表示為

然后，將當(dāng)前用戶狀態(tài)的候選操作集定義為

?學(xué)習(xí)深度Q-Network

在對(duì)用戶狀態(tài)s_t (G)進(jìn)行建模并獲得候選集I_t (G)后，需要設(shè)計(jì)Q-Network來結(jié)合這些信息，并改進(jìn)交互式推薦過程的推薦策略。

（1）深度Q-Network

使用兩個(gè)網(wǎng)絡(luò)分別計(jì)算值函數(shù)V(i_t (G))和優(yōu)勢(shì)函數(shù)A(i_t (G),s_t (G))，Q值可以計(jì)算為，

（2）模型訓(xùn)練

在交互式推薦過程中，在時(shí)間步t，推薦代理從用戶的觀察結(jié)果o_t中獲取用戶的狀態(tài)s_t，并通過?-貪婪策略推薦項(xiàng)目i_t。然后，代理從用戶的反饋中接收獎(jiǎng)勵(lì)r_t，并將經(jīng)驗(yàn)(o_t, i_t, r_t, o_(t+1))存儲(chǔ)在緩沖區(qū)D中。從D開始，對(duì)小批量的經(jīng)驗(yàn)進(jìn)行采樣，并最小化均方損失函數(shù)以改進(jìn)Q-Network，定義為

為了緩解原始DQN中的過擬合問題，利用了目標(biāo)網(wǎng)絡(luò)Q′和在線網(wǎng)絡(luò)Q（即雙DQN結(jié)構(gòu)）。在線網(wǎng)絡(luò)在每個(gè)訓(xùn)練步驟反向傳播和更新其權(quán)重。目標(biāo)網(wǎng)絡(luò)是在線網(wǎng)絡(luò)的副本，并隨訓(xùn)練延遲更新其參數(shù)。然后，在線網(wǎng)絡(luò)更新的目標(biāo)值更改為

理論分析

實(shí)驗(yàn)

作者通過兩個(gè)真實(shí)的基準(zhǔn)數(shù)據(jù)集Book-Crossing和Movielens-20M對(duì)模型進(jìn)行評(píng)估。實(shí)驗(yàn)中采用了三種指標(biāo)進(jìn)行評(píng)估：

① Average Reward：

② Average Cumulative Precision@T：

③ Average Cumulative Recall@T：

上表顯示了KGQR與幾種基線模型性能比較的結(jié)果。可以看出，KGQR始終在所有環(huán)境設(shè)置上獲得了最好的性能。對(duì)于傳統(tǒng)的評(píng)價(jià)指標(biāo)，KGQR在兩個(gè)數(shù)據(jù)集中分別將Precision@32提高了0.5%和1.9%。這表明，利用KG中的先驗(yàn)知識(shí)顯著提高了推薦性能。在大多數(shù)情況下，非RL方法的表現(xiàn)都不如基于RL的方法。一方面，除了GRU4Rec外，其他非RL方法在不考慮序列信息的情況下，對(duì)用戶偏好建模的能力有限。另一方面，它們專注于即時(shí)道具獎(jiǎng)勵(lì)，而不將整個(gè)序列的整體表現(xiàn)的值帶入當(dāng)前決策中，這使得這些模型在給予更多未來獎(jiǎng)勵(lì)的環(huán)境中表現(xiàn)更差。

利用KG的動(dòng)機(jī)之一是在基于RL的推薦中提高樣本效率，即減少實(shí)現(xiàn)相同性能所需的交互數(shù)據(jù)量。作者分析了每個(gè)基于DRL的模型實(shí)現(xiàn)相同性能所需的交互次數(shù)，如下圖表所示。

可以看出， KGQR可以用最少的交互次數(shù)實(shí)現(xiàn)與其他基于RL的方法相同的性能，這一結(jié)果驗(yàn)證了利用語(yǔ)義和相關(guān)信息提高樣本效率的有效性。

在KGQR中，有三個(gè)利用KG的組件可能會(huì)影響KGQR的性能：KG增強(qiáng)的項(xiàng)目表示、狀態(tài)表示中的GCN傳播和基于鄰居的候選項(xiàng)選擇。為了研究這些成分的有效性，作者評(píng)估了四種不同的KGQR變體，即KGQR_(-KG)，KGQR_(-CS)，KGQR_(-GCN-CS)和KGQR。下表顯示了這四種變體的性能。

為了研究基于鄰居的候選項(xiàng)大小的影響，在{1000, 2000, 3000, 5000, 10000}范圍內(nèi)改變候選項(xiàng)大小，并將推薦性能呈現(xiàn)在下圖中。

可以觀察到推薦性能首先隨著候選大小的增加而增長(zhǎng)，因?yàn)檩^小的候選大小限制了推薦算法的可能選擇。然而，由于基于鄰居的候選選擇預(yù)先過濾了一些不相關(guān)的項(xiàng)目，候選大小的進(jìn)一步增加會(huì)降低性能。這些不相關(guān)的項(xiàng)目被推薦和收集反饋的機(jī)會(huì)非常有限，這使得它們無法通過推薦算法很好地學(xué)習(xí)，最終對(duì)性能產(chǎn)生負(fù)面影響。

總結(jié)

文章提出了一個(gè)用于交互式推薦的知識(shí)圖譜增強(qiáng)Q-learning框架（KGQR）。這是首次在基于RL的交互式推薦系統(tǒng)中利用KG的工作，在很大程度上解決了樣本復(fù)雜性問題，并顯著提高了性能。此外，作者利用知識(shí)圖譜的結(jié)構(gòu)信息直接縮小行為空間，有效地解決了行為空間大的問題。在基于兩個(gè)真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)表明，與現(xiàn)有技術(shù)相比，該模型具有更高的采樣效率和更高的性能。

OpenKG

OpenKG（中文開放知識(shí)圖譜）旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包，并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | KGQR: 用于交互式推荐的知识图谱增强Q-learning框架的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：开源开放 | 一个融合多元关系和事件表示
下一篇：论文浅尝 - CIKM2021 | DT