论文浅尝 | 以知识图谱为基础的开放域对话生成的目标规划
筆記整理 |?韓振峰,天津大學碩士。
鏈接:https://ojs.aaai.org//index.php/AAAI/article/view/6474
動機
之前有關開放域對話生成的神經模型沒有有效的機制來管理聊天主題,并且往往會生成不連貫的對話。受到人與人對話策略的啟發(fā),本文將多輪開放域對話生成任務分為兩個子任務:明確的目標(有關主題的聊天)序列規(guī)劃和通過主題闡述的目標補全。為此,本文提出了一個三層的基于知識的分層強化學習模型(KnowHRL)。對于第一個子任務,上層策略學習如何遍歷知識圖譜,從而規(guī)劃一個高層次的目標序列,以便在對話連貫性和用戶興趣的主題一致性之間取得良好的平衡。對于第二個子任務,中層策略和下層策略協(xié)同工作,使用目標驅動的生成機制就單個主題進行深入的多輪對話。目標序列規(guī)劃的能力使得聊天機器人可以針對推薦主題進行主動的開放域對話,這種類型的對話具有很多實際的應用。
亮點
KnowHRL的亮點主要包括:
(1)本文首次嘗試將多輪開放域對話生成任務分為兩個子任務:目標序列規(guī)劃和基于對話闡述的目標補全。
(2)在知識圖譜的幫助下,本文提出精確、可解釋的對話狀態(tài)和用于策略學習的行為。這有兩種優(yōu)點:一是能夠很方便地設計與目標相關的獎勵來優(yōu)化目標和方面的規(guī)劃;二是使用目標和方面的信息來知道生成更連貫和更具信息的回復。
(3)實驗表明模型在用戶興趣的一致性、對話連貫性和知識準確性等方面很有效。
概念及模型
KnowHRL有三個層級策略,且能夠分為兩個子任務:目標序列規(guī)劃和基于主題闡述的目標補全。目標序列規(guī)劃:上層策略學習如何遍歷知識圖譜來規(guī)劃目標序列,并且需要在對話連貫性和用戶興趣一致性之間取得平衡。基于主題闡述的目標補全:中層策略從當前目標節(jié)點的一跳鄰居中選擇一個作為主題方面;下層策略使用給定的目標和主題方面中的一個來指導下層策略生成一個深入的多輪對話。
模型整體框架如下:
State
狀態(tài)S由對話歷史g、主題方面歷史f、上下文語句u和特殊符號ut組成。其中ut表示是否在上一個語句中提到了一個新的話題,是則ut=1,否則ut=0;u定義為之前對話中的兩個語句。
三層策略分別有不同的行為空間,上層使用當前目標節(jié)點的所有鄰居節(jié)點和用戶提及的所有主題所謂行為空間;中層使用當前目標節(jié)點的所有鄰居節(jié)點并刪去其中已經在之前的對話中被提到的節(jié)點;下層回復向量的集合作為行為,每一個向量代表一種生成回復的方式。
Policy
本文使用分層策略,共分為三層,每層策略的定義如下:
上層策略:
中層策略:
下層策略:
Multi-mapping generator
此模塊使用的現有的模型,如上圖所示,其中:
損失函數:
Rewards
為三層策略分別設計了不同的獎勵因素,其中上層策略包括:目標序列的連貫性、用戶興趣的一致性、多樣性、可持續(xù)性、來自中層策略的目標補全信息。中層策略包括:主題方面連貫性、來自下層的獎勵。下層策略包括:語句相關性、語句的信息量、主題方面補全。
實驗
本文使用公開的知識驅動的對話數據集DuConv來預訓練多映射生成器、基準模型和用戶模擬器,并且此數據集提供了一個電影和名人領域的知識圖譜。本文使用2個基線對比算法,CCM和CCM+LaRL。本文使用人工在Session-level和Turn-level兩個緯度對模型進行了評價。
Session-level
從主題內一致性(Intra.)、主題間一致性(Inter.)、獨特性(Dist-2)、知識準確性(K.A.)和用戶興趣一致性(Cons.)等方面對模型在Session-level的表現進行評價。表2和表3分別為模型在與用戶模擬器和真實用戶聊天時的得分,可以看出KnowHRL在5個指標上均達到最好的效果。
Turn-level
從合理性(Appr.)、信息量(Info.)量方面對模型在Turn-level的表現進行評價。表4可以看出KnowHRL在2個指標上均達到最好的效果。
總結
本文將多輪開放域對話生成任務分為兩個子任務:目標序列規(guī)劃和通過主題闡述的目標補全,并提出了基于知識的分層強化學習模型(KnowHRL)來展示在知識圖譜上的層級目標規(guī)劃如何進行聊天主題管理和回復生成。實驗結果證明了KnowHRL在對話連貫性、用戶興趣一致性和知識準確性等方面達到最好的效果。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯(lián),促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 以知识图谱为基础的开放域对话生成的目标规划的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 基于平行新闻的Bootst
- 下一篇: 论文浅尝 - 计算机工程 | 知识图谱可