當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于知识库的神经网络问题生成方法

發布時間：2024/7/5 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 基于知识库的神经网络问题生成方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理：譚亦鳴，東南大學博士生，研究方向為跨語言知識圖譜問答。

來源：NLPCC2018

鏈接：http://tcci.ccf.org.cn/conference/2018/papers/EV7.pdf

問題背景與動機

作者認為，目前的問題語料生成主要依賴于人工標注和整理，成本較大。而現有基于知識庫的自動問題生成方法都不能較好的替代上述所需的人工標注效果。在同時考慮生成問題語料的流利度和問題的質量兩個方面的問題后，采用了基于LSTM的神經網絡生成方案，并提出一種新的輸入序列預處理方式，從而達到獲取高質量中文問題語料的效果。本方法在NLPCC2018的KBQG任務上獲得了最優。

貢獻

1.????使用LSTM用于中文問題生成

2.????提出了一種新的輸入序列處理方法

模型

本文提出的模型由編碼與解碼兩個部分組成，編碼部分的輸入是三元組（來自知識圖譜）。

三元組由subject，relationship與object構成，作為答案的object在問題生成過程中不會被直接表達于問句中，但是它的存在有助于系統理解目前所生成問題的目標。因此，在問題生成過程中object需要被轉換為一些特別的形式，以反映出它作為答案時，問句應表現出的問題意圖類型。

下表是一些轉換的例子，比如時間信息根據形式的不同可用<date>表示日期，<time>表示具體時間等等。

中文處理中一個非常難的問題是名稱的識別，由于使用pattern無法有效找到中文名稱信息，因此作者采用HanLP工具來完成上述工作，在HanLP中，名稱信息可通過角色標注被識別出來。

這種object完成了上述兩次替換的得到序列被作者稱為token_seq，在完成名稱識別后，則可以對原始三元組的object成分進行“詞->詞性標簽“的替換（除了形容詞和副詞），如下表所示，經過這種替換的序列則被稱為token_pos_seq。

需要說明的是，三元組中的subject會在輸出序列中以<ent>的標簽形式出現，因此不參與到問題生成模型的輸入中，token_pos_seq/token_seq中的標簽<is>用于分開relationship與object。

編碼器-解碼器的網絡結構方面，采用了常見的雙向LSTM編碼與單RNN解碼的形式完成。

實驗

文章的實驗數據來自 NLPCC2018 的 KBQG 評測子任務，提供規模為24,479的問答訓練集，測試集規模為357，評測指標選用了BLEU-4（較高的BLEU值表示模型生成的問題與標準問題的描述形式更為相近，但并不意味著低BLEU問題就是錯誤的，這里僅供參考）。

此外，詳細的神經網絡參數設置原文已由描述，這里不再贅述。

實驗結果如下表所示。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 基于知识库的神经网络问题生成方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 - ACL2022 | 面向推
下一篇：领域应用 | 大众点评搜索基于知识图谱的