日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于知识库的神经网络问题生成方法

發布時間:2024/7/5 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 基于知识库的神经网络问题生成方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理:譚亦鳴,東南大學博士生,研究方向為跨語言知識圖譜問答。




來源:NLPCC2018

鏈接:http://tcci.ccf.org.cn/conference/2018/papers/EV7.pdf

?

問題背景與動機

作者認為,目前的問題語料生成主要依賴于人工標注和整理,成本較大。而現有基于知識庫的自動問題生成方法都不能較好的替代上述所需的人工標注效果。在同時考慮生成問題語料的流利度和問題的質量兩個方面的問題后,采用了基于LSTM的神經網絡生成方案,并提出一種新的輸入序列預處理方式,從而達到獲取高質量中文問題語料的效果。本方法在NLPCC2018KBQG任務上獲得了最優。

?

貢獻

1.????使用LSTM用于中文問題生成

2.????提出了一種新的輸入序列處理方法

?

模型

本文提出的模型由編碼與解碼兩個部分組成,編碼部分的輸入是三元組(來自知識圖譜)。

三元組由subjectrelationshipobject構成,作為答案的object在問題生成過程中不會被直接表達于問句中,但是它的存在有助于系統理解目前所生成問題的目標。因此,在問題生成過程中object需要被轉換為一些特別的形式,以反映出它作為答案時,問句應表現出的問題意圖類型。

下表是一些轉換的例子,比如時間信息根據形式的不同可用<date>表示日期,<time>表示具體時間等等。

中文處理中一個非常難的問題是名稱的識別,由于使用pattern無法有效找到中文名稱信息,因此作者采用HanLP工具來完成上述工作,在HanLP中,名稱信息可通過角色標注被識別出來。

這種object完成了上述兩次替換的得到序列被作者稱為token_seq,在完成名稱識別后,則可以對原始三元組的object成分進行“詞->詞性標簽“的替換(除了形容詞和副詞),如下表所示,經過這種替換的序列則被稱為token_pos_seq

需要說明的是,三元組中的subject會在輸出序列中以<ent>的標簽形式出現,因此不參與到問題生成模型的輸入中,token_pos_seq/token_seq中的標簽<is>用于分開relationshipobject

編碼器-解碼器的網絡結構方面,采用了常見的雙向LSTM編碼與單RNN解碼的形式完成。


實驗

文章的實驗數據來自 NLPCC2018KBQG 評測子任務,提供規模為24,479的問答訓練集,測試集規模為357,評測指標選用了BLEU-4(較高的BLEU值表示模型生成的問題與標準問題的描述形式更為相近,但并不意味著低BLEU問題就是錯誤的,這里僅供參考)。

此外,詳細的神經網絡參數設置原文已由描述,這里不再贅述。

實驗結果如下表所示。



OpenKG


開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 基于知识库的神经网络问题生成方法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。