论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究
動機
作者思考,如果一個人懂多個語言,那么只要他知道某一語言的某個事實,就能以它作為另一語言問題的答案,同時希望證明計算機是否也能做到這一點,并完成混合語言的簡單問題知識問答任務(Code-Mix Simple Questions KBQA)。所謂Code-Mix即是指QA中的問題不是由單一語言構成,以中英雙語舉例:
“我怎么知道本文提出的model是否work呢?”
方法
作者將提出的CMQA模型分為兩個步驟:1.候選生成 2.候選重排序
?
候選生成
?
這里的候選指的是KB中與問題相關的三元組,作者提出的思路是利用檢索模式,縮小候選三元組的搜索空間。通過使用 Solr(一個開源的倒排索引查詢系統),將 Freebase 中所有三元組編入索引,而后將 Question 作為檢索的 Query 得到 top-k 個候選三元組,檢索的排序打分參考 BM25。(注意:在這里檢索僅支持英文,故混合語言問題中其他非英語成分對檢索沒有貢獻,那么如果問題的entity是非英語的話,是否可能引入大量與問題無關的三元組呢)
?
候選重排序
?
本文的主要工作就是設計了一個重排序模型 Triplet-Siamese-Hybrid CNN(TSHCNN),采用 CNN(卷積網絡)學習輸入文本的語義表示,考慮到不同語言的詞序差異性,作者認為 CNN 可以學習到輸入文本中的詞匯順序特征以及短語順序特征。
對于排序過程,文章將其抽象為一個多分類問題,即每個答案都是一個潛在類別,且對應的問題數量可能很小甚至為0,這里主要通過匹配目標實體和謂詞來做答案篩選。直觀思路是通過構建一個問題-答案間的相似度打分作為參照指標用于排序,作者在這里引入Siamese networks方法完成上述目的。
整體的模型框架如圖
模型由兩個通道組成,分別用于學習正例與負例,每一通道有三個輸入:
1.問題
2.正(負)例樣本
3.由正(負)例樣本與問題聯合構成的附加輸入
?
網絡結構由卷積層->池化層->向量關聯->全連接層 構成,兩個通道中對應位置的網絡共享權重參數
?
語言轉換
?
處理多語言問題還是繞不開語義鴻溝,為了將兩種語言關聯起來,作者采用了雙語詞嵌入+K近鄰組合的策略,構建通用跨語言詞嵌入空間,將雙語詞匯投影到該空間中,再引入K近鄰方法構建雙語詞匯關聯。
?
實驗
數據:SimpleQuestions (Bordes et al., 2015)dataset
????? 75.9k/10.8k/21.7k? training/validation/test
詞嵌入預訓練:English,Hindi Fasttext(Bojanowski et al., 2016)
English-Hindi bilingual Smith et al.(2017) to obtain
自建數據集:Hindi-English混合語言問句 規模:250,簡單問題,每句對應一個Freebase三元組
?
神經網絡的超參數設定如圖:
簡單知識問答實驗結果
候選三元組生成實驗結果
雙語端到端問答實驗結果
部分問答效果示例
總結
作者認為本文的貢獻包括:
?成功的回答混合語言問題,在基于“英語語料,有噪聲的海地語監督,和不完美的雙語詞嵌入”情況下
?提出TSHCNN模型用于聯合學習候選重排序
構建了一組250規模的海地語-英語混合語言問題數據集,并且這個數據集的答案來源于SimpleQuestion數據集,且可以映射到Freebase知識庫上
本方法是作者所知目前第一個端到端的混合語言知識問答方法
?
論文筆記整理:譚亦鳴,東南大學博士,研究方向為知識庫問答、自然語言處理。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
?
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术动态 | ACL 2019 知识图谱
- 下一篇: 论文浅尝 | 通过共享表示和结构化预测进