當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 直译优于翻译？混合语言的知识库问答方法研究

發布時間：2024/7/5 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 直译优于翻译？混合语言的知识库问答方法研究小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

動機

作者思考，如果一個人懂多個語言，那么只要他知道某一語言的某個事實，就能以它作為另一語言問題的答案，同時希望證明計算機是否也能做到這一點，并完成混合語言的簡單問題知識問答任務（Code-Mix Simple Questions KBQA）。所謂Code-Mix即是指QA中的問題不是由單一語言構成，以中英雙語舉例：

“我怎么知道本文提出的model是否work呢？”

方法

作者將提出的CMQA模型分為兩個步驟：1.候選生成 2.候選重排序

候選生成

這里的候選指的是KB中與問題相關的三元組，作者提出的思路是利用檢索模式，縮小候選三元組的搜索空間。通過使用 Solr（一個開源的倒排索引查詢系統），將 Freebase 中所有三元組編入索引，而后將 Question 作為檢索的 Query 得到 top-k 個候選三元組，檢索的排序打分參考 BM25。（注意：在這里檢索僅支持英文，故混合語言問題中其他非英語成分對檢索沒有貢獻，那么如果問題的entity是非英語的話，是否可能引入大量與問題無關的三元組呢）

候選重排序

本文的主要工作就是設計了一個重排序模型 Triplet-Siamese-Hybrid CNN(TSHCNN)，采用 CNN（卷積網絡）學習輸入文本的語義表示，考慮到不同語言的詞序差異性，作者認為 CNN 可以學習到輸入文本中的詞匯順序特征以及短語順序特征。

對于排序過程，文章將其抽象為一個多分類問題，即每個答案都是一個潛在類別，且對應的問題數量可能很小甚至為0，這里主要通過匹配目標實體和謂詞來做答案篩選。直觀思路是通過構建一個問題-答案間的相似度打分作為參照指標用于排序，作者在這里引入Siamese networks方法完成上述目的。

整體的模型框架如圖

模型由兩個通道組成，分別用于學習正例與負例，每一通道有三個輸入：

1.問題

2.正（負）例樣本

3.由正（負）例樣本與問題聯合構成的附加輸入

網絡結構由卷積層->池化層->向量關聯->全連接層構成，兩個通道中對應位置的網絡共享權重參數

語言轉換

處理多語言問題還是繞不開語義鴻溝，為了將兩種語言關聯起來，作者采用了雙語詞嵌入+K近鄰組合的策略，構建通用跨語言詞嵌入空間，將雙語詞匯投影到該空間中，再引入K近鄰方法構建雙語詞匯關聯。

實驗

數據：SimpleQuestions (Bordes et al., 2015)dataset

????? 75.9k/10.8k/21.7k? training/validation/test

詞嵌入預訓練：English，Hindi Fasttext(Bojanowski et al., 2016)

English-Hindi bilingual Smith et al.(2017) to obtain

自建數據集：Hindi-English混合語言問句規模：250，簡單問題，每句對應一個Freebase三元組

神經網絡的超參數設定如圖：

簡單知識問答實驗結果

候選三元組生成實驗結果

雙語端到端問答實驗結果

部分問答效果示例

總結

作者認為本文的貢獻包括：

?成功的回答混合語言問題，在基于“英語語料，有噪聲的海地語監督，和不完美的雙語詞嵌入”情況下

?提出TSHCNN模型用于聯合學習候選重排序

構建了一組250規模的海地語-英語混合語言問題數據集，并且這個數據集的答案來源于SimpleQuestion數據集，且可以映射到Freebase知識庫上

本方法是作者所知目前第一個端到端的混合語言知識問答方法

論文筆記整理：譚亦鳴，東南大學博士，研究方向為知識庫問答、自然語言處理。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

轉載須知：轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題，請注明原標題。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 直译优于翻译？混合语言的知识库问答方法研究的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：技术动态 | ACL 2019 知识图谱
下一篇：论文浅尝 | 通过共享表示和结构化预测进