日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究

發布時間:2024/7/5 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

動機

作者思考,如果一個人懂多個語言,那么只要他知道某一語言的某個事實,就能以它作為另一語言問題的答案,同時希望證明計算機是否也能做到這一點,并完成混合語言的簡單問題知識問答任務(Code-Mix Simple Questions KBQA)。所謂Code-Mix即是指QA中的問題不是由單一語言構成,以中英雙語舉例:

“我怎么知道本文提出的model是否work呢?”

方法

作者將提出的CMQA模型分為兩個步驟:1.候選生成 2.候選重排序

?

候選生成

?

這里的候選指的是KB中與問題相關的三元組,作者提出的思路是利用檢索模式,縮小候選三元組的搜索空間。通過使用 Solr(一個開源的倒排索引查詢系統),將 Freebase 中所有三元組編入索引,而后將 Question 作為檢索的 Query 得到 top-k 個候選三元組,檢索的排序打分參考 BM25。(注意:在這里檢索僅支持英文,故混合語言問題中其他非英語成分對檢索沒有貢獻,那么如果問題的entity是非英語的話,是否可能引入大量與問題無關的三元組呢)

?

候選重排序

?

本文的主要工作就是設計了一個重排序模型 Triplet-Siamese-Hybrid CNN(TSHCNN),采用 CNN(卷積網絡)學習輸入文本的語義表示,考慮到不同語言的詞序差異性,作者認為 CNN 可以學習到輸入文本中的詞匯順序特征以及短語順序特征。

對于排序過程,文章將其抽象為一個多分類問題,即每個答案都是一個潛在類別,且對應的問題數量可能很小甚至為0,這里主要通過匹配目標實體和謂詞來做答案篩選。直觀思路是通過構建一個問題-答案間的相似度打分作為參照指標用于排序,作者在這里引入Siamese networks方法完成上述目的。

整體的模型框架如圖

模型由兩個通道組成,分別用于學習正例與負例,每一通道有三個輸入:

1.問題

2.正(負)例樣本

3.由正(負)例樣本與問題聯合構成的附加輸入

?

網絡結構由卷積層->池化層->向量關聯->全連接層 構成,兩個通道中對應位置的網絡共享權重參數

?

語言轉換

?

處理多語言問題還是繞不開語義鴻溝,為了將兩種語言關聯起來,作者采用了雙語詞嵌入+K近鄰組合的策略,構建通用跨語言詞嵌入空間,將雙語詞匯投影到該空間中,再引入K近鄰方法構建雙語詞匯關聯。

?

實驗

數據:SimpleQuestions (Bordes et al., 2015)dataset

????? 75.9k/10.8k/21.7k? training/validation/test

詞嵌入預訓練:English,Hindi Fasttext(Bojanowski et al., 2016)

English-Hindi bilingual Smith et al.(2017) to obtain

自建數據集:Hindi-English混合語言問句 規模:250,簡單問題,每句對應一個Freebase三元組

?

神經網絡的超參數設定如圖:

簡單知識問答實驗結果

候選三元組生成實驗結果


雙語端到端問答實驗結果

部分問答效果示例

總結

作者認為本文的貢獻包括:

  • ?成功的回答混合語言問題,在基于“英語語料,有噪聲的海地語監督,和不完美的雙語詞嵌入”情況下

  • ?提出TSHCNN模型用于聯合學習候選重排序

  • 構建了一組250規模的海地語-英語混合語言問題數據集,并且這個數據集的答案來源于SimpleQuestion數據集,且可以映射到Freebase知識庫上

  • 本方法是作者所知目前第一個端到端的混合語言知識問答方法

  • ?

    論文筆記整理:譚亦鳴,東南大學博士,研究方向為知識庫問答、自然語言處理。



    OpenKG.CN


    中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

    轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。

    ?

    點擊閱讀原文,進入 OpenKG 博客。

    總結

    以上是生活随笔為你收集整理的论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。