论文浅尝 | 基于多原型mention向量的文本-实体联合学习
鏈接:http://anthology.aclweb.org/P/P17/P17-1149.pdf
?
概述
在知識(shí)庫(kù)和文本的聯(lián)合表示中,歧義是個(gè)困擾的難題。同一個(gè) mention 可能在不同的語(yǔ)境下表述不同實(shí)體,同一個(gè)實(shí)體又有多種 mention 表示,如下圖。本文提出了一個(gè)新的表示方法,可以在一個(gè)聯(lián)合空間學(xué)習(xí) mention 和實(shí)體的表示,同時(shí)解決歧義問(wèn)題。
模型
作者提出了一個(gè) mention sense 的概念,每一個(gè) mention 對(duì)應(yīng)一個(gè) mention_sense,以表示當(dāng)前的mention的真正含義。可以看出,mention_sense 是和實(shí)體一一對(duì)應(yīng)的。作者從 wikipedia 的超鏈接里提取出 <m_l, e_j> 的組合,即mention超鏈接到某一實(shí)體。對(duì)于每一個(gè)這種組合,作者把它映射到一個(gè) mention_sense 上:
這樣同一實(shí)體的 mention 會(huì)共享 mention_sense,而同一 mention 對(duì)應(yīng)不同實(shí)體也會(huì)映射到不同的 mention_sense。作者把文本中的 mention 用 mention_sense 代替,來(lái)進(jìn)行聯(lián)合訓(xùn)練。
像大圖的最右側(cè)部分描述的一樣,mention_sense 可以看成是文本空間和實(shí)體空間的一個(gè)鏈接。聯(lián)合訓(xùn)練的似然函數(shù)由三部分組成,均采用 CBOW/skip-gram 的語(yǔ)言模型來(lái)得到向量:
1、實(shí)體空間
這個(gè)方法讓共享鄰居實(shí)體的實(shí)體詞盡可能相似。
2、mention空間
這個(gè)方法使得指向同一實(shí)體,且共享上下文的mention_sense盡可能相似。
3、文本空間
共現(xiàn)的詞之間應(yīng)盡可能相似,類似于 word2vec,只不過(guò)用 mention_sense 代替 mention。
?
實(shí)體鏈接
用上述學(xué)出的向量可以進(jìn)行實(shí)體鏈接的工作。對(duì)于每一個(gè)實(shí)體,對(duì)所有 mention_sense 做如上計(jì)算,選出概率值最大的 mention_sense,再連接到對(duì)應(yīng)的實(shí)體。因?yàn)橐粋€(gè)句子可能包含多個(gè)實(shí)體,而全局優(yōu)化代價(jià)過(guò)大,為了方便,作者假設(shè)實(shí)體和實(shí)體間獨(dú)立,提出了 L2R(從左至右)和 S2C(從簡(jiǎn)至繁)的逐實(shí)體預(yù)測(cè)的方法。
?
實(shí)驗(yàn)
作者進(jìn)行了自身對(duì)比,可以看出多實(shí)體比單一實(shí)體的效果好很多。
在實(shí)體相關(guān)預(yù)測(cè)和詞語(yǔ)相關(guān)預(yù)測(cè)上,實(shí)體和詞語(yǔ)聯(lián)合學(xué)習(xí)的方法,也比單一學(xué)習(xí)提升了一些性能。
最后是上述實(shí)體鏈接的嘗試:
筆記整理:王冠穎,浙江大學(xué)碩士,研究方向?yàn)殛P(guān)系抽取、知識(shí)圖譜。
OpenKG.CN
中文開(kāi)放知識(shí)圖譜(簡(jiǎn)稱OpenKG.CN)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
轉(zhuǎn)載須知:轉(zhuǎn)載需注明來(lái)源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題,請(qǐng)注明原標(biāo)題。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于多原型mention向量的文本-实体联合学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 机器翻译小记
- 下一篇: svn中文语言包安装(最详细步骤)+La