知识图谱中传统关系抽取方法
目前主要采用統(tǒng)計機器學(xué)習(xí)的方法,將關(guān)系實例轉(zhuǎn)換成高 維空間中的特征向量或直接用離散結(jié)構(gòu)來表示,在標(biāo)注語 料庫上訓(xùn)練生成分類模型,然后再識別實體間關(guān)系 ?
基于特征向量方法
最大熵模型(Kambhatla 2004)和支持向量機 (Zhao et al., 2005;Zhou et al., 2005; Jiang et al., 2007)等
主要問題:
如何獲取各種有效的詞法、句法、語義等特征,并把 它們有效地集成起來,從而產(chǎn)生描述實體語義關(guān)系的各種局部特 征和簡單的全局特征
特征選取:
從自由文本及其句法結(jié)構(gòu)中抽取出各種表面特征以及結(jié)構(gòu)化特征
實體詞匯及其上下文特征
實體類型及其組合特征
實體參照方式
交疊特征
基本短語塊特征
句法樹特征
基于核函數(shù)的方法
淺層樹核(Zelenko et al., 2003)、依存樹核( Culotta et al., 2004)、最短依存樹核(Bunescu et al., 2005)、卷積樹 核(Zhang et al., 2006;Zhou et al., 2007)
主要問題
如何有效挖掘反映語義關(guān)系的結(jié)構(gòu)化信息及如何有效計算結(jié)構(gòu)化信息之間的相似度
卷積樹核
用兩個句法樹之間的公共子樹的數(shù)目來衡量它們之間的相似度
標(biāo)準(zhǔn)的卷積樹核(CTK)
在計算兩棵子樹的相似度時,只考慮子樹本身,不考慮子樹的上下文信息
上下文相關(guān)卷積樹核函數(shù)(CS-CTK)
在計算子樹相似度量,同時考慮子樹的祖先信息,如子樹根結(jié)點的父結(jié)點 、祖父結(jié)點信息,并對不同祖先的子樹相似度加權(quán)平均
基于神經(jīng)網(wǎng)絡(luò)的方法
遞歸神經(jīng)網(wǎng)絡(luò)( Socher et al., 2012)、基于矩 陣空間的遞歸神經(jīng)網(wǎng)絡(luò)( Socher et al., 2012)、卷積神經(jīng)網(wǎng)絡(luò)(Zeng et al., 2014)
主要問題
如何設(shè)計合理的網(wǎng)絡(luò)結(jié)構(gòu),從而捕捉更多的信息,進而更準(zhǔn)確的完成關(guān)系的抽取
網(wǎng)絡(luò)結(jié)構(gòu)
不同的網(wǎng)絡(luò)結(jié)構(gòu)捕捉文本中不同的信息
遞歸神經(jīng)網(wǎng)絡(luò)(RNN)
網(wǎng)絡(luò)的構(gòu)建過程更多的考慮到句子的句法結(jié)構(gòu),但是需要依賴復(fù)雜的句法分析工具
卷積神經(jīng)網(wǎng)絡(luò)(CNN)
通過卷積操作完成句子級信息的捕獲,不需要復(fù)雜的NLP工具
總結(jié)
以上是生活随笔為你收集整理的知识图谱中传统关系抽取方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 命名实体的消歧
- 下一篇: 查看LINUX发行版的名称及其版本号