日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - JWS2020 | FEEL: 实体抽取和链接的集成框架

發布時間:2024/7/5 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - JWS2020 | FEEL: 实体抽取和链接的集成框架 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理,譚亦鳴,東南大學博士生。


來源:JWS 2020

鏈接:https://www.sciencedirect.com/science/article/pii/S157082682030010X?via%3Dihub

介紹

實體抽取和鏈接(Entity extraction and linking, EEL)是語義網的一個重要任務,它能夠從文本中識別現實世界的對象,并關聯到知識庫中的相應資源上。因此,EEL任務的一個目標是從文本中抽取知識。近年來,一些EEL系統被提出,它們著眼于不同的領域,語言以及知識庫。這種情況下,一些嘗試結合不同EEL系統優勢的集成系統被提出,以提供比單一系統更好的性能。但是,目前尚沒有一個清晰的全局配置指導,用于幫助集成系統選擇,配置EEL系統,以及結果的融合。這篇論文提出一個框架,通過對系統選擇,輸入參數配置,系統執行以及最終的答案融合提供建議(答案融合基于一個對實體出現及重疊的過濾策略建立),從而構建融合EEL系統。基于這個框架,作者使用現有EEL系統實現了一個集成系統,通過GERBIL框架的實驗結果表明,在七個數據集上,相對于單一EEL系統,集成系統的微觀/宏觀精度與召回率均有提高。

動機

集成EEL系統能夠利用不同EEL系統的優勢,從而得到比單一系統更好的性能。集成系統的一般思路是將兩個或更多的EEL系統的輸出統一為一個候選結果集。此外,多系統的命名實體抽取結果合成,亦能夠比單一系統識別出更多的實體。

但是,集成EEL涉及到不同階段的系統選擇,參數配置以及集成決策,從而實現具有同類結果的系統。首先,對于EEL系統的選擇與執行,包括領域,資源需求以及實現環境等多個因素需要被考慮。第二,在參數配置方面,輸入參數的選擇顯然會直接影響到輸出結果。例如,置信度參數控制命名實體在提及與URIs之間的匹配程度。最后,不同EEL系統的組合可能產生重復/部分重疊的實體元組(不同命名實體共享了一個文本中的提及)。因此,為集成系統提供系統選擇,配置及結果融合的建議是一個明確的發展需要。

方法

本文提出FEEL(Frameworkfor the integration of Entity Extraction and Linking systems),旨在為集成EEL系統提供一個具有整體設定的推薦,概念以及任務的結構。圖2中描述了該框架的三個主要階段:

1.參數配置:

a)系統選擇,以開放域數據場景為例,四個EEL系統被用于集成系統的實現(TagMe, DBpedia Spotlight, Babelfy, WAT),系統的選擇遵循(i) 系統的研究報告中具備精準度和召回率之間的平衡。 (ii) 系統能夠處理多個領域/包含不同特征的數據集。(iii) (免費)可用。

b)資源管理,針對EEL系統所需的軟硬件資源的管理

c)參數調試,一般而言,EEL系統具有一些輸入參數,例如置信度,輸入文本,語言,輸出格式,token-key等。這一步涉及對最常見輸入參數(尤其置信度)的描述和配置。

i.置信度:置信度作為一個閾值,控制了從文本中抽取命名實體的數量,一般一個更高的置信度代表(獲取實體的)高精度,但一定程度上損失召回。相對于使用基于經驗的參數配置,FEEL選擇基于GERBIL框架,通過在一個確定數量的數據集上對不同系統進行測試,從而確定參數配置,主要策略包括:

1.數據集選擇,領域相關性

2.使用EEL系統在所選數據集上進行(多次)實驗,獲取micro-F1結果

3.獲取產生F1結果較好的置信度區間

4.獲取置信度區間的中間值

5.視情況對置信度配置值向上可選

ii.提取類型。EEL可選的提取類型包括:僅從文本中做實體抽取(而不鏈接),或僅將抽取出的實體標注為特定類別而非具體實例。

iii.輸入文本:一般就是純文本

iv.語言:EEL系統能識別和覆蓋不同的語言(若系統未檢測到輸入文本的語言,則必須指定該項)

v.輸出格式,系統需支持輸出實體的不同格式(如基于LinkData的格式)

vi.Token-key,這個主要是為了限制(每日的)用戶請求,用于成本控制

2.系統調用:系統調用的目標是對于給定的輸入文本獲取一組命名實體元組,主要包含兩個部分:

a) Request preparation:這里主要考慮系統的調用和異常處理,假定某個EEL系統的執行出現故障,集成系統應該能夠繼續執行剩余EEL以獲得盡可能多的結果

b) Field parser:這一步主要涉及單個EEL系統檢索得到的命名實體,指的是不同輸出的實體標識,其中必須包含實體元組元素

3.數據合并:由EEL獲得的結果里往往存在重疊情況,這種情況需要被過濾以得到統一的結果,在過濾方面有四個因素需要被考慮:

a)實體頻率,低于某個頻率閾值的實體需要被移除。

b)重復的提及,當兩個或更多的實體對應了相同的文本提及時,需要通過排序選擇最可能一個。這里作者采用了頻率排序的方式進行過濾。

c)重復元組的去重。

d)局部實體重疊,這里指命名實體之間的提及存在局部重疊的情況,FEEL選擇保留提及長度最長的部分。

過濾過程見算法1:

實驗

數據集

用于調參的數據集的統計信息如下表

單一EEL系統在各數據集上的F1結果,用于參數配置

強弱匹配情況下,各獨立EEL的實驗結果

最好的單一系統與FEEL集成系統的實驗結果對比

其他實驗細節結果請見論文原文。


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 - JWS2020 | FEEL: 实体抽取和链接的集成框架的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。