知识图谱入门知识(二)事件抽取(EE)详细介绍
學習內容
本文主要詳細介紹事件抽取EE的概念;
裝載自:李景鵬 啥是事件抽取(Event Extraction)?
同時這里關于事件抽取的介紹也可以作為補充: 分層網絡用于事件參數抽取
事件抽取 = 事件提取(Event Extraction EE)= 事件識別(Event Detection ED)
很多事件抽取的方法將事件抽取分為兩個階段:EAE(event argument extraction) 和 ED(event detection)后者會根據觸發詞來確定事件的發生,發生了啥。
結構化數據和非結構化數據: 指的是一句話是不是已經給他歸類了!
事件描述
schema:
事件抽取任務的起點,是需求的出現。關心金融領域的朋友,比如我(持有市值約370元人民幣的基金),希望了解所有可以影響市場情緒的事件。因此,海量新聞數據中識別特定類型的事件就是我們的需求。
需求確定了,接下來的任務就是把需求轉換為人和機器都可以理解的一種形式,即制定事件的schema。“schema”即綱要,是我們對事物一般的、抽象的描述,體現人類對事物的認知水平,決定了機器抽取事件的能力,因此非常重要。一個完整的事件schema,應當包括:
(1)事件類型體系,比如“企業成立”、“企業并購”等等組成的,就是我關心的事件的類型體系;
(2)各類事件的重要角色,比如表2-1所示的各個字段,就是一個事件得以發展所依賴的重要角色。有時候,我們會設置一種特殊的角色,即“事件觸發詞”,用來輔助判斷事件的發生。
確定了schema,一方面方便大家在相同的概念基礎上展開協作,另一方面也讓機器有了相對確定的學習和預測目標。
事件抽取分類
事件抽取包括事件觸發詞檢測(識別事件觸發詞,并明確所觸發事件的類型)和屬性抽取(識別觸發事件的屬性,并標注各屬性對應角色)兩個子任務。例如,“He died in hospital”中“died”作為一個Die類型事件的觸發詞,該事件中,屬性“He”的角色為Person, “hospital”的角色為Place. 本文主要探討事件觸發詞檢測任務中的跨句觸發詞聯合抽取問題。
事件抽取難點
當下,事件觸發詞檢測任務面臨的挑戰主要包括:(1)句子上下文表示及篇章級信息整合[1],[2]。候選觸發詞類型的判定一般需要結合上下文信息,包括關聯實體信息(類型等)、其他候選觸發詞等。例如,圖1中句子3中的“firing”可能是開槍(觸發Attack事件)或離職(觸發End_Position事件),Attack事件的確立需要融合句子2,4等的信息。(2)句內和句間事件關聯性建模[1],[3]。句4包含事件觸發詞fight和death,ACE05數據集中超過40%觸發詞如此共現;類似句2、句3和句4中的連續關聯事件同樣普遍。因此,建模事件之間依賴對于同時抽取句子、跨句多事件尤為重要。
現有方法主要專注于句子級事件抽取,忽略了存在于其他句子中的信息。通過對事件抽取benchmark數據集ACE05的分析,我們得出如下結論。(1)可將事件觸發詞檢測任務視為一個Seq2Seq任務,其中,source序列為文本篇章或句子,target序列是事件標簽序列。對應基于RNN的encoder-decoder框架能有效處理該類問題,其中encoder建模豐富的上下文語義信息,decoder在解碼過程中捕捉標簽的依賴性。(2)對于當前句子,與之關聯最密切的信息主要存在于鄰近句子,相距較遠的文本影響較小。
事件抽取和命名實體識別的區別
命名實體抽取,指的是抽取某一類客觀實例的詞語,比如手機、張三、李四等
事件抽取只得是抽取某一類動作,比如爆炸、開會、開車等
命名實體抽取是事件抽取的基礎,因為事件中都必須有至少一個主體,比如手機爆炸、張三開會、李四開車。
NER
鏈接
NER技術簡要介紹
1.命名實體識別的主要任務:
要識別出文本中出現的專有名稱和有意義的數量短語并加以歸類。
2.命名實體識別的主要研究內容:
就整個的命名實體識別的研究結果而言,時間表達式和數字表達式的識別相對簡單,其規則的設計、數據的統計訓練等也比較容易。而對于實體中的組織名、人名、地名,因為其具有開放性和發展性的特點,而且構成規律有很大的隨意性,所以其識別就可能會有較多的錯選或漏選。現在大多數的命名實體識別的研究都集中于對這三種實體的識別技術的研究。
總結
以上是生活随笔為你收集整理的知识图谱入门知识(二)事件抽取(EE)详细介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: centos mysql jar 驱动包
- 下一篇: docker安装_Docker安装