LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结
這篇paper展示了一種從預訓練的語言模型(例:BERT,GPT-2/3)通過無監(jiān)督訓練構建知識圖譜(KGs)的idea,想法還是很新奇的,搭建了LM(Language Model)和KG(Knowledge Graph)之間的橋梁。
?
知識圖譜的基本單位,是“實體(Entity)-關系(Relationship)-實體(Entity)”構成的三元組,這也是知識圖譜的核心。
?
構建知識圖譜是一個迭代更新的過程,根據(jù)知識獲取的邏輯,每一輪迭代包含:知識儲存、信息抽取、知識融合、知識計算,四個階段。
?
可以發(fā)現(xiàn),傳統(tǒng)KG的建立需要大量的人工參與,由人工手動添加規(guī)則和知識。現(xiàn)在比較通用的KGs(Wikidata、NELL)都是以監(jiān)督或半監(jiān)督的方式構建的,還是需要人類創(chuàng)建知識。
?
隨著NLP的迅速發(fā)展,BERT,GPT-2/3等大型預訓練LM從大規(guī)模語料庫中自動獲取知識,蘊含的語言知識能夠很好地改進下游的NLP任務,這篇paper就提出了一種以無監(jiān)督的方法將LM中包含的知識生成KGs的方法。
?
paper中設計一種名叫MAMA的無監(jiān)督方法,通過在文本語料庫上對預訓練過的LM進行一次前向傳播來生成KG的基本單位,也就是實體-關系-實體的三元組。MAMA有兩個階段:Match和Map,Match階段通過將文本語料庫中的facts與預訓練LM中的知識進行匹配,生成一組candidate facts,Map階段通過將candidate facts映射到fixed KG schema和open schema生成open KG。
?
Match
Match階段的目標就是將預訓練的LM中存儲的知識與語料庫中的facts進行匹配,每個facts都被表示為一個triplet (head, relation, tail)。
Match設計了一個beam search用來匹配candidate facts,對于一個句子中的每一個(h, t),根據(jù)attention matrix保持對k-best的匹配。
Map
Map階段將Match階段匹配的candidate facts生成一個open KG,其中包括兩個部分:a) 映射在fixed schema中的candidate facts,b) open schema中未映射的candidate facts。
?
參考文獻
總結
以上是生活随笔為你收集整理的LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LeetCode Algorithm 6
- 下一篇: 词共现矩阵