助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源
句子變換,是指根據給定中文句子,借助某種語言處理手段,擴展出一定數據規模的中文句子集合,是一個從1到N的過程,目的在于解決搜索(查詢擴展)、分類(樣本擴充)、抽取(數據回標)、推薦與生成(關聯引導)等多個工業級應用任務。
我們發現,在處理以上幾個任務的過程中,句子級別的操作,是以句子中的詞為基本單位來實現的,即以詞的更換、刪除,語序和組合規則的重組等操作為基本手段。
將詞的這種操作依據進行有效整理和形式化,是一項重要的工作,我們在實際開發過程中,對該工作的成果進一步歸類成“抽象知識”、“同義知識”、“簡稱知識”三大類知識庫,并將其中的部分數據集開放至OpenKG,供大家下載使用。
本期內容以開放的句子變換為主題,對常見的句子變換操作典型應用場景、數據地平線開放的三大知識三元組概要,以及它們在實際句子變換中所能發揮的作用進行介紹。
一、句子變換操作的典型應用場景
句子變換在搜索(查詢擴展)、分類(樣本擴充)、抽取(數據回標)、推薦與生成(關聯引導)等典型NLP傳統任務中均有應用。具體體現在基于句子標準化的輿情文本聚合,基于句子擴展的信息采集與推薦、基于句子變換的數據擴充和數據回標等三個方面。
1、 基于句子標準化的輿情文本聚合
文本去重是輿情分析的一項重要任務,解決的方法包括基于標題的去重、基于文本全文的去重、基于文檔摘要的去重、基于標題與文檔元數據的去重等多種途徑。
處理速度和計算復雜度是去重過程中需要考慮的兩個重要因素,尤其是在項目工期緊且需要大規模進行文本去重時,將特定文本進行代表內容的標準化和規范化處理成為了一個重要手段。
圖1-文本去重系統中的指紋架構圖
內容的標準化和規范化,指將一個來源內容生成一個唯一的md5指紋,指紋的值取決于標準后的結果。一般而言,常規的操作包括對內容進行停用詞處理、短句語序統一重排等,也有進一步地在此基礎上進行文本的詞義標準化映射、句子縮寫、句子復寫、句子翻譯。此外,也有加入一些其他的信息,如文本的時間信息、作者信息等進行標準化融合。
2、 基于句子擴展的信息采集與推薦
定點搜索和采集同樣也是輿情處理過程中的兩個重要手段。定點搜索,指針對關鍵詞或關鍵詞組成的query進行擴展,是搜索和采集的前置操作:如監控“營業收入下降”這一節點時,考慮到目標文檔中可能存在的表述不一致,需要需要進行擴展,形成“營收下跌”、“營收下降”、“經營收入下降”等多個關鍵詞。
圖2-基于同義知識庫的句子擴展
基于句子擴展的關聯推薦也是一個重要的應用。通過對原先給定的query,通過識別出其中的關鍵信息,借助外部知識庫,對關鍵信息集合中的元素進行替換,如獲取抽象關系實體、同級關系(同屬一個抽象類)實體進行替換,得到“美元貶值”擴展成“人民幣貶值”和“貨幣貶值”等推薦結果。
3、 基于句子變換的數據擴充與數據回標
無論是分類任務還是抽取任務,都存在著樣本不足、訓練數據不夠的問題,為此,數據擴充和數據回標是兩個主要手段。其中,數據擴充主要包括詞語替換和回譯等幾種方式。
詞語替換,指在不更改句子含義的情況下替換文本中出現的單詞,實現方式包括基于同義詞庫的替換 、基于詞嵌入替換、基于TF-IDF的單詞替換等,基于TF-IDF的單詞替換也常用于確定給定句子中需要替換的詞語成分;借助回譯進行數據增強也是一種方案,即利用機器翻譯來釋義文本,將這個新句子用作原始文本的擴充結果。
圖3-基于遠程監督思想的數據回標
遠程監督思想下基于已有知識庫的數據回標是獲取大規模標注數據的重要方法,其要求在給定知識三元組的情況下,在非結構化文本中進行回查,假設同時出現兩個實體的句子潛在地存在著實體關系。不過,這一操作在實際的處理過程中噪聲會較大。因此,為了擴大候選召回,可借助外部知識庫對兩個實體進行擴展,同時可以引入實體之間的關系標記詞以及標記詞的擴展詞作為增設條件提高準確率。
二、句子變換中的開放知識三元組
準確而大規模的記錄詞語之間的同義、抽象、同義等關系的知識三元組,是完成以上三個應用任務的堅實基礎,在OpenKG中,我們開源了積累的部分中文抽象知識、中文同義知識、中文簡稱三元組數據集,供大家下載使用。下面是對該數據集的介紹:
1、35萬中文抽象知識三元組
1)地址 :
http://www.openkg.cn/dataset/35
圖4-35萬中文抽象知識三元組詳情截圖
2)樣例與介紹
該數據集開放了高質量的346,048條中文抽象知識三元組知識庫,來源于公開網絡文本抽象三元組挖掘、人工手工整理等多個渠道,覆蓋商品、行業、動作、性狀、名詞性實體等多種類型。樣例如下圖所示:
圖5-35萬中文抽象知識示例截圖
該知識庫可用于查詢擴展、句子改寫、句子相似度計算、句子推薦等多個應用場景。
2、 43萬中文同義知識三元組
1) 地址:
http://www.openkg.cn/dataset/sim-knowlege-triples
該數據集開放了43萬中文同義知識三元組,來源于公開數據文本同義詞挖掘、詞典整理與人工修正等多個渠道。樣例如下圖所示:
圖7-43萬中文同義知識示例截圖
該知識庫可用于同義詞擴展相關應用,如搜索擴展查詢、句子相似度計算、數據增強等。
3、 13萬中文簡稱知識三元組
地址:http://www.openkg.cn/dataset/abbr-knowlege-triples
圖8-13萬中文簡稱知識詳情截圖
2) 介紹與樣例
該數據集開放了136,081條中文簡稱知識三元組,涉及高校、商品名稱、公司簡稱等多個領域,來自公開網絡文本簡稱抽取、人工整理等多個渠道。樣例如下圖所示:
圖9-13萬中文簡稱知識示例截圖
中文簡稱知識庫,可用于簡稱抽取評測、實體鏈接、搜索查詢擴展、句子改寫等多個場景。
三、總結
句子級別的操作,是以句子中的詞為基本單位來實現的,即以詞的更換、刪除,語序和組合規則重組等操作為基本手段。將詞的這種操作依據進行有效整理以及形式化,是一項重要的工作,我們將這種形式化的成果進一步歸類成“抽象知識”、“同義知識”、“簡稱知識”三大類知識庫,并將其中的一部分數據集開放至OpenKG:
346048條中文抽象知識三元組知識庫,可用于查詢擴展、句子改寫、句子相似度計算、句子推薦等多個應用場景;
43萬中文同義知識三元組,可用于同義詞擴展相關應用,如搜索擴展查詢、句子相似度計算、數據增強等場景;
136,081條中文簡稱知識三元組,涉及高校、商品名稱、公司簡稱等多個領域,可用于簡稱抽取評測、實體鏈接、搜索查詢擴展、句子改寫等多個場景。
底層知識三元組,能夠在句子變換中發揮重要作用,具體體現在基于句子標準化的輿情文本聚合,給予句子擴展的信息采集與推薦、基于句子變換的數據擴充和數據回標等幾個方面。
我們認為,底層知識庫是自然語言處理的堅實基礎,可在工業界各項算法的實施中發揮奠基性和落地性的支持。
參考鏈接
1、http://www.openkg.cn/organization/datahorizon
2、http://www.openkg.cn/dataset/35
3、http://www.openkg.cn/dataset/sim-knowlege-triples
4、http://www.openkg.cn/dataset/abbr-knowlege-triples
5、https://www.datahorizon.cn
總結
以上是生活随笔為你收集整理的助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JAVA AIO
- 下一篇: Pytorch 中 matmul 广播