词汇挖掘与实体识别(未完)
文章目錄
- 1 概述
- 2 詞匯挖掘
- 2.1 關鍵詞提取
- 2.1.1 基于特征統計
- 2.1.2 基于主題模型
- 2.1.3 Text-Rank算法提取
- 2.2 同義詞挖掘
- 2.2.1 同義詞類型
- 2.2.2 挖掘
- 2.3 縮略詞挖掘
- 2.4 新詞挖掘
- 3 實體識別(NER)
- 3.1 基于概率圖模型
- 3.2 基于深度學習
1 概述
實體:是文本中的一些詞匯或者短語。例如清華大學、李白。
但有些詞匯不是實體。例如鮮艷的,守株待兔。
具體措施:挖掘盡可能多高質量的詞匯,篩選目標知識圖譜中的實體。
2 詞匯挖掘
2.1 關鍵詞提取
2.1.1 基于特征統計
- 詞頻
- TF-IDF
- 位置特征
- 詞跨度
- 詞的固定屬性:詞長、詞性、是否全部大小寫等
2.1.2 基于主題模型
主題模型的核心假設是:存在隱含變量(文本主題),決定文本中詞匯的出現情況。獲取每個主題下的高頻詞作為關鍵詞。
2.1.3 Text-Rank算法提取
基于PageRank
在文本中詞與相鄰詞之間,可以類比于有跳轉關系的2個網頁。
改進:直接設窗口半徑,改進到從句法分析的角度定義鏈接關系。
2.2 同義詞挖掘
2.2.1 同義詞類型
1 不同國家的互譯(自行車、bike)
2 相同含義的詞(花朵、花兒)
3 不同稱呼(周董、周杰倫;番茄、西紅柿;上海、滬)
2.2.2 挖掘
1 字典:wordnet、漢語大詞典、大詞林(特點:質量高、不完整)
2 百科
3 基于模式匹配
X又稱Y;X(Y);X簡稱Y,X,亦稱Y;X俗稱Y等等
特點:準確率高,召回率低(不能找到的同義詞很多)
4 基于bootstrapping(自舉法)
模式匹配,發現同義詞對;
根據同義詞對,發現更多的模式。
半監督模式,可以自己學習到一些模式。
2.3 縮略詞挖掘
縮略詞可以說是一種特殊的同義詞。
同義詞的挖掘方式也可以用于縮略詞挖掘,但更多的還是要依靠人工。
縮略詞有表音的:Doctor 與Dr
有表意的:北京大學與北大;安全理事會與安理會。
2.4 新詞挖掘
新詞是指詞庫中不存在的詞,但還可能是一個詞的詞。
挖掘方法是先對文本進行分詞。分詞后根據詞之間的凝固度,還有詞左右熵來確定一個詞是不是新詞。
首先新詞,可能是原來兩個詞,三個詞…組成一個新詞。
第二,看下候選詞的凝固度。以兩個詞為例。如果x和y總是同時出現,x與別的詞一起出現的概率低,y與別的詞出現概率低,那大概率x和y可以組成一個新詞。
PMI(x,y)=logP(x,y)P(x)?P(y)PMI(x,y)=log\dfrac{P(x,y)}{P(x)*P(y)}PMI(x,y)=logP(x)?P(y)P(x,y)?
第三,看下候選詞左邊相鄰詞,右邊相鄰詞的熵。表示了左右相鄰詞的豐富程度。越豐富表名候選詞越可能成為一個詞。
P(x,y)=?∑w∈WP(w)logP(w)P(x,y)=-\sum_{w\in W}P(w)logP(w)P(x,y)=?∑w∈W?P(w)logP(w),W是所有x,y組合左右相鄰詞的集合。
3 實體識別(NER)
3.1 基于概率圖模型
3.2 基于深度學習
總結
以上是生活随笔為你收集整理的词汇挖掘与实体识别(未完)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 京东支付SDK重构设计与实现
- 下一篇: Wendy Shijia 的「 Esch