當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

词汇挖掘与实体识别（未完）

發布時間：2023/12/10 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了词汇挖掘与实体识别（未完）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

1 概述
2 詞匯挖掘
- 2.1 關鍵詞提取
- - 2.1.1 基于特征統計
  - 2.1.2 基于主題模型
  - 2.1.3 Text-Rank算法提取
- 2.2 同義詞挖掘
- 2.2.1 同義詞類型
- 2.2.2 挖掘
- 2.3 縮略詞挖掘
- 2.4 新詞挖掘
3 實體識別(NER)
- 3.1 基于概率圖模型
- 3.2 基于深度學習

1 概述

實體：是文本中的一些詞匯或者短語。例如清華大學、李白。
但有些詞匯不是實體。例如鮮艷的，守株待兔。
具體措施：挖掘盡可能多高質量的詞匯，篩選目標知識圖譜中的實體。

2 詞匯挖掘

2.1 關鍵詞提取

2.1.1 基于特征統計

詞頻
TF-IDF
位置特征
詞跨度
詞的固定屬性：詞長、詞性、是否全部大小寫等

2.1.2 基于主題模型

主題模型的核心假設是：存在隱含變量（文本主題），決定文本中詞匯的出現情況。獲取每個主題下的高頻詞作為關鍵詞。

2.1.3 Text-Rank算法提取

基于PageRank

在文本中詞與相鄰詞之間，可以類比于有跳轉關系的2個網頁。

改進：直接設窗口半徑，改進到從句法分析的角度定義鏈接關系。

2.2 同義詞挖掘

2.2.1 同義詞類型

1 不同國家的互譯（自行車、bike）
2 相同含義的詞（花朵、花兒）
3 不同稱呼（周董、周杰倫；番茄、西紅柿；上海、滬）

2.2.2 挖掘

1 字典：wordnet、漢語大詞典、大詞林（特點：質量高、不完整）
2 百科
3 基于模式匹配
X又稱Y；X(Y);X簡稱Y，X，亦稱Y；X俗稱Y等等
特點：準確率高，召回率低（不能找到的同義詞很多）
4 基于bootstrapping（自舉法）
模式匹配，發現同義詞對；
根據同義詞對，發現更多的模式。
半監督模式，可以自己學習到一些模式。

2.3 縮略詞挖掘

縮略詞可以說是一種特殊的同義詞。
同義詞的挖掘方式也可以用于縮略詞挖掘，但更多的還是要依靠人工。
縮略詞有表音的：Doctor 與Dr

有表意的：北京大學與北大；安全理事會與安理會。

2.4 新詞挖掘

新詞是指詞庫中不存在的詞，但還可能是一個詞的詞。
挖掘方法是先對文本進行分詞。分詞后根據詞之間的凝固度，還有詞左右熵來確定一個詞是不是新詞。
首先新詞，可能是原來兩個詞，三個詞…組成一個新詞。
第二，看下候選詞的凝固度。以兩個詞為例。如果x和y總是同時出現，x與別的詞一起出現的概率低，y與別的詞出現概率低，那大概率x和y可以組成一個新詞。
$PMI(x,y)=logP(x,y)P(x)?P(y)PMI(x,y)=log\dfrac{P(x,y)}{P(x)*P(y)}$
第三，看下候選詞左邊相鄰詞，右邊相鄰詞的熵。表示了左右相鄰詞的豐富程度。越豐富表名候選詞越可能成為一個詞。
$P(x,y)=?∑w∈WP(w)logP(w)P(x,y)=-\sum_{w\in W}P(w)logP(w)$ ，W是所有x,y組合左右相鄰詞的集合。

3 實體識別(NER)

3.1 基于概率圖模型

3.2 基于深度學習

總結

以上是生活随笔為你收集整理的词汇挖掘与实体识别（未完）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：京东支付SDK重构设计与实现
下一篇： Wendy Shijia 的「 Esch