日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

词汇挖掘与实体识别(未完)

發布時間:2023/12/10 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 词汇挖掘与实体识别(未完) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 1 概述
  • 2 詞匯挖掘
    • 2.1 關鍵詞提取
      • 2.1.1 基于特征統計
      • 2.1.2 基于主題模型
      • 2.1.3 Text-Rank算法提取
    • 2.2 同義詞挖掘
    • 2.2.1 同義詞類型
    • 2.2.2 挖掘
    • 2.3 縮略詞挖掘
    • 2.4 新詞挖掘
  • 3 實體識別(NER)
    • 3.1 基于概率圖模型
    • 3.2 基于深度學習

1 概述

實體:是文本中的一些詞匯或者短語。例如清華大學、李白。
但有些詞匯不是實體。例如鮮艷的,守株待兔。
具體措施:挖掘盡可能多高質量的詞匯,篩選目標知識圖譜中的實體。

2 詞匯挖掘

2.1 關鍵詞提取

2.1.1 基于特征統計

  • 詞頻
  • TF-IDF
  • 位置特征
  • 詞跨度
  • 詞的固定屬性:詞長、詞性、是否全部大小寫等

2.1.2 基于主題模型

主題模型的核心假設是:存在隱含變量(文本主題),決定文本中詞匯的出現情況。獲取每個主題下的高頻詞作為關鍵詞。

2.1.3 Text-Rank算法提取

基于PageRank

在文本中詞與相鄰詞之間,可以類比于有跳轉關系的2個網頁。

改進:直接設窗口半徑,改進到從句法分析的角度定義鏈接關系。

2.2 同義詞挖掘

2.2.1 同義詞類型

1 不同國家的互譯(自行車、bike)
2 相同含義的詞(花朵、花兒)
3 不同稱呼(周董、周杰倫;番茄、西紅柿;上海、滬)

2.2.2 挖掘

1 字典:wordnet、漢語大詞典、大詞林(特點:質量高、不完整)
2 百科
3 基于模式匹配
X又稱Y;X(Y);X簡稱Y,X,亦稱Y;X俗稱Y等等
特點:準確率高,召回率低(不能找到的同義詞很多)
4 基于bootstrapping(自舉法)
模式匹配,發現同義詞對;
根據同義詞對,發現更多的模式。
半監督模式,可以自己學習到一些模式。

2.3 縮略詞挖掘

縮略詞可以說是一種特殊的同義詞。
同義詞的挖掘方式也可以用于縮略詞挖掘,但更多的還是要依靠人工。
縮略詞有表音的:Doctor 與Dr

有表意的:北京大學與北大;安全理事會與安理會。

2.4 新詞挖掘

新詞是指詞庫中不存在的詞,但還可能是一個詞的詞。
挖掘方法是先對文本進行分詞。分詞后根據詞之間的凝固度,還有詞左右熵來確定一個詞是不是新詞。
首先新詞,可能是原來兩個詞,三個詞…組成一個新詞。
第二,看下候選詞的凝固度。以兩個詞為例。如果x和y總是同時出現,x與別的詞一起出現的概率低,y與別的詞出現概率低,那大概率x和y可以組成一個新詞。
PMI(x,y)=logP(x,y)P(x)?P(y)PMI(x,y)=log\dfrac{P(x,y)}{P(x)*P(y)}PMI(x,y)=logP(x)?P(y)P(x,y)?
第三,看下候選詞左邊相鄰詞,右邊相鄰詞的熵。表示了左右相鄰詞的豐富程度。越豐富表名候選詞越可能成為一個詞。
P(x,y)=?∑w∈WP(w)logP(w)P(x,y)=-\sum_{w\in W}P(w)logP(w)P(x,y)=?wW?P(w)logP(w),W是所有x,y組合左右相鄰詞的集合。

3 實體識別(NER)

3.1 基于概率圖模型

3.2 基于深度學習

總結

以上是生活随笔為你收集整理的词汇挖掘与实体识别(未完)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。