日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

用隐马尔可夫模型(HMM)做命名实体识别——NER系列(二)

發布時間:2025/3/15 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用隐马尔可夫模型(HMM)做命名实体识别——NER系列(二) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

上一篇文章里《用規則做命名實體識別——NER系列(一)》,介紹了最簡單的做命名實體識別的方法–規則。這一篇,我們循序漸進,繼續介紹下一個模型——隱馬爾可夫模型。

隱馬爾可夫模型,看上去,和序列標注問題是天然適配的,所以自然而然的,早期很多做命名實體識別和詞性標注的算法,都采用了這個模型。

這篇文章我將基于碼農場的這篇文章《層疊HMM-Viterbi角色標注模型下的機構名識別》,來做解讀。但原文中的這個算法實現是融入在HanLP里面的。不過他也有相應的訓練詞典,所以我在這篇文章里面也給出一個python實現,做一個簡單的單層HMM模型,來識別機構名。

代碼地址:https://github.com/lipengfei-558/hmm_ner_organization

1.隱馬爾可夫模型(HMM)

隱馬爾可夫模型(Hidden Markov Model,HMM),是一個統計模型。

關于這個模型,這里有一系列很好的介紹文章:http://www.52nlp.cn/category/hidden-markov-model

隱馬爾可夫模型有三種應用場景,我們做命名實體識別只用到其中的一種——求觀察序列的背后最可能的標注序列

即根據輸入的一系列單詞,去生成其背后的標注,從而得到實體。

2.在序列標注中應用隱馬爾可夫模型

HMM中,有5個基本元素:{N,M,A,B,π},我結合序列標志任務對這5個基本元素做一個介紹:

  • N:狀態的有限集合。在這里,是指每一個詞語背后的標注。
  • M:觀察值的有限集合。在這里,是指每一個詞語本身。
  • A:狀態轉移概率矩陣。在這里,是指某一個標注轉移到下一個標注的概率。
  • B:觀測概率矩陣,也就是發射概率矩陣。在這里,是指在某個標注下,生成某個詞的概率。
  • π:初始概率矩陣。在這里,是指每一個標注的初始化概率。

而以上的這些元素,都是可以從訓練語料集中統計出來的。最后,我們根據這些統計值,應用維特比(viterbi)算法,就可以算出詞語序列背后的標注序列了。

命名實體識別本質上就是序列標注,只需要自己定義好對應的標簽以及模式串,就可以從標注序列中提取出實體塊了。

3.實戰:用HMM實現中文地名識別

3.1 參考論文以及網站

  • 張華平, 劉群. 基于角色標注的中國人名自動識別研究[J]. 計算機學報, 2004, 27(1):85-91.
  • 俞鴻魁, 張華平, 劉群. 基于角色標注的中文機構名識別[C]// Advances in Computation of Oriental Languages–Proceedings of the, International Conference on Computer Processing of Oriental Languages. 2003.
  • 俞鴻魁, 張華平, 劉群,等. 基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 通信學報, 2006, 27(2):87-94.
  • 碼農場:層疊HMM-Viterbi角色標注模型下的機構名識別

3.2 任務

命名實體識別之中文機構名的識別。

3.3 語料

HanLP(https://github.com/hankcs/HanLP/releases)提供的語料:

我用的是data-for-1.3.3.zip,百度網盤下載地址:

https://pan.baidu.com/s/1o8Rri0y

下載后解壓,我們要用的語料路徑如下:

\data-for-1.3.3\data\dictionary\organization

其中,里面有兩個我們要用到的語料文件,nt.txt和nt.tr.txt。這兩個文件的數據統計自人民日報語料庫。

① nt.txt:

詞語標注統計詞典,比如里面有一行是這樣的:

會議 B 163 C 107 A 10

意思是,會議這個詞作為B標簽出現了163次,作為C標簽出現了107次,作為A標簽出現了10次.

② nt.tr.txt:

標簽轉移矩陣。如下圖:

即,每一個標簽轉移到另一個標簽的次數。比如第二行第四列的19945,代表著【A標簽后面接著是C標簽】出現了19945次。

以上語料我都提取出來放到代碼目錄的./data下了。

3.4 代碼實現

代碼的思路很直觀,只要按照上面第2部分所說的,準備好5元組數據,然后用viterbi算法解碼即可。

3.4.1?N:狀態的有限集合

在機構名識別的這個任務中,論文《基于角色標注的中文機構名識別》把狀態(角色)定義為以下集合:

然而在HanLP的語料中,只有以下的標簽,有多出來的,又不一樣的:

A,B,C,D,F,G,I,J,K,L,M,P,S,W,X,Z

經過我的整理,完整的狀態(角色)集合如下:

角色意義例子
A上文參與亞太經合組織的活動
B下文中央電視臺報道
X連接詞北京電視臺天津電視臺
C特征詞的一般性前綴北京電影學院
F特征詞的人名前綴何鏡堂紀念館
G特征詞的地名性前綴交通銀行北京分行
K特征詞的機構名、品牌名前綴中共中央顧問委員會

?

?

美國摩托羅拉公司

I特征詞的特殊性前綴中央電視臺

?

?

中海油集團

J特征詞的簡稱性前綴政府
D機構名的特征詞國務院僑務辦公室
Z非機構成分?
L方位詞上游

?

?

M數量詞36
P數量+單位(名詞)三維

?

?

兩國

W特殊符號,如括號,中括號()

?

?

【】

S開始標志始##始

本程序以上面我整理的這個表格的狀態角色為準(因為HanLP的語料詞典里面就是這樣定義的)。

3.4.2 M:觀察值的有限集合

在這里,觀察值就是我們看到的每個詞。

不過有一個地方要注意一下,在語料詞典nt.txt中,除了所有詞語之外,還有下面8個特殊詞語:

  • 始##始
  • 末##末
  • 未##串
  • 未##人
  • 未##團
  • 未##地
  • 未##數
  • 未##時

這些詞語可以在層疊HMM中發揮作用,加進去可以提高識別精度,因為很多機構名里面都有人名和地名。

在使用我的這份代碼之前,你可以用分詞工具先識別出相關的詞性,然后將對應命中的詞語替換為上面的8個特殊詞語,再調用函數,精確率會大大提高。

3.4.3 A:狀態轉移概率矩陣

在這里,它是指某一個標注轉移到下一個標注的概率。

generate_data.py的generate_transition_probability()函數就是干這事的,它會生成一個transition_probability.txt,即轉移概率矩陣。

3.4.4 B:觀測概率矩陣(發射概率矩陣)

在這里,他是指在某個標注下,生成某個詞的概率。

generate_data.py的generate_emit_probability()函數就是干這事的,它會生成一個emit_probability.txt,即觀測概率矩陣(發射概率矩陣)。

3.4.5 π:初始概率矩陣

在這里,它是指每一個標注的初始化概率。

generate_data.py的genertate_initial_vector()函數就是干這事的,它會生成一個initial_vector.txt,即初始概率矩陣。

3.4.6 維特比(viterbi)算法解碼

這部分代碼是參考《統計方法》里面的實現寫的,做了些調整,使之可以適用于這個機構名識別的任務。函數為viterbi() ,位于OrgRecognize.py里面。

使用這個函數,就能獲得最佳標注序列。

3.4.7 匹配標注序列,得到機構名

在3.4.6里面,我們可以得到一個標注序列,哪些標注代表著實體呢?

HanLP作者整理了一個nt.pattern.txt(我也放置在./data/nt.pattern.txt下了),里面是所有可能是機構名的序列模式串(有點粗暴,哈哈),然后用Aho-Corasick算法來進行匹配。

為了簡單起見突出重點,我的代碼實現里,用的是循環遍歷匹配,具體的實現在OrgRecognize.py里面的get_organization,函數的作用是,輸入原詞語序列、識別出來的標注序列和序列模式串,輸出識別出來的機構名實體。

3.4.8 使用程序

代碼地址:https://github.com/lipengfei-558/hmm_ner_organization

環境以及依賴:

  • python2.7
  • jieba分詞(可選)

首先,運行以下腳本,生成transition_probability.txt,emit_probability.txt以及initial_vector.txt:

1

python generate_data.py

然后,運行

1

python OrgRecognize.py

就可以了,不出意外,“中海油集團在哪里”這句話,會識別出“中海油集團”這個機構實體。

具體輸入的句子邏輯,可以在main函數里面靈活修改,也可以結合jieba一起用。另外,python2.7的中文編碼問題要注意了,如果你的輸出序列很奇怪,很有可能是編碼問題。

4.總結、待改進

用HMM來實現的命名實體識別算法,關鍵在于標簽的自定義,你需要人工定義盡可能多的標簽,然后在訓練語料集里面自動標注這些標簽,這也是最麻煩的地方。標注完語料集,生成HMM中的轉移概率、初始概率、發射概率就很簡單了,就是純粹的統計。

整個模型也沒什么參數,用這些統計的數字即可計算。

算法可能可以改進的點如下:

  • 針對命名實體的維特比(viterbi)算法中,如果遇到未登錄詞,默認發射概率為0。我們可以額外引入相似度機制來解決這個問題,比如利用同義詞表或者詞向量相似度,我們找到和未登錄詞相似、同時也在觀測概率矩陣里面出現的詞語,用這個詞語的發射概率(或者對其乘一個縮放系數),來代替未登錄詞的發射概率。
  • 初始化概率對最終效果的影響有待考證。因為初始化概率影響著單詞序列第一個詞的標注,假如,僅僅用發射概率來決定第一個詞的標注,效果會不會更好?
  • HMM算法默認只考慮前一個狀態(詞)的影響,忽略了更多上下文信息(特征)。后來的MEMM、CRF,都是循序漸進的改進方法。傳統機器學習方法里面,CRF是主流,下一篇我會繼續介紹CRF在命名實體識別任務上的應用。

    代碼和語料:
    https://www.lookfor404.com/命名實體識別的語料和代碼/

    https://www.lookfor404.com/%e7%94%a8%e9%9a%90%e9%a9%ac%e5%b0%94%e5%8f%af%e5%a4%ab%e6%a8%a1%e5%9e%8bhmm%e5%81%9a%e5%91%bd%e5%90%8d%e5%ae%9e%e4%bd%93%e8%af%86%e5%88%ab-ner%e7%b3%bb%e5%88%97%e4%ba%8c/

    總結

    以上是生活随笔為你收集整理的用隐马尔可夫模型(HMM)做命名实体识别——NER系列(二)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 禁漫天堂免费网站 | 91在线公开视频 | 欧美色v| 香蕉尹人 | 青青草网站 | 91啪在线观看| 87福利视频 | av毛片观看 | 老妇女性较大毛片 | 超碰免费在线 | 亚色影库| 99久久99久久精品国产片 | 自拍偷拍视频网站 | 欧美一区二区国产 | 婷婷.com| 黄色激情在线观看 | 日本成人精品视频 | 午夜手机福利 | 免费福利视频在线观看 | 欧洲精品二区 | av天天色 | 在线一区 | 欧美性生活在线视频 | 最近免费中文字幕大全免费版视频 | 91超薄丝袜肉丝一区二区 | 午夜影院h| 亚洲AV无码阿娇国产精品 | 极品白嫩少妇无套内谢 | 日本aa在线观看 | 香蕉久久夜色精品升级完成 | 神马影院午夜伦理 | 三级毛毛片 | 精品国产AV色欲天媒传媒 | 日韩 欧美 中文 | 成人福利小视频 | 东京热一区二区三区四区 | 91精品福利在线 | 综合天堂av久久久久久久 | 黄色网址你懂得 | 色在线免费 | 久草视频在线播放 | 欧美少妇bbw | 国产99精品视频 | 成人www | 末路1997全集免费观看完整版 | 国产成人av影院 | 久久精品视频在线 | 天天久久综合网 | 久久精品一区二区三区不卡牛牛 | 亚洲麻豆一区二区三区 | 操丰满女人 | 国产av日韩一区二区三区精品 | 免费激情小视频 | 壮汉被书生c到合不拢腿 | 婷婷亚洲五月色综合 | 超碰在线日韩 | 九色在线观看视频 | www.成人av.com | 二区三区偷拍浴室洗澡视频 | 久久亚洲无码视频 | 草久久av| 秋霞国产午夜精品免费视频 | 日本美女全裸 | 爱av在线 | 精品国产欧美一区二区 | 成人免费公开视频 | 日本www高清视频 | 一区二区国产视频 | 老妇高潮潮喷到猛进猛出 | 久久成人在线观看 | 无码丰满熟妇 | 久久久久久久亚洲av无码 | 丝袜ol美脚秘书在线播放 | 天堂网av2014 | 黑人3p波多野结衣在线观看 | 张柏芝亚洲一区二区三区 | 四虎在线免费观看 | 久久免费激情视频 | 国产精品igao| 99re6这里有精品热视频 | 欧美日韩免费 | 黑人极品videos精品欧美裸 | 在线看片你懂的 | 精品久久久久久久久久久久 | 欧美一区二区高清视频 | 中文亚洲av片在线观看 | 极品久久久久久 | 无套内谢少妇毛片 | 婷婷一区二区三区 | 亚洲乱码一区 | 人操人视频 | 日韩精品一区在线播放 | 日韩美女啪啪 | 三级伦理片 | 中出视频在线观看 | 国产ts三人妖大战直男 | 潘金莲裸体一级淫片视频 | 国产色一区 | 操女人视频网站 |