日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hanlp-地名识别调试方法详解

發(fā)布時(shí)間:2023/12/10 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hanlp-地名识别调试方法详解 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

HanLP收詞特別是實(shí)體比較多,因此特別容易造成誤識(shí)別。下邊舉幾個(gè)地名誤識(shí)別的例子,需要指出的是,后邊的機(jī)構(gòu)名識(shí)別也以地名識(shí)別為基礎(chǔ),因此,如果地名識(shí)別不準(zhǔn)確,也會(huì)導(dǎo)致機(jī)構(gòu)名識(shí)別不準(zhǔn)確。

?

類型1 數(shù)字+地名

[1] 暗訪哈爾濱網(wǎng)約車:下10單來7輛“黑車” 1輛套牌

?

[2] 房天下每日成交5月12日海寧商品房銷售備案43套

?

[3] 廣西近視手術(shù)專家-黃明漢院長9月9日百色見面會(huì)

?

類型2 前詞+地名首詞成詞或地名尾詞+后詞成詞

?

[1] 西安國企4000元工資相當(dāng)于私企多少錢?

?

[2] 七月份從包頭到山東,十五天左右,有自駕游路線推薦嗎?

?

[3] 最受考研人歡迎的城市,有你報(bào)考高校所在的城市嗎?

?

類型3 地名本身成詞

?

[1] 滴滴司機(jī)接跨省天價(jià)訂單 乘客半路改道至今未付款

?

[2] 上聯(lián):山水不曾隨我老,如何對下聯(lián)?

?

[3] 上聯(lián):柳著金妝閑釣水,如何對下聯(lián)?

?

Badcase分析及修正

?

下邊介紹一下排查誤判原因以及修正的方法

首先需要明確以下幾點(diǎn)注意事項(xiàng):

1.實(shí)體識(shí)別受分詞精度影響。

2.實(shí)體識(shí)別同樣涉及消歧的問題。

3.HanLP收錄了一些不常見的實(shí)體詞,會(huì)造成錯(cuò)誤率升高。

4.HanLP基于隱馬的命名實(shí)體識(shí)召回率沒有特別要求的話,不需要再去訓(xùn)練。

?

這里我們以下邊這個(gè)badcase的分析過程為例來說明

?

[5] 上聯(lián):山水不曾隨我老,如何對下聯(lián)?

?

打開提示模式 HanLP.Config.enableDebug()

?

運(yùn)行人名識(shí)別代碼

?

# HanLP命名實(shí)體識(shí)別

def hanlp_ner(text, ner_type):

????global segment

????ner_li = []

????for term in segment.seg(text):

????????if str(term.nature) == ner_type:

????????????ner_li.append(str(term.word))

return ner_li

?

這里ner_type為你要識(shí)別的實(shí)體類型,如果是人名則ner_type='nr',地名ner_type='ns',機(jī)構(gòu)名ner_type='nt'。text為要抽取實(shí)體的文本。

?

識(shí)別結(jié)果,這里為了清晰,只截取了部分輸出

?

粗分結(jié)果[上聯(lián)/n, :/w, 山水/n, 不/d, 曾隨/ns, 我/rr, 老/a, ,/w, 如何/ryv, 對/p, 下聯(lián)/n, ?/w]

地名角色觀察:[ ?S 1163565 ][上聯(lián) Z 20211628 ][: A 2701 B 439 X 11 ][山水 B 6 A 1 ][不 B 214 A 3 C 3 ][曾隨 G 1 H 1 ]

[我 A 47 B 26 ][老 C 274 A 75 B 66 D 2 X 2 ][, A 40525 B 10497 X 418 ][如何 B 44 ][對 A 2896 B 454 X 215 ][下聯(lián) Z 20211628 ][? B 82 ][ ?B 1322 ]

地名角色標(biāo)注:[ /S ,上聯(lián)/Z ,:/B ,山水/A ,不/C ,曾隨/H ,我/B ,老/B ,,/A ,如何/B ,對/A ,下聯(lián)/Z ,?/B , /S]

識(shí)別出地名:不曾隨 CH

hanlp_ns ['不曾隨']

?

顯然,曾隨被認(rèn)為是地名了,而且粗分結(jié)果表示的是未經(jīng)地名識(shí)別模塊分詞和詞性標(biāo)注的結(jié)果,顯然這是由于詞表導(dǎo)致的。由于沒有經(jīng)過地名識(shí)別模塊,所以不需要去地名的發(fā)射詞表ns.txt中去找詞語,只需要看核心詞表CoreNatureDictionary.txt中去找

?

顯然,在核心詞表中“曾隨“被標(biāo)記為一個(gè)地名,把”曾隨“從詞表中刪除掉,并刪除詞表文件CoreNatureDictionary.txt.bin,之后再次運(yùn)行程序得到下邊的輸出結(jié)果

?

hanlp_ns []

?

從這個(gè)實(shí)例,我們也可以看出一些不常見地名如果做成地名詞表,就有導(dǎo)致錯(cuò)誤識(shí)別實(shí)體。因此,我們應(yīng)該保留一份評測語料,每當(dāng)修改了實(shí)體詞表后,需要跑一下測試語料查看準(zhǔn)確率,如果降低的太多,則表示這樣加進(jìn)來是不可行的。同時(shí)填加的實(shí)體名也有可能會(huì)造成分詞錯(cuò)誤。

?

下邊說明一下HanLP中有關(guān)實(shí)體的詞表文件名

?

1.CoreNatureDictionary.mini.txt

2.CoreNatureDictionary.txt

3.CustomDictionary.txt

4.機(jī)構(gòu)名詞典.txt

5.全國地名大全.txt

6.人名詞典.txt

7.上海地名.txt

8.現(xiàn)代漢語補(bǔ)充詞庫.txt

9.ns.txt

10.nr.txt

11.nt.txt

?

當(dāng)然這里列出的是通常最有可能導(dǎo)致誤識(shí)別的詞表,如果這些詞表都沒有找到,還需要在HanLP其他詞典文件中尋找。

?

希望今天的內(nèi)容對使用HanLP并對隱馬情有獨(dú)鐘的小伙伴有幫助。這兩天的一點(diǎn)小體會(huì)是,實(shí)體識(shí)別其實(shí)跟分詞是密不可分的,兩者都有共同的處理難點(diǎn),比如詞義消歧(邊界的確定),詞法分析其實(shí)才是真正的NLP的內(nèi)容之一,而詞法分析跟機(jī)器學(xué)習(xí)其實(shí)沒有太大關(guān)系。上邊的badcase解決方法不是根本方法,直接去除掉某些詞,會(huì)導(dǎo)致一些生僻實(shí)體識(shí)別不出來。我們是否可以考慮左右信息熵之類的測度函數(shù)來解決這種詞是否需要拆開與其前后構(gòu)成詞。針對詞法分析推薦大家使用深度學(xué)習(xí)的方法,畢竟了解這些方法也是必須的,雖然你可以在實(shí)際種不用,但是不代表你可以偷懶而不去學(xué)習(xí)。

總結(jié)

以上是生活随笔為你收集整理的Hanlp-地名识别调试方法详解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。