日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

命名实体识别以及词性自动标注

發(fā)布時(shí)間:2025/3/15 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 命名实体识别以及词性自动标注 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、命名實(shí)體識(shí)別

大數(shù)據(jù)風(fēng)靡的今天,不從里面挖出點(diǎn)有用的信息都不好意思見人,人工智能號(hào)稱跨過奇點(diǎn),統(tǒng)霸世界,從一句話里都識(shí)別不出一個(gè)命名實(shí)體?不會(huì)的,讓我們大話自然語言處理的囊中取物,看看怎么樣能讓計(jì)算機(jī)像人一樣看出一句話里哪個(gè)像人、哪個(gè)像物?

?

請(qǐng)尊重原創(chuàng),轉(zhuǎn)載請(qǐng)注明來源網(wǎng)站www.shareditor.com以及原始鏈接地址

話說天下大事,分久必合,合久必分。

?

之前談到中文分詞把文本切分成一個(gè)一個(gè)詞語,現(xiàn)在我們要反過來,把該拼一起的詞再拼到一起,找到一個(gè)命名實(shí)體,比如:“亞太經(jīng)合組織”

?

條件隨機(jī)場(chǎng)的用武之地

上回書說到,概率圖模型中的條件隨機(jī)場(chǎng)適用于在一定觀測(cè)值條件下決定的隨機(jī)變量有有限個(gè)取值的情況,它特殊就特殊在給定觀察序列X時(shí)某個(gè)特定的標(biāo)記序列Y的概率是一個(gè)指數(shù)函數(shù)exp(∑λt+∑μs),這也正符合最大熵原理。基于條件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別方法屬于有監(jiān)督的學(xué)習(xí)方法,需要利用已經(jīng)標(biāo)注好的大規(guī)模語料庫(kù)進(jìn)行訓(xùn)練,那么已經(jīng)標(biāo)注好的語料里面有什么樣的特征能夠讓模型得以學(xué)習(xí)呢?

?

談命名實(shí)體的放射性

為什么說命名實(shí)體是有放射性的呢?舉個(gè)栗子:“中國(guó)積極參與亞太經(jīng)合組織的活動(dòng)”,這里面的“亞太經(jīng)合組織”是一個(gè)命名實(shí)體,定睛一瞧,這個(gè)實(shí)體著實(shí)不凡啊,有“組織”兩個(gè)字,這么說來這個(gè)實(shí)體是一種組織或機(jī)構(gòu),記住,下一次當(dāng)你看到“組織”的時(shí)候和前面幾個(gè)字組成的一定是一個(gè)命名實(shí)體。繼續(xù)觀察,在它之前輻射出了“參與”一次,經(jīng)過大規(guī)模語料訓(xùn)練后能發(fā)現(xiàn),才“參與”后面有較大概率跟著一個(gè)命名實(shí)體。繼續(xù)觀察,在它之后有“的活動(dòng)”,那么說明前面很可能是一個(gè)組織者,組織者多半是一個(gè)命名實(shí)體。這就是基于條件隨機(jī)場(chǎng)做命名實(shí)體識(shí)別的奧秘,這就是命名實(shí)體的放射性

?

特征模板

前面講了放射性,那么設(shè)計(jì)特征模板就比較容易了,我們采用當(dāng)前位置的前后n個(gè)位置上的字/詞/字母/數(shù)字/標(biāo)點(diǎn)等作為特征,因?yàn)槭腔谝呀?jīng)標(biāo)注好的語料,所以這些特征是什么樣的詞性、詞形都是已知的。

特征模板的選擇是和具體我們要識(shí)別的實(shí)體類別有關(guān)系的,識(shí)別人名和識(shí)別機(jī)構(gòu)名用的特征模板是不一樣的,因?yàn)樗麄兊奶攸c(diǎn)就不一樣,事實(shí)上識(shí)別中文人名和識(shí)別英文人名用的特征模板也是不一樣的,因?yàn)樗麄兊奶攸c(diǎn)就不一樣

?

且說命名實(shí)體

前面講了一攬子原理,回過頭來講講命名實(shí)體是什么,命名實(shí)體包括:人名(政治家、藝人等)、地名(城市、州、國(guó)家、建筑等)、組織機(jī)構(gòu)名、時(shí)間、數(shù)字、專有名詞(電影名、書名、項(xiàng)目名、電話號(hào)碼等)、……。其實(shí)領(lǐng)域很多,不同人需求不一樣,關(guān)注的范圍也不一樣。總之不外乎命名性指稱、名詞性指稱和代詞性指稱

?

自古英雄周圍總有謀士

基于條件隨機(jī)場(chǎng)的命名實(shí)體方法雖好,但如何利用好還是需要各路謀士獻(xiàn)計(jì)獻(xiàn)策。有的人提出通過詞形上下文訓(xùn)練模型,也就是給定詞形上下文語境中產(chǎn)生實(shí)體的概率;有的人提出通過詞性上下文訓(xùn)練模型,也就是給定詞性上下文語境中產(chǎn)生實(shí)體的概率;有的人提出通過給定實(shí)體的詞形串作為實(shí)體的概率;有的人提出通過給定實(shí)體的詞性串作為實(shí)體的概率;當(dāng)大家發(fā)現(xiàn)這四點(diǎn)總有不足時(shí),有謀士提出:把四個(gè)結(jié)合起來!這真是:英雄代有人才出,能擺幾出擺幾出啊


二、自動(dòng)自動(dòng)標(biāo)注

??

分詞、命名實(shí)體識(shí)別和詞性標(biāo)注這三項(xiàng)技術(shù)如果達(dá)不到很高的水平,是難以建立起高性能的自然語言處理系統(tǒng),也就難以實(shí)現(xiàn)高質(zhì)量的聊天機(jī)器人,而詞性是幫助計(jì)算機(jī)理解語言含義的關(guān)鍵,本節(jié)來介紹一些詞性標(biāo)注的具體方法?

何為詞性

常說的詞性包括:名、動(dòng)、形、數(shù)、量、代、副、介、連、助、嘆、擬聲。但自然語言處理中要分辨的詞性要更多更精細(xì),比如:區(qū)別詞、方位詞、成語、習(xí)用語、機(jī)構(gòu)團(tuán)體、時(shí)間詞等,多達(dá)100多種。

漢語詞性標(biāo)注最大的困難是“兼類”,也就是一個(gè)詞在不同語境中有不同的詞性,而且很難從形式上識(shí)別。

?

詞性標(biāo)注過程

為了解決詞性標(biāo)注無法達(dá)到100%準(zhǔn)確的問題,詞性標(biāo)注一般要經(jīng)過“標(biāo)注”和“校驗(yàn)”兩個(gè)過程,第一步“標(biāo)注”根據(jù)規(guī)則或統(tǒng)計(jì)的方法做詞性標(biāo)注,第二步“校驗(yàn)”通過一致性檢查和自動(dòng)校對(duì)等方法來修正。

?

詞性標(biāo)注的具體方法

詞性標(biāo)注具體方法包括:基于統(tǒng)計(jì)模型的方法、基于規(guī)則的方法和兩者結(jié)合的方法。下面我們分別來介紹。

?

基于統(tǒng)計(jì)模型的詞性標(biāo)注方法

提到基于統(tǒng)計(jì)模型,勢(shì)必意味著我們要利用大量已經(jīng)標(biāo)注好的語料庫(kù)來做訓(xùn)練,同時(shí)要先選擇一個(gè)合適的訓(xùn)練用的數(shù)學(xué)模型,《自己動(dòng)手做聊天機(jī)器人 十五-一篇文章讀懂拿了圖靈獎(jiǎng)和諾貝爾獎(jiǎng)的概率圖模型》中我們介紹了概率圖模型中的隱馬爾科夫模型(HMM)比較適合詞性標(biāo)注這種基于觀察序列來做標(biāo)注的情形。語言模型選擇好了,下面要做的就是基于語料庫(kù)來訓(xùn)練模型參數(shù),那么我們模型參數(shù)初值如何設(shè)置呢?這里面就有技巧了

?

隱馬爾可夫模型參數(shù)初始化的技巧

模型參數(shù)初始化是在我們尚未利用語料庫(kù)之前用最小的成本和最接近最優(yōu)解的目標(biāo)來設(shè)定初值。HMM是一種基于條件概率的生成式模型,所以模型參數(shù)是生成概率,那么我們不妨就假設(shè)每個(gè)詞的生成概率就是它所有可能的詞性個(gè)數(shù)的倒數(shù),這個(gè)是計(jì)算最簡(jiǎn)單又最有可能接近最優(yōu)解的生成概率了。每個(gè)詞的所有可能的詞性是我們已經(jīng)有的詞表里標(biāo)記好的,這個(gè)詞表的生成方法就比較簡(jiǎn)單了,我們不是有已經(jīng)標(biāo)注好的語料庫(kù)嘛,很好統(tǒng)計(jì)。那么如果某個(gè)詞在詞表里沒有呢?這時(shí)我們可以把它的生成概率初值設(shè)置為0。這就是隱馬爾可夫模型參數(shù)初始化的技巧,總之原則就是用最小的成本和最接近最優(yōu)解的目標(biāo)來設(shè)定初值。一旦完成初始值設(shè)定后就可以利用前向后向算法進(jìn)行訓(xùn)練了。

請(qǐng)尊重原創(chuàng),轉(zhuǎn)載請(qǐng)注明來源網(wǎng)站www.shareditor.com以及原始鏈接地址

基于規(guī)則的詞性標(biāo)注方法

規(guī)則就是我們既定好一批搭配關(guān)系和上下文語境的規(guī)則,判斷實(shí)際語境符合哪一種則按照規(guī)則來標(biāo)注詞性。這種方法比較古老,適合于既有規(guī)則,對(duì)于兼詞的詞性識(shí)別效果較好,但不適合于如今網(wǎng)絡(luò)新詞層出不窮、網(wǎng)絡(luò)用語新規(guī)則的情況。于是乎,有人開始研究通過機(jī)器學(xué)習(xí)來自動(dòng)提取規(guī)則,怎么提取呢?不是隨便給一堆語料,它直接來生成規(guī)則,而是根據(jù)初始標(biāo)注器標(biāo)注出來的結(jié)果和人工標(biāo)注的結(jié)果的差距,來生成一種修正標(biāo)注的轉(zhuǎn)換規(guī)則,這是一種錯(cuò)誤驅(qū)動(dòng)的學(xué)習(xí)方法。基于規(guī)則的方法還有一個(gè)好處在于:經(jīng)過人工校總結(jié)出的大量有用信息可以補(bǔ)充和調(diào)整規(guī)則庫(kù),這是統(tǒng)計(jì)方法做不到的。

?

統(tǒng)計(jì)方法和規(guī)則方法相結(jié)合的詞性標(biāo)注方法

統(tǒng)計(jì)方法覆蓋面比較廣,新詞老詞通吃,常規(guī)非常規(guī)通吃,但對(duì)兼詞、歧義等總是用經(jīng)驗(yàn)判斷,效果不好。規(guī)則方法對(duì)兼詞、歧義識(shí)別比較擅長(zhǎng),但是規(guī)則總是覆蓋不全。因此兩者結(jié)合再好不過,先通過規(guī)則排歧,再通過統(tǒng)計(jì)標(biāo)注,最后經(jīng)過校對(duì),可以得到正確的標(biāo)注結(jié)果。在兩者結(jié)合的詞性標(biāo)注方法中,有一種思路可以充分發(fā)揮兩者優(yōu)勢(shì),避免劣勢(shì),就是首選統(tǒng)計(jì)方法標(biāo)注,同時(shí)計(jì)算計(jì)算它的置信度或錯(cuò)誤率,這樣來判斷是否結(jié)果是否可疑,在可疑情況下采用規(guī)則方法來進(jìn)行歧義消解,這樣達(dá)到最佳效果。

?

詞性標(biāo)注的校驗(yàn)

做完詞性標(biāo)注并沒有結(jié)束,需要經(jīng)過校驗(yàn)來確定正確性以及修正結(jié)果。

第一種校驗(yàn)方法就是檢查詞性標(biāo)注的一致性。一致性指的是在所有標(biāo)注的結(jié)果中,具有相同語境下同一個(gè)詞的標(biāo)注是否都相同,那么是什么原因?qū)е碌倪@種不一致呢?一種情況就是這類詞就是兼類詞,可能被標(biāo)記為不同詞性。另一種情況是非兼類詞,但是由于人工校驗(yàn)或者其他原因?qū)е聵?biāo)記為不同詞性。達(dá)到100%的一致性是不可能的,所以我們需要保證一致性處于某個(gè)范圍內(nèi),由于詞數(shù)目較多,詞性較多,一致性指標(biāo)無法通過某一種計(jì)算公式來求得,因此可以基于聚類和分類的方法,根據(jù)歐式距離來定義一致性指標(biāo),并設(shè)定一個(gè)閾值,保證一致性在閾值范圍內(nèi)。

第二種校驗(yàn)方法就是詞性標(biāo)注的自動(dòng)校對(duì)。自動(dòng)校對(duì)顧名思義就是不需要人參與,直接找出錯(cuò)誤的標(biāo)注并修正,這種方法更適用于一個(gè)詞的詞性標(biāo)注通篇全錯(cuò)的情況,因?yàn)檫@種情況基于數(shù)據(jù)挖掘和規(guī)則學(xué)習(xí)方法來做判斷會(huì)相對(duì)比較準(zhǔn)確。通過大規(guī)模訓(xùn)練語料來生成詞性校對(duì)決策表,然后根據(jù)這個(gè)決策表來找通篇全錯(cuò)的詞性標(biāo)注并做自動(dòng)修正。

?

總結(jié)

詞性標(biāo)注的方法主要有基于統(tǒng)計(jì)和基于規(guī)則的方法,另外還包括后期校驗(yàn)的過程。詞性標(biāo)注是幫助計(jì)算機(jī)理解語言含義的關(guān)鍵,有了詞性標(biāo)注,我們才可以進(jìn)一步確定句法和語義,才有可能讓機(jī)器理解語言的含義,才有可能實(shí)現(xiàn)聊天機(jī)器人的夢(mèng)想


創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的命名实体识别以及词性自动标注的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。