Keras命名体识别(NER)实战---自然语言处理技术
命名體識(shí)別(Name Entity Recognition)是自然語言處理(Nature Language Processing)領(lǐng)域中比較重要的一個(gè)任務(wù),幾乎百分之50的和文本處理有關(guān)的項(xiàng)目中都會(huì)涉及到命名體識(shí)別。筆者認(rèn)為其中最關(guān)鍵的原因是:從廣義的角度來講,如果把一句話比作一串珍珠的話,命名實(shí)體就是這串珍珠項(xiàng)鏈中的珍珠,句子的其他部分是把珍珠串起來的線。
舉個(gè)例子: "小明在1992年從哈佛大學(xué)畢業(yè) "
其中小明,1992年,哈佛大學(xué)都是命名實(shí)體,而這些實(shí)體包含了這句話里面的極為重要信息:人物信息,時(shí)間信息,還有組織信息。而其他的詞將這些實(shí)體串起來,才能表達(dá)出這句話完整的語義。
而在一些專業(yè)領(lǐng)域,比如化學(xué),醫(yī)藥領(lǐng)域,經(jīng)常出現(xiàn)一些四氧化三鐵,阿爾茲海默癥等專業(yè)詞匯,如果只通過簡(jiǎn)單的分詞很難將這些重要的關(guān)鍵詞匯識(shí)別出來。而在這樣的場(chǎng)景下,NER就能發(fā)揮出它的威力了。
總而言之,NER 的任務(wù)就是要將這些包含信息的或者專業(yè)領(lǐng)域的實(shí)體給識(shí)別出來。這個(gè)過程是不是很像在一串珍珠項(xiàng)鏈里面識(shí)別出寶貴的珍珠(這個(gè)比喻筆者覺得只能算湊合)。
NER任務(wù)簡(jiǎn)介
NER是一個(gè)序列標(biāo)注任務(wù),和分詞,詞性標(biāo)注的任務(wù)屬同一類。任務(wù)的輸入是一串序列,輸出也是一串序列。例子如下:
輸入:[北,京,天,氣,真,不,錯(cuò)]
輸出:[1,2,0,0,0
總結(jié)
以上是生活随笔為你收集整理的Keras命名体识别(NER)实战---自然语言处理技术的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于 Kafka 与 Debezium
- 下一篇: 产品运营必须知道的几个概念,如何进行网页