《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器
生活随笔
收集整理的這篇文章主要介紹了
《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
本節(jié)書摘來異步社區(qū)《NLTK基礎教程——用NLTK和Python庫構建機器學習應用》一書中的第2章,第2.3節(jié),作者:Nitin Hardeniya,更多章節(jié)內容可以訪問云棲社區(qū)“異步社區(qū)”公眾號查看。
2.3 語句分離器
在某些NLP應用中,我們常常需要將一大段原生文本分割成一系列的語句,以便從中獲取更多有意義的信息。直觀地說,就是讓語句成為一個可用的交流單元。當然,要想在計算機上實現這個任務可比它看上去要困難得多了。典型的語句分離器既可能是(.)[1]這樣簡單的字符串分割符,也有可能是某種預置分類器這樣復雜的語句邊界標識:
>>>inputstring = ' This is an example sent. The sentence splitter will split on sent markers. Ohh really !!' >>>from nltk.tokenize import sent_tokenize >>>all_sent = sent_tokenize(inputstring) >>>print all_sent [' This is an example sent', 'The sentence splitter will split on markers.','Ohh really !!']在這里,我們正試著將原生文本字符串分割到一個語句列表中。用的是預處理函數sent_tokenize(),這是一個內置在NLTK庫中的語句邊界檢測算法。當然,如果我們在應用中需要自定義一個語句分離器的話,也可以用以下方式來訓練出屬于自己的語句分離器:
>>>import nltk.tokenize.punkt >>>tokenizer = nltk.tokenize.punkt.PunktSentenceTokenizer()該預置語句分離器可以支持17種語言。我們只需要為其指定相關的配方對象即可。根據我的經驗,這里只要提供一個相關種類的文本語料就已經足夠了,而且實際上也很少有機會需要我們自己來構建這些內容。
總結
以上是生活随笔為你收集整理的《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《玩转微信6.0》一1.2 微信初体验
- 下一篇: python模块之re正则表达式