當前位置：首頁 > 编程语言 > python >内容正文

python

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3　语句分离器

發(fā)布時間：2025/1/21 python 113 豆豆

生活随笔收集整理的這篇文章主要介紹了《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3　语句分离器小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本節(jié)書摘來異步社區(qū)《NLTK基礎教程——用NLTK和Python庫構建機器學習應用》一書中的第2章，第2.3節(jié)，作者：Nitin Hardeniya，更多章節(jié)內容可以訪問云棲社區(qū)“異步社區(qū)”公眾號查看。

2.3　語句分離器

在某些NLP應用中，我們常常需要將一大段原生文本分割成一系列的語句，以便從中獲取更多有意義的信息。直觀地說，就是讓語句成為一個可用的交流單元。當然，要想在計算機上實現這個任務可比它看上去要困難得多了。典型的語句分離器既可能是（.）[1]這樣簡單的字符串分割符，也有可能是某種預置分類器這樣復雜的語句邊界標識：

>>>inputstring = ' This is an example sent. The sentence splitter will split on sent markers. Ohh really !!' >>>from nltk.tokenize import sent_tokenize >>>all_sent = sent_tokenize(inputstring) >>>print all_sent [' This is an example sent', 'The sentence splitter will split on markers.','Ohh really !!']

在這里，我們正試著將原生文本字符串分割到一個語句列表中。用的是預處理函數sent_tokenize()，這是一個內置在NLTK庫中的語句邊界檢測算法。當然，如果我們在應用中需要自定義一個語句分離器的話，也可以用以下方式來訓練出屬于自己的語句分離器：

>>>import nltk.tokenize.punkt >>>tokenizer = nltk.tokenize.punkt.PunktSentenceTokenizer()

該預置語句分離器可以支持17種語言。我們只需要為其指定相關的配方對象即可。根據我的經驗，這里只要提供一個相關種類的文本語料就已經足夠了，而且實際上也很少有機會需要我們自己來構建這些內容。

總結

以上是生活随笔為你收集整理的《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3　语句分离器的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：《玩转微信6.0》一1.2　微信初体验
下一篇： python模块之re正则表达式

python

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器

2.3 語句分離器

總結

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3　语句分离器

2.3　語句分離器