日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器

發(fā)布時間:2025/1/21 python 113 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本節(jié)書摘來異步社區(qū)《NLTK基礎教程——用NLTK和Python庫構建機器學習應用》一書中的第2章,第2.3節(jié),作者:Nitin Hardeniya,更多章節(jié)內容可以訪問云棲社區(qū)“異步社區(qū)”公眾號查看。

2.3 語句分離器

在某些NLP應用中,我們常常需要將一大段原生文本分割成一系列的語句,以便從中獲取更多有意義的信息。直觀地說,就是讓語句成為一個可用的交流單元。當然,要想在計算機上實現這個任務可比它看上去要困難得多了。典型的語句分離器既可能是(.)[1]這樣簡單的字符串分割符,也有可能是某種預置分類器這樣復雜的語句邊界標識:

>>>inputstring = ' This is an example sent. The sentence splitter will split on sent markers. Ohh really !!' >>>from nltk.tokenize import sent_tokenize >>>all_sent = sent_tokenize(inputstring) >>>print all_sent [' This is an example sent', 'The sentence splitter will split on markers.','Ohh really !!']

在這里,我們正試著將原生文本字符串分割到一個語句列表中。用的是預處理函數sent_tokenize(),這是一個內置在NLTK庫中的語句邊界檢測算法。當然,如果我們在應用中需要自定義一個語句分離器的話,也可以用以下方式來訓練出屬于自己的語句分離器:

>>>import nltk.tokenize.punkt >>>tokenizer = nltk.tokenize.punkt.PunktSentenceTokenizer()

該預置語句分離器可以支持17種語言。我們只需要為其指定相關的配方對象即可。根據我的經驗,這里只要提供一個相關種類的文本語料就已經足夠了,而且實際上也很少有機會需要我們自己來構建這些內容。

總結

以上是生活随笔為你收集整理的《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。