日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

英文文本分词之工具NLTK

發布時間:2023/12/15 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 英文文本分词之工具NLTK 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

英文文本分詞之工具NLTK

  • 安裝NLTK
  • 停用詞和標點符號包放置
  • 驗證

安裝NLTK

pip install nltk

分詞需要用到兩個包:stopwords和punkt,需要下載:

import nltknltk.download('stopwords') nltk.download('punkt')

如果你能運行成功,那么恭喜,但多半要和我一樣,被墻,然后下載失敗。于是乎,需要手動下載,這里我已經打包好了,百度提取即可。

鏈接:https://pan.baidu.com/s/1ddVRG86W-dyk2O6TsIMXAw 提取碼:nltk

此處也是要感激廣大網友的無私分享和幫助!!!

停用詞和標點符號包放置

言歸正傳,下載解壓后要注意,stopwords里面還有個stopwords文件,punkt文件里面還有個punkt文件,我們需要的是里面的這兩個文件,而不是最外圍的同名文件,雖然包含的內容一樣,但是python讀取的時候路徑會出錯。將里面的stopwords和punkt文件夾分別移動到python安裝目錄下的兩個子路徑中,比如我的路徑是F:\python38\Lib\nltk_data\corpora和F:\python38\Lib\nltk_data\tokenizers。需要說明的是,我的F:\python38\Lib路徑下并沒有nltk_data這個文件,沒有?沒有就讓他有!新建文件夾,重命名即可。
然后在nltk_data中再新建兩個文件夾:corpora和tokenizers。然后把停用詞和標點分別移動到這兩個文件里即可,亦即:corpora\stopwords和tokenizers\punkt。

驗證

此處提供一段驗證代碼,明日開始nltk分詞之旅!

from nltk.tokenize import word_tokenize from nltk.corpus import stopwordspunctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%'] data = "All work and no play makes jack dull boy. All work and no play makes jack a dull boy." words = word_tokenize(data) words = [word for word in words if word not in punctuations] # 去除標點符號 stopWords = set(stopwords.words('english')) wordsFiltered = []for w in words:if w not in stopWords:wordsFiltered.append(w)print(wordsFiltered)

完結,可以愉快地聽歌了。

總結

以上是生活随笔為你收集整理的英文文本分词之工具NLTK的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。