日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

nltk 文本预处理

發布時間:2025/4/5 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 nltk 文本预处理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

分詞

from nltk import word_tokenize sentence = """ 3w.ναdΜāιι.com Provide you with a professional platform for the sale and purchase of virtual products for games. Welcome to settle in 3w.ναdΜāιι.com loving cats geese goods """ token_words = word_tokenize(sentence) print(token_words) ['3w.ναdΜāιι.com', 'Provide', 'you', 'with', 'a', 'professional', 'platform', 'for', 'the', 'sale', 'and', 'purchase', 'of', 'virtual', 'products', 'for', 'games', '.', 'Welcome', 'to', 'settle', 'in', '3w.ναdΜāιι.com', 'loving', 'cats', 'geese', 'goods']

詞根提取 ,如 ‘Provide’ 變成詞根’provid’

from nltk.stem.lancaster import LancasterStemmer lancaster_stemmer = LancasterStemmer() words_stemmer = [lancaster_stemmer.stem(token_word) for token_word in token_words] print(words_stemmer) ['3w.ναdμāιι.com', 'provid', 'you', 'with', 'a', 'profess', 'platform', 'for', 'the', 'sal', 'and', 'purchas', 'of', 'virt', 'produc', 'for', 'gam', '.', 'welcom', 'to', 'settl', 'in', '3w.ναdμāιι.com', 'lov', 'cat', 'gees', 'good']

單詞變體還原,‘geese’ 變成 ‘goose’

from nltk.stem import WordNetLemmatizer wordnet_lematizer = WordNetLemmatizer() words_lematizer = [wordnet_lematizer.lemmatize(token_word) for token_word in token_words] print(words_lematizer) ['3w.ναdΜāιι.com', 'Provide', 'you', 'with', 'a', 'professional', 'platform', 'for', 'the', 'sale', 'and', 'purchase', 'of', 'virtual', 'product', 'for', 'game', '.', 'Welcome', 'to', 'settle', 'in', '3w.ναdΜāιι.com', 'loving', 'cat', 'goose', 'good']

詞性標注

from nltk import word_tokenize,pos_tag #sentence = "DBSCAN - Density-Based Spatial Clustering of Applications with Noise. Finds core samples of high density and expands clusters from them. Good for data which contains clusters of similar density" token_word = word_tokenize(sentence) #分詞 token_words = pos_tag(token_word) #詞性標注 print(token_words) [('3w.ναdΜāιι.com', 'CD'), ('Provide', 'NNP'), ('you', 'PRP'), ('with', 'IN'), ('a', 'DT'), ('professional', 'JJ'), ('platform', 'NN'), ('for', 'IN'), ('the', 'DT'), ('sale', 'NN'), ('and', 'CC'), ('purchase', 'NN'), ('of', 'IN'), ('virtual', 'JJ'), ('products', 'NNS'), ('for', 'IN'), ('games', 'NNS'), ('.', '.'), ('Welcome', 'NNP'), ('to', 'TO'), ('settle', 'VB'), ('in', 'IN'), ('3w.ναdΜāιι.com', 'CD'), ('loving', 'VBG'), ('cats', 'NNS'), ('geese', 'JJ'), ('goods', 'NNS')]

詞形歸一化,loving 變成love

from nltk.stem import WordNetLemmatizer words_lematizer = [] wordnet_lematizer = WordNetLemmatizer() for word, tag in token_words:if tag.startswith('NN'):word_lematizer = wordnet_lematizer.lemmatize(word, pos='n') # n代表名詞elif tag.startswith('VB'): word_lematizer = wordnet_lematizer.lemmatize(word, pos='v') # v代表動詞elif tag.startswith('JJ'): word_lematizer = wordnet_lematizer.lemmatize(word, pos='a') # a代表形容詞elif tag.startswith('R'): word_lematizer = wordnet_lematizer.lemmatize(word, pos='r') # r代表代詞else: word_lematizer = wordnet_lematizer.lemmatize(word)words_lematizer.append(word_lematizer) print(words_lematizer) ['3w.ναdΜāιι.com', 'Provide', 'you', 'with', 'a', 'professional', 'platform', 'for', 'the', 'sale', 'and', 'purchase', 'of', 'virtual', 'product', 'for', 'game', '.', 'Welcome', 'to', 'settle', 'in', '3w.ναdΜāιι.com', 'love', 'cat', 'geese', 'good']

去除停用詞

from nltk.corpus import stopwords cleaned_words = [word for word in words_lematizer if word not in stopwords.words('english')] print('原始詞:', words_lematizer) print('去除停用詞后:', cleaned_words) 原始詞: ['3w.ναdΜāιι.com', 'Provide', 'you', 'with', 'a', 'professional', 'platform', 'for', 'the', 'sale', 'and', 'purchase', 'of', 'virtual', 'product', 'for', 'game', '.', 'Welcome', 'to', 'settle', 'in', '3w.ναdΜāιι.com', 'love', 'cat', 'geese', 'good'] 去除停用詞后: ['3w.ναdΜāιι.com', 'Provide', 'professional', 'platform', 'sale', 'purchase', 'virtual', 'product', 'game', '.', 'Welcome', 'settle', '3w.ναdΜāιι.com', 'love', 'cat', 'geese', 'good']

去除特殊字符

characters = [',', '.','DBSCAN', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%','-','...','^','{','}'] words_list = [word for word in cleaned_words if word not in characters] print(words_list) ['3w.ναdΜāιι.com', 'Provide', 'professional', 'platform', 'sale', 'purchase', 'virtual', 'product', 'game', 'Welcome', 'settle', '3w.ναdΜāιι.com', 'love', 'cat', 'geese', 'good']

大小寫轉換

words_lists = [x.lower() for x in words_list ] print(words_lists) ['3w.ναdμāιι.com', 'provide', 'professional', 'platform', 'sale', 'purchase', 'virtual', 'product', 'game', 'welcome', 'settle', '3w.ναdμāιι.com', 'love', 'cat', 'geese', 'good']

統計詞頻

from nltk import FreqDist freq = FreqDist(words_lists) for key,val in freq.items():print (str(key) + ':' + str(val)) 3w.ναdμāιι.com:2 provide:1 professional:1 platform:1 sale:1 purchase:1 virtual:1 product:1 game:1 welcome:1 settle:1 love:1 cat:1 geese:1 good:1

折線圖

freq.plot(20,cumulative=False)

詞云

words = ' '.join(words_lists)from wordcloud import WordCloud from imageio import imread import matplotlib.pyplot as plt pic = imread('./mm.jpg') wc = WordCloud(mask = pic,background_color = 'white',width=800, height=600) wwc = wc.generate(words) plt.figure(figsize=(10,10)) plt.imshow(wwc) plt.axis("off") plt.show()

詞云背景圖

詞云圖

參考鏈接

總結

以上是生活随笔為你收集整理的nltk 文本预处理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 以女性视角写的高h爽文 | 99精品福利| 一本高清dvd在线播放 | 亚洲在线免费观看 | 国产传媒第一页 | 俄罗斯porn | 97视频在线观看免费高清完整版在线观看 | 国产精品欧美大片 | videos另类灌满极品另类 | 日干夜操 | 男生插女生视频在线观看 | 香蕉伊人 | 综合色在线视频 | 国产一区二区99 | 国产又猛又黄 | 日韩在线视频一区 | 中文字幕一区二区人妻痴汉电车 | 午夜爽爽爽视频 | 91精品网站| 探花国产精品一区二区 | 成人久久久精品乱码一区二区三区 | 国产又粗又黄又猛 | 亚洲高清中文字幕 | 成人精品水蜜桃 | 亚洲综合另类 | 日本一区二区三区在线免费观看 | 大学生一级一片全黄 | 国产精品久久久久久福利 | 182tv午夜| 中文字幕乱码无码人妻系列蜜桃 | 国产视频一区二区三 | 青青免费在线视频 | 男女在线观看视频 | 又黄又爽一区二区三区 | 99只有精品 | 精久久久久久久 | 在线中文字幕观看 | 波多野结衣精品在线 | 九九九热视频 | 国产成人精品视频在线观看 | 在线观看av网页 | 国产美女被草 | 亚洲乱熟女一区二区 | 日本一道本在线 | 欧美日韩国产一级 | 男人天堂av网站 | 亚洲另类av | 天天干,天天操 | 三级影片在线免费观看 | 丰满少妇av | www.777奇米 | 亚洲天堂高清 | 韩国伦理电影免费在线 | 老司机深夜福利视频 | 日本三级理论片 | 日韩v | 亚洲AV无码精品色毛片浪潮 | 亚洲日本中文字幕 | 少妇高潮网站 | 钰慧的mv视频在线观看 | 午夜剧场免费在线观看 | 亚洲女优视频 | 国产精品人人做人人爽人人添 | 91成人在线观看喷潮蘑菇 | 亚洲高清网站 | 欧美在线色视频 | 午夜tv影院 | 毛片免费播放 | 色热热| 欧美国产一区二区三区 | 第一区免费在线观看 | 国产理论| 精品国产乱码久久久久久浪潮 | 制服诱惑一区二区 | 中国1级毛片 | 日韩福利在线视频 | 亚洲一线在线观看 | 亚洲制服丝袜在线播放 | 国产日韩av在线播放 | 97视频网站 | 自拍99 | 警察高h荡肉呻吟男男 | 国产成人无码网站 | 97麻豆| 色多多黄色 | 亚洲图片欧美视频 | 中国毛片在线观看 | 久久久国产成人一区二区三区 | 黄色资源在线 | av丝袜天堂 | 德国性猛交xxxxhd | 中文在线а√天堂官网 | 国产精品视频久久 | 91视频导航 | 五月婷婷久久久 | 中文字幕精品无 | 国产av精国产传媒 | 在线不卡视频 | 猫咪av网|