日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文分词后去除停用词

發布時間:2024/3/13 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中文分词后去除停用词 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?中文分詞后去除停用詞

?當我們利用jieba進行中文分詞時,主要是句子中出現的詞語都會被劃分,而有些詞語是沒有實際意思的,對于后續的關鍵詞提取就會加大工作量,并且可能提取的關鍵詞是無效的。所以在分詞處理以后,我們便會引入停用詞去優化分詞的結果。
?對于停用詞,我們可以自己手動添加到一個txt文件中,然后在需要時導入文件,也可以利用已經整理好的停用詞表,這樣就會方便很多。當然,在已有的停用詞表基礎上,如果我們還有一些詞語不需要,也可以自己完善停用詞表。
?下載停用詞表請戳:stop_words.txt,提取碼:3si7

看實例:

import jiebadef stopwordslist(filepath): # 定義函數創建停用詞列表stopword = [line.strip() for line in open(filepath, 'r').readlines()] #以行的形式讀取停用詞表,同時轉換為列表return stopworddef cutsentences(sentences): #定義函數實現分詞print('原句子為:'+ sentences)cutsentence = jieba.lcut(sentences.strip()) #精確模式print ('\n'+'分詞后:'+ "/ ".join(cutsentence)) stopwords = stopwordslist(filepath) # 這里加載停用詞的路徑lastsentences = ''for word in cutsentence: #for循環遍歷分詞后的每個詞語if word not in stopwords: #判斷分詞后的詞語是否在停用詞表內if word != '\t':lastsentences += wordlastsentences += "/ "print('\n'+'去除停用詞后:'+ lastsentences) filepath= 'D:/大學工作所做文檔/學習資料/畢業設計學習準備/資料參考/stop_words.txt' sentences = '萬里長城是中國古代勞動人民血汗的結晶和中國古代文化的象征和中華民族的驕傲' stopwordslist(filepath) cutsentences(sentences)

運行結果:

原句子為:萬里長城是中國古代勞動人民血汗的結晶和中國古代文化的象征和中華民族的驕傲分詞后:萬里長城/ 是/ 中國/ 古代/ 勞動/ 人民/ 血汗/ 的/ 結晶/ 和/ 中國/ 古代/ 文化/ 的/ 象征/ 和/ 中華民族/ 的/ 驕傲去除停用詞后:萬里長城/ 中國/ 古代/ 勞動/ 血汗/ 結晶/ 中國/ 古代/ 文化/ 象征/ 中華民族/ 驕傲/

希望可以幫助到你,謝謝你的閱讀!

總結

以上是生活随笔為你收集整理的中文分词后去除停用词的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。