日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

jieba库词频统计_网购评论之词频分析

發布時間:2024/9/3 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 jieba库词频统计_网购评论之词频分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

日常數據分析中,詞頻分析是一個很好的文本挖掘方法,這篇文章說說詞頻分析方法。

這里選用京東商場中購買手機的部分數據信息,利用jieba詞庫對購物評論進行分詞,提取客戶群體對手機的關注點。

數據集來源:https://www.kesci.com/home/project/5ece06fb12fba90036cf26bd/dataset

1.導出所需庫

#導入所需基本包 import pandas as pd # 導入擴展庫 import re # 正則表達式庫 import jieba # 結巴分詞 import jieba.posseg # 詞性獲取 import collections # 詞頻統計庫

2.導入文件

#導入數據集 data = pd.read_csv('C:/Users/dwhyx/Downloads/data/京東評論數據.csv') #查看數據基本情況 data.info()

共21個字段,基本上購物平臺后臺基本字段,如:sku_id,item_name(商品名稱),content(評論),creation_time(創建時間),其中content是我們本次主要分析對象。

#預覽文件,展示前3行 data.head(3)

通過對文件預覽,可以對整個數據集有更加直觀了解。(若對本數據集涉及的字段比較熟悉,可以省略,這里方便第一次接觸網購后臺數據的同學)

3.合并文本單元格

content= ("".join(i for i in data['content'])) #利用循環語句合并文本

這里只分析首次評論(content),暫不考慮用戶追加的評論(after_user_comment)。

4.文本處理

#預處理 pattern = re.compile(u't|n|.|-|:|;|)|(|?| |"') # 定義正則表達式匹配模式(空格等) string_data = re.sub(pattern, '', content) # 將符合模式的字符去除#文本分詞 seg_list_exact = jieba.cut(string_data, cut_all=False, HMM=True) # 精確模式分詞+HMM object_list = []#獲取停用詞 with open(r'C:/Users/dwhyx/Downloads/data/中文停用詞庫.txt', encoding='gbk') as file:stopwords = [x.strip() for x in file.readlines()]#去除停用詞(目的是去掉一些意義不大的詞) for word in seg_list_exact: # 循環讀出每個分詞if word not in stopwords: # 如果不在去除詞庫中object_list.append(word) # 分詞追加到列表

5.詞頻統計

word_counts = collections.Counter(object_list) # 對分詞做詞頻統計 word_counts_top = word_counts.most_common(100) # 獲取前100個最高頻的詞 print(word_counts_top)

輸入結果如下:

如果想把結果保存為Excel表格,可以將字典形式轉化為列表,寫入Excel。

import csv Excel = open("評論詞頻分析.csv", 'w', newline = '') #打開表格文件,若表格文件不存在則創建 write = csv.writer(Excel) #創建一個csv的writer對象用于寫每一行內容 write.writerow(['詞語','出現次數']) #寫表格表頭 item = list(word_counts.items()) #將字典轉化為列表格式 item.sort(key = lambda x: x[1], reverse = True) #對列表按照第二列進行排序 for i in range(100):write.writerow(item[i]) #把前100詞語寫入表格

Excel只截取部分

6.詞頻分析

從前100個高頻關鍵詞中看出,“不錯”出現了1294次,說明這批手機訂單客戶評價對商品較為滿意。這點也可以結合數據集中score(評分)字段,繪制直方圖發現5分好評占絕大部分。

其次,我們能看出“速度”、“屏幕”、“電池”、“好看”、“內存”、“質量”、“攝像頭”等高頻詞語,說明客戶對手機運行的速度,電池容量大小,手機外觀、內存等配置還是比較在意的,廠商可以針對這些客戶的關注點,更好的改進,優化。

最后,評論中出現“小米”、“華為”、“蘋果”等字眼,因為本數據集item_name(商品名稱)已脫敏,不太清楚具體每個訂單銷售的手機品牌,評論中出現各手機品牌,可能是本訂單是相關品牌手機,也有可能評論中與其他手機品牌對比。我們可以通過關鍵詞匹配,查詢具體評論內容,進行瀏覽閱讀,這里以搜索“小米”相關評論內容為例。

為了讓print內容完全展示,便于閱讀,可以對pandas展示列表進行設置

總結

詞頻挖掘分析在運營中用處很多,比如,某款新上產品,想要了解新產品具體情況,可以跟蹤分析發布后一個月的app評論或網上爬取貼吧論壇等相關文章,分析客戶的關注點和反饋比較多的問題,針對客戶關注點可以側重的優化,對反饋比較的問題優先解決。運營中也可以根據時間序列對評論進行分析,分析運營過程中客戶關注點的變動,及時把握客戶心理等變化。畢竟市場是檢驗需要的唯一標準。

總結

以上是生活随笔為你收集整理的jieba库词频统计_网购评论之词频分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。