日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

基于Python分析实现酒店评论的中文情感

發(fā)布時(shí)間:2023/12/10 python 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基于Python分析实现酒店评论的中文情感 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

資源下載地址:https://download.csdn.net/download/sheziqiong/85820698
資源下載地址:https://download.csdn.net/download/sheziqiong/85820698

1 開(kāi)發(fā)環(huán)境準(zhǔn)備

1.1 Python環(huán)境

在python官網(wǎng)https://www.python.org/downloads/ 下載計(jì)算機(jī)對(duì)應(yīng)的python版本,本人使用的是Python2.7.13的版本。

1.2 第三方模塊

本實(shí)例代碼的實(shí)現(xiàn)使用到了多個(gè)著名的第三方模塊,主要模塊如下所示:

  • 1)Jieba
    目前使用最為廣泛的中文分詞組件。下載地址:https://pypi.python.org/pypi/jieba/
  • 2)Gensim
    用于主題模型、文檔索引和大型語(yǔ)料相似度索引的python庫(kù),主要用于自然語(yǔ)言處理(NLP)和信息檢索(IR)。下載地址:https://pypi.python.org/pypi/gensim
    本實(shí)例中的維基中文語(yǔ)料處理和中文詞向量模型構(gòu)建需要用到該模塊。
  • 3)Pandas
    用于高效處理大型數(shù)據(jù)集、執(zhí)行數(shù)據(jù)分析任務(wù)的python庫(kù),是基于Numpy的工具包。下載地址:https://pypi.python.org/pypi/pandas/0.20.1
  • 4)Numpy
    用于存儲(chǔ)和處理大型矩陣的工具包。下載地址:https://pypi.python.org/pypi/numpy
  • 5)Scikit-learn
    用于機(jī)器學(xué)習(xí)的python工具包,python模塊引用名字為sklearn,安裝前還需要Numpy和Scipy兩個(gè)Python庫(kù)。官網(wǎng)地址:http://scikit-learn.org/stable/
  • 6)Matplotlib
    Matplotlib是一個(gè)python的圖形框架,用于繪制二維圖形。下載地址:https://pypi.python.org/pypi/matplotlib
  • 7)Tensorflow
    Tensorflow是一個(gè)采用數(shù)據(jù)流圖用于數(shù)值計(jì)算的開(kāi)源軟件庫(kù),用于人工智能領(lǐng)域。
    官網(wǎng)地址:http://www.tensorfly.cn/
    下載地址:https://pypi.python.org/pypi/tensorflow/1.1.0

2 數(shù)據(jù)獲取

2.1 停用詞詞典

本文使用中科院計(jì)算所中文自然語(yǔ)言處理開(kāi)放平臺(tái)發(fā)布的中文停用詞表,包含了1208個(gè)停用詞。下載地址:http://www.hicode.cc/download/view-software-13784.html

2.2 正負(fù)向語(yǔ)料庫(kù)

文本從http://www.datatang.com/data/11936 下載“有關(guān)中文情感挖掘的酒店評(píng)論語(yǔ)料”作為訓(xùn)練集與測(cè)試集,該語(yǔ)料包含了4種語(yǔ)料子集,本文選用正負(fù)各1000的平衡語(yǔ)料(ChnSentiCorp_htl_ba_2000)作為數(shù)據(jù)集進(jìn)行分析。

3 數(shù)據(jù)預(yù)處理

3.1 正負(fù)向語(yǔ)料預(yù)處理

下載并解壓ChnSentiCorp_htl_ba_2000.rar文件,得到的文件夾中包含neg(負(fù)向語(yǔ)料)和pos(正向語(yǔ)料)兩個(gè)文件夾,而文件夾中的每一篇評(píng)論為一個(gè)txt文檔,為了方便之后的操作,需要把正向和負(fù)向評(píng)論分別規(guī)整到對(duì)應(yīng)的一個(gè)txt文件中,即正向語(yǔ)料的集合文檔(命名為2000_pos.txt)和負(fù)向語(yǔ)料的集合文檔(命名為2000_neg.txt)。
具體Python實(shí)現(xiàn)代碼如下所示:

運(yùn)行完成后得到2000_pos.txt和2000_neg.txt兩個(gè)文本文件,分別存放正向評(píng)論和負(fù)向評(píng)論,每篇評(píng)論為一行。文檔部分截圖如下所示:

3.2 中文文本分詞

本文采用結(jié)巴分詞分別對(duì)正向語(yǔ)料和負(fù)向語(yǔ)料進(jìn)行分詞處理。特別注意,在執(zhí)行代碼前需要把txt源文件手動(dòng)轉(zhuǎn)化成UTF-8格式,否則會(huì)報(bào)中文編碼的錯(cuò)誤。在進(jìn)行分詞前,需要對(duì)文本進(jìn)行去除數(shù)字、字母和特殊符號(hào)的處理,使用python自帶的stringre模塊可以實(shí)現(xiàn),其中string模塊用于處理字符串操作,re模塊用于正則表達(dá)式處理。
具體實(shí)現(xiàn)代碼如下所示:

處理完成后,得到2000_pos_cut.txt和2000_neg_cut.txt兩個(gè)txt文件,分別存放正負(fù)向語(yǔ)料分詞后的結(jié)果。分詞結(jié)果部分截圖如下所示:

3.3 去停用詞

分詞完成后,即可讀取停用詞表中的停用詞,對(duì)分詞后的正負(fù)向語(yǔ)料進(jìn)行匹配并去除停用詞。去除停用詞的步驟非常簡(jiǎn)單,主要有兩個(gè):

  • 1)讀取停用詞表;
  • 2)遍歷分詞后的句子,將每個(gè)詞丟到此表中進(jìn)行匹配,若停用詞表存在則替換為空。

具體實(shí)現(xiàn)代碼如下所示:

根據(jù)代碼所示,停用詞表的獲取使用到了python特有的廣播形式,一句代碼即可搞定:

stopkey = [w.strip() for w in codecs.open('data\stopWord.txt', 'r', encoding='utf-8').readlines()]

讀取出的每一個(gè)停用詞必須要經(jīng)過(guò)去符號(hào)處理即w.strip(),因?yàn)樽x取出的停用詞還包含有換行符和制表符,如果不處理則匹配不上。代碼執(zhí)行完成后,得到2000_neg_cut_stopword.txt和2000_pos_cut_stopword.txt兩個(gè)txt文件。

由于去停用詞的步驟是在句子分詞后執(zhí)行的,因此通常與分詞操作在同一個(gè)代碼段中進(jìn)行,即在句子分詞操作完成后直接調(diào)用去停用詞的函數(shù),并得到去停用詞后的結(jié)果,再寫入結(jié)果文件中。本文是為了便于步驟的理解將兩者分開(kāi)為兩個(gè)代碼文件執(zhí)行,各位可根據(jù)自己的需求進(jìn)行調(diào)整。

3.4 獲取特征詞向量

根據(jù)以上步驟得到了正負(fù)向語(yǔ)料的特征詞文本,而模型的輸入必須是數(shù)值型數(shù)據(jù),因此需要將每條由詞語(yǔ)組合而成的語(yǔ)句轉(zhuǎn)化為一個(gè)數(shù)值型向量。常見(jiàn)的轉(zhuǎn)化算法有Bag of Words(BOW)、TF-IDF、Word2Vec。本文采用Word2Vec詞向量模型將語(yǔ)料轉(zhuǎn)換為詞向量。

由于特征詞向量的抽取是基于已經(jīng)訓(xùn)練好的詞向量模型,而wiki中文語(yǔ)料是公認(rèn)的大型中文語(yǔ)料,本文擬從wiki中文語(yǔ)料生成的詞向量中抽取本文語(yǔ)料的特征詞向量。Wiki中文語(yǔ)料的Word2vec模型訓(xùn)練在之前寫過(guò)的一篇文章“利用Python實(shí)現(xiàn)wiki中文語(yǔ)料的word2vec模型構(gòu)建” 中做了詳盡的描述,在此不贅述。即本文從文章最后得到的wiki.zh.text.vector中抽取特征詞向量作為模型的輸入。

獲取特征詞向量的主要步驟如下:

  • 1)讀取模型詞向量矩陣;
  • 2)遍歷語(yǔ)句中的每個(gè)詞,從模型詞向量矩陣中抽取當(dāng)前詞的數(shù)值向量,一條語(yǔ)句即可得到一個(gè)二維矩陣,行數(shù)為詞的個(gè)數(shù),列數(shù)為模型設(shè)定的維度;
  • 3)根據(jù)得到的矩陣計(jì)算矩陣均值作為當(dāng)前語(yǔ)句的特征詞向量;
  • 4)全部語(yǔ)句計(jì)算完成后,拼接語(yǔ)句類別代表的值,寫入csv文件中。

主要代碼如下圖所示:

代碼執(zhí)行完成后,得到一個(gè)名為2000_data.csv的文件,第一列為類別對(duì)應(yīng)的數(shù)值(1-pos, 0-neg),第二列開(kāi)始為數(shù)值向量,每一行代表一條評(píng)論。結(jié)果的部分截圖如下所示:

3.5 降維

Word2vec模型設(shè)定了400的維度進(jìn)行訓(xùn)練,得到的詞向量為400維,本文采用PCA算法對(duì)結(jié)果進(jìn)行降維。具體實(shí)現(xiàn)代碼如下所示:

運(yùn)行代碼,根據(jù)結(jié)果圖發(fā)現(xiàn)前100維就能夠較好的包含原始數(shù)據(jù)的絕大部分內(nèi)容,因此選定前100維作為模型的輸入。

4 分類模型構(gòu)建

本文采用支持向量機(jī)(SVM)作為本次實(shí)驗(yàn)的中文文本分類模型,其他分類模型采用相同的分析流程,在此不贅述。

支持向量機(jī)(SVM)是一種有監(jiān)督的機(jī)器學(xué)習(xí)模型。本文首先采用經(jīng)典的機(jī)器學(xué)習(xí)算法SVM作為分類器算法,通過(guò)計(jì)算測(cè)試集的預(yù)測(cè)精度和ROC曲線來(lái)驗(yàn)證分類器的有效性,一般來(lái)說(shuō)ROC曲線的面積(AUC)越大模型的表現(xiàn)越好。

首先使用SVM作為分類器算法,隨后利用matplotlib和metric庫(kù)來(lái)構(gòu)建ROC曲線。具體python代碼如下所示:

運(yùn)行代碼,得到Test Accuracy: 0.88,即本次實(shí)驗(yàn)測(cè)試集的預(yù)測(cè)準(zhǔn)確率為88%,ROC曲線如下圖所示。

資源下載地址:https://download.csdn.net/download/sheziqiong/85820698
資源下載地址:https://download.csdn.net/download/sheziqiong/85820698

總結(jié)

以上是生活随笔為你收集整理的基于Python分析实现酒店评论的中文情感的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。