日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文本分类--情感分析

發布時間:2023/12/10 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本分类--情感分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

(純屬為了記錄自己學習的點滴過程,引用資料都附在參考列表)

1 基本概念

情感分析
對于情感分析而言,只需要準備標注了正負情感的大量文檔,就能將其視作普通的文本分類任務來解決。此外,一些帶有評分的電影、商品評論也可以作為“天然”的標注語料庫。

2 問題

給出某酒店評論數據,正負評論各2000條組成,訓練情感分類模型,并對測試數據預測;

3 解決思路

化歸為文本分類問題,使用文本分類的一般步驟,算法使用Naive Bayesian Model;

4 實現

# -*- coding:utf-8 -*-from pyhanlp import * from tests.test_utility import ensure_dataIClassifier = JClass('com.hankcs.hanlp.classification.classifiers.IClassifier') NaiveBayesClassifier = JClass('com.hankcs.hanlp.classification.classifiers.NaiveBayesClassifier') # 中文情感挖掘語料-ChnSentiCorp 譚松波 chn_senti_corp = ensure_data("ChnSentiCorp情感分析酒店評論", "http://file.hankcs.com/corpus/ChnSentiCorp.zip")def predict(classifier, text):print("《%s》 情感極性是 【%s】" % (text, classifier.classify(text)))if __name__ == '__main__':classifier = NaiveBayesClassifier()# 創建分類器,更高級的功能請參考IClassifier的接口定義classifier.train(chn_senti_corp)# 訓練后的模型支持持久化,下次就不必訓練了predict(classifier, "前臺客房服務態度非常好!早餐很豐富,房價很干凈。再接再厲!")predict(classifier, "結果大失所望,燈光昏暗,空間極其狹小,床墊質量惡劣,房間還伴著一股霉味。")predict(classifier, "可利用文本分類實現情感分析,效果不是不行")

運行結果:

[正面]...100.00% 2000 篇文檔 [負面]...100.00% 2000 篇文檔 耗時 1477 ms 加載了 2 個類目,4000 篇文檔 原始數據集大小:4000 使用卡方檢測選擇特征中...耗時 17 ms,選中特征數:486 / 15034 = 3.23% 貝葉斯統計結束 《前臺客房服務態度非常好!早餐很豐富,房價很干凈。再接再厲!》 情感極性是 【正面】 《結果大失所望,燈光昏暗,空間極其狹小,床墊質量惡劣,房間還伴著一股霉味。》 情感極性是 【負面】 《可利用文本分類實現情感分析,效果不是不行》 情感極性是 【負面】
  • 值得注意的是,最后一個測試案例“可利用文本分類實現情感分析,效果不是不行”雖然不屬于酒店評論,但結果依然是正確地,這說明該統計模型有一定的泛化能力,能處理一些其他行業的文本。

5 參考文獻

  • 何晗《自然語言處理入門》;
  • 宗成慶《統計自然語言處理》;
  • 李航《統計學習方法》;
  • 總結

    以上是生活随笔為你收集整理的文本分类--情感分析的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。