日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文情感分析语料库

發布時間:2024/1/17 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中文情感分析语料库 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

中文情感分析語料庫

http://blog.leanote.com/post/doubleseven/%E4%B8%AD%E6%96%87%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%E8%AF%AD%E6%96%99%E5%BA%93


中文情感分析的語料庫非常少,這五個中文語料庫是我在網上的搜集的。


?

?

?

數據集1:情感挖掘的酒店評論語料

URL:http://www.nlpir.org/?action-viewnews-itemid-77

說明:譚松波收集整理了一個較大規模的酒店評論語料。語料規模為10000篇。語料從攜程網上自動采集,并經過整理而成。為了方便起見,語料被整理成4個子集: 1.ChnSentiCorp-Htl-ba-2000: 平衡語料,正負類各1000篇。

  • ChnSentiCorp-Htl-ba-4000: 平衡語料,正負類各2000篇。
  • ChnSentiCorp-Htl-ba-6000: 平衡語料,正負類各3000篇。
  • 4.ChnSentiCorp-Htl-unba-10000: 非平衡語料,正類為7000篇。

    ?


    ?

    ?

    數據集2:2012年CCF自然語言處理與中文計算會議:中文微博情感分析測評數據

    URL:http://tcci.ccf.org.cn/conference/2012/pages/page10_dl.html

    說明:數據來自騰訊微博 1。評測數據全集包括 20 個話題,每個話題采集大約 1000

    條微博,共約 20000 條微博。數據采用xml格式,已經預先切分好句子。每條句子的所有標注信息都包含在<sentence>元素的屬性中。其中opinionated表示是否觀點句,polarity表示句子情感傾向。

    ?


    ?

    數據集3:中文情感挖掘語料-ChnSentiCorp

    URL :http://www.datatang.com/data/14614

    說明:語料庫涉及3個領域:酒店、電腦(筆記本)與書籍

    去重后語料:

       1.ChnSentiCorp-Htl-del-4000: 平衡語料,正負類各2000篇。

       2.ChnSentiCorp-NB-del-4000: 平衡語料,正負類各2000篇。

       3.ChnSentiCorp-BK-del-4000: 平衡語料,正負類各2000篇。

    ?

    ?


    ?

    數據集4:豆瓣網影評情感測試語料

    URL:http://www.datatang.com/data/13539

    說明:影評來自豆瓣網對電影《ICE AGE3》的評論,評分標準均按照5 stars評分在網頁中有標注。語料至527頁。每頁20條短評。 共計11323條評論。數據格式:HTML

    ?


    ?

    數據集5:SemEval-2016

    URL:http://alt.qcri.org/semeval2016/task5/index.php?id=data-and-tools

    說明:移動手機,數碼產品評論數據,分為訓練數據和測試數據

    ?

    訓練數據

    測試數據

    評論文檔數

    句子級數

    評論文檔數

    句子級數

    移動手機

    140

    6330

    140

    5784

    數碼產品

    60

    3191

    60

    2556

    ?


    總結

    以上是生活随笔為你收集整理的中文情感分析语料库的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。