日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python中文文本分析_python使用snownlp进行中文文本处理以及分词和情感分析 - pytorch中文网...

發布時間:2025/3/11 python 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python中文文本分析_python使用snownlp进行中文文本处理以及分词和情感分析 - pytorch中文网... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

SnowNLP: 一個簡單的中文文本處理庫

SnowNLP是一個python寫的類庫,可以方便的處理中文文本內容,是受到了TextBlob的啟發而寫的,由于現在大部分的自然語言處理庫基本都是針對英文的,于是寫了一個方便處理中文的類庫,并且和TextBlob不同的是,這里沒有用NLTK,所有的算法都是自己實現的,并且自帶了一些訓練好的字典。注意本程序都是處理的unicode編碼,所以使用時請自行decode成unicode。

from snownlp import SnowNLP

s = SnowNLP(u'這個東西真心很贊')

s.words # [u'這個', u'東西', u'真心',

# u'很', u'贊']

s.tags # [(u'這個', u'r'), (u'東西', u'n'),

# (u'真心', u'd'), (u'很', u'd'),

# (u'贊', u'Vg')]

s.sentiments # 0.9769663402895832 positive的概率

s.pinyin # [u'zhe', u'ge', u'dong', u'xi',

# u'zhen', u'xin', u'hen', u'zan']

s = SnowNLP(u'「繁體字」「繁體中文」的叫法在臺灣亦很常見。')

s.han # u'「繁體字」「繁體中文」的叫法

# 在臺灣亦很常見。'

text = u'''

自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。

它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。

自然語言處理是一門融語言學、計算機科學、數學于一體的科學。

因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,

所以它與語言學的研究有著密切的聯系,但又有重要的區別。

自然語言處理并不是一般地研究自然語言,

而在于研制能有效地實現自然語言通信的計算機系統,

特別是其中的軟件系統。因而它是計算機科學的一部分。

'''

s = SnowNLP(text)

s.keywords(3) # [u'語言', u'自然', u'計算機']

s.summary(3) # [u'因而它是計算機科學的一部分',

# u'自然語言處理是一門融語言學、計算機科學、

# 數學于一體的科學',

# u'自然語言處理是計算機科學領域與人工智能

# 領域中的一個重要方向']

s.sentences

s = SnowNLP([[u'這篇', u'文章'],

[u'那篇', u'論文'],

[u'這個']])

s.tf

s.idf

s.sim([u'文章'])# [0.3756070762985226, 0, 0]

Features

詞性標注(TnT 3-gram 隱馬)

情感分析(現在訓練數據主要是買賣東西時的評價,所以對其他的一些可能效果不是很好,待解決)

文本分類(Naive Bayes)

轉換成拼音(Trie樹實現的最大匹配)

繁體轉簡體(Trie樹實現的最大匹配)

提取文本關鍵詞(TextRank算法)

提取文本摘要(TextRank算法)

tf,idf

Tokenization(分割成句子)

文本相似(BM25)

支持python3(感謝erning)

Get It now

$ pip install snownlp

關于訓練

現在提供訓練的包括分詞,詞性標注,情感分析,而且都提供了我用來訓練的原始文件 以分詞為例 分詞在snownlp/seg目錄下

from snownlp import seg

seg.train('data.txt')

seg.save('seg.marshal')

# from snownlp import tag

# tag.train('199801.txt')

# tag.save('tag.marshal')

# from snownlp import sentiment

# sentiment.train('neg.txt', 'pos.txt')

# sentiment.save('sentiment.marshal')

這樣訓練好的文件就存儲為seg.marshal了,之后修改snownlp/seg/__init__.py里的data_path指向剛訓練好的文件即可

原創文章,轉載請注明 :python使用snownlp進行中文文本處理以及分詞和情感分析 - pytorch中文網

原文出處: https://ptorch.com/news/202.html

問題交流群 :168117787

總結

以上是生活随笔為你收集整理的python中文文本分析_python使用snownlp进行中文文本处理以及分词和情感分析 - pytorch中文网...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。