日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略

發布時間:2025/3/21 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Py之SnowNLP:SnowNLP中文處理包的簡介、安裝、使用方法、代碼實現之詳細攻略

?

?

?

目錄

SnowNLP的簡介

SnowNLP的安裝

SnowNLP的使用方法

關于訓練


?

?

?

SnowNLP的簡介

? ? ? ? ?snowNLP是國人開發的python類庫,可以方便的處理中文文本內容,是受到了TextBlob的啟發而寫的。

snownlp主要可以進行中文分詞(算法是Character-Based Generative Model)、詞性標注、情感分析、文本分類(原理是樸素貝葉斯)、轉換拼音、繁體轉簡體、提取文本關鍵詞(原理TextRank)、提取摘要(原理TextRank)、分割句子、文本相似(原理BM25)。官網還有更多關于該庫的介紹。

  • 中文分詞(Character-Based Generative Model)
  • 詞性標注(TnT?3-gram 隱馬)
  • 情感分析(現在訓練數據主要是買賣東西時的評價,所以對其他的一些可能效果不是很好,待解決)
  • 文本分類(Naive Bayes)
  • 轉換成拼音(Trie樹實現的最大匹配)
  • 繁體轉簡體(Trie樹實現的最大匹配)
  • 提取文本關鍵詞(TextRank算法)
  • 提取文本摘要(TextRank算法)
  • tf,idf
  • Tokenization(分割成句子)
  • 文本相似(BM25)
  • 支持python3(感謝erning)

github:SnowNLP: Simplified Chinese Text Processing
snownlp pypi

?

SnowNLP的安裝

pip install snownlp

?

SnowNLP的使用方法

文章推薦

NLP之TEA:基于SnowNLP實現自然語言處理之對輸入文本進行情感分析(分詞→詞性標注→情感分析→測試)

?

關于訓練

現在提供訓練的包括分詞,詞性標注,情感分析,而且都提供了我用來訓練的原始文件 以分詞為例 分詞在snownlp/seg目錄下

from snownlp import seg seg.train('data.txt') seg.save('seg.marshal') # from snownlp import tag # tag.train('199801.txt') # tag.save('tag.marshal') # from snownlp import sentiment # sentiment.train('neg.txt', 'pos.txt') # sentiment.save('sentiment.marshal')

?

?

?

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。