日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文文本相似度计算工具集

發(fā)布時(shí)間:2025/3/17 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中文文本相似度计算工具集 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

歡迎大家關(guān)注我們的網(wǎng)站和系列教程:http://www.tensorflownews.com/,學(xué)習(xí)更多的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的知識(shí)!

一、基本工具集

1.分詞工具

a.jieba

結(jié)巴中文分詞

https://github.com/fxsjy/jieba

b.HanLP

自然語言處理 中文分詞 詞性標(biāo)注 命名實(shí)體識(shí)別 依存句法分析 關(guān)鍵詞提取 新詞發(fā)現(xiàn) 短語提取 自動(dòng)摘要 文本分類 拼音簡繁 http://hanlp.hankcs.com/

https://github.com/hankcs/HanLP

c.盤古分詞-開源中文分詞組件

盤古分詞是一個(gè)中英文分詞組件。作者eaglet 曾經(jīng)開發(fā)過KTDictSeg 中文分詞組件,擁有大量用戶。 作者基于之前分詞組件的開發(fā)經(jīng)驗(yàn),結(jié)合最新的開發(fā)技術(shù)重新編寫了盤古分詞組件。

https://archive.codeplex.com/

d.pullword

Pullword-永久免費(fèi)的可自定義的中文在線分詞API

http://pullword.com/

e.BosonNLP

玻森中文語義開放平臺(tái)提供使用簡單、功能強(qiáng)大、性能可靠的中文自然語言分析云服務(wù)。

https://bosonnlp.com/

f.HIT-SCIR/ltp

Language Technology Platform http://ltp.ai

https://github.com/HIT-SCIR/ltp

2.關(guān)鍵詞提取

TF-IDF

技術(shù)原理:https://dl.acm.org/citation.cfm?id=866292

gensim

https://radimrehurek.com/gensim/models/tfidfmodel.html

?

TextRank

技術(shù)原理:https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

TextRank4ZH-從中文文本中自動(dòng)提取關(guān)鍵詞和摘要

https://github.com/letiantian/TextRank4ZH

3.詞向量

word2vec-gensim

Topic modelling for humans - Radim ?eh??ek

https://radimrehurek.com/gensim/index.html

?

GloVe

Global Vectors for Word Representation

https://nlp.stanford.edu/projects/glove/

?

4.距離計(jì)算

word2vec-gensim

Topic modelling for humans - Radim ?eh??ek

https://radimrehurek.com/gensim/index.html

?

二、常用算法

?

1.中文分詞+TF-IDF+word2vec+cosine 距離計(jì)算

?

2.doc2vec

原理介紹:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

技術(shù)實(shí)現(xiàn):https://cs.stanford.edu/~quocle/paragraph_vector.pdf

?

3.simhash

原理介紹:http://www.cnblogs.com/maybe2030/p/5203186.html

技術(shù)實(shí)現(xiàn):https://github.com/yanyiwu/simhash

?

三、文本相似度計(jì)算綜述

A Survey of Text Similarity Approaches

https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf

《中文信息處理發(fā)展報(bào)告(2016)》

http://cips-upload.bj.bcebos.com/cips2016.pdf

以上論文下載地址:

http://www.tensorflownews.com/

本篇文章出自http://www.tensorflownews.com,對深度學(xué)習(xí)感興趣,熱愛Tensorflow的小伙伴,歡迎關(guān)注我們的網(wǎng)站!

新人創(chuàng)作打卡挑戰(zhàn)賽發(fā)博客就能抽獎(jiǎng)!定制產(chǎn)品紅包拿不停!

總結(jié)

以上是生活随笔為你收集整理的中文文本相似度计算工具集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。