日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

word2vec 和 doc2vec 相似和区别

發(fā)布時間:2024/1/1 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 word2vec 和 doc2vec 相似和区别 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Word2vec 算法

??????? CBOW 和 Skip-Gram模型

CBOW通過周圍詞找到當前詞,Skip-Gram通過當前詞找到周圍詞,都是使用評估概率找到概率最大的

doc2vec

在word2vec的基礎(chǔ)上增加一個段落向量,該模型也有兩個方法:Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)

doc2vec 的c-bow與word2vec的c-bow模型的區(qū)別
在訓練過程中增加了每個句子的id(向量),計算的時候?qū)aragraph vector和word vector累加或者連接起來,作為softmax的輸入

在預測過程,給預測句子分配一個新的paragraph id , 重新利用梯度下降訓練待預測的句子,待收斂后,即得到待測句子的paragraph vector

PV-DM

doc2vec的skip-gram與word2vec的skip-gram模型的區(qū)別?

在doc2vec里,輸入都是paragraph vector ,輸出是該paragraph 中隨機抽樣的詞

PV-DBOW

補充知識

One-hot Representation

采用稀疏方式存儲,給每個詞分配一個數(shù)字 ID,表示后配合上最大熵、SVM、CRF 等等算法已經(jīng)很好地完成了 NLP 領(lǐng)域的各種主流任務(wù)

缺點 任意兩個詞之間都是孤立的,光從這兩個向量中看不出兩個詞是否有關(guān)系,容易發(fā)生維數(shù)災(zāi)難

Distributed representation

從原始的詞向量稀疏表示法過渡到低維空間中的密集表示

決了維數(shù)災(zāi)難問題,并且挖掘了word之間的關(guān)聯(lián)屬性

Reference

https://www.jianshu.com/p/048bff9b0f65

https://www.cnblogs.com/gogoSandy/p/13773327.html

總結(jié)

以上是生活随笔為你收集整理的word2vec 和 doc2vec 相似和区别的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。