當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文档和词项之间的相关度计算汇总

發(fā)布時間：2023/12/20 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了文档和词项之间的相关度计算汇总小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

下面針對《Spark高級數(shù)據(jù)分析》中的第六章的實驗
進行原理上的分析
先來個矩陣 $M_{m·n}$

word1word2word3

$M_{m·n}≈U_{m·k}S_{k·k}(V^T)_{k·n}$
P118有一句十分關(guān)鍵的話：
線性代數(shù)運算告訴我們重構(gòu)矩陣中的兩個列的余弦相似度
正好等于 $SV^T$ 的相應(yīng)列的余弦相似度

這里的重構(gòu)矩陣的意思就是 $M_{m·n}$ 近似后的結(jié)果（就是上面等式的右側(cè)）。

表達式對應(yīng)書本

$V^T)_{k·1}$ ：表示從 $V_{k·n}$ 中抽取一列,即特定詞語
$U_{1·k}$ ：表示從 $U_{m·k}$ 中抽取一行,即特定文檔

其中多詞項查詢相當(dāng)于：
查詢的多個關(guān)鍵詞做成詞向量，
最后計算該詞向量和每個文檔的相關(guān)度
也就是在模仿前面的“特定詞語-每個文檔相關(guān)度”，
計算的時候把特定詞語對應(yīng)的V中的向量替換成“多個關(guān)鍵詞”構(gòu)成的向量。

以上是生活随笔為你收集整理的文档和词项之间的相关度计算汇总的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。