余弦相似度和余弦距离的推导与理解
1 余弦相似度
余弦相似度是通過測(cè)量?jī)蓚€(gè)向量之間的夾角的余弦值來度量他們之間的一個(gè)相似度.0度角的余弦值是1,其他的任何角度的余弦值都不大于1,最小值是-1,從而兩個(gè)向量之間角度的余弦值確定了兩個(gè)向量是否指向同一個(gè)方向.兩個(gè)向量的指向相同時(shí),余弦相似度為1,當(dāng)兩個(gè)向量的夾角是90度時(shí),余弦相似度的值為0,兩個(gè)向量的指向完全相反時(shí),余弦相似度的值為-1.*這個(gè)結(jié)果與向量的長(zhǎng)度無關(guān),僅僅與向量的指向有關(guān).
余弦相似度通常用于正空間,因此一般的值為0到1之間.這個(gè)界限對(duì)任意維度的向量空間都適用,而且余弦相似度最長(zhǎng)應(yīng)用于高維正空間.它通常應(yīng)用于文本挖掘中的文件比較,另外,在數(shù)據(jù)挖掘領(lǐng)域,常用來度量集群內(nèi)部的凝聚力.
兩個(gè)向量之間的余弦值可以通過使用歐幾里得點(diǎn)積公式求出:
給定兩個(gè)屬性向量,A和B,其余弦相似性由點(diǎn)積和向量長(zhǎng)度給出,如下所示:
公式推導(dǎo):
2 余弦距離
簡(jiǎn)單來說,余弦距離就是用1 減去我們的余弦相似度獲得的.余弦相似度的取值范圍是[-1,1],方向相同的兩個(gè)向量之間的相似度是1,余弦距離的取值范圍是[0,2]
我們看下余弦距離與歐式距離之間的關(guān)系:
余弦距離并不是嚴(yán)格意義上的距離,但根據(jù)數(shù)學(xué)上的定義,在一個(gè)集合中,如果一對(duì)元素可確定一個(gè)實(shí)數(shù),使得非負(fù)性,對(duì)稱性和三角不等式成立,則該實(shí)數(shù)可稱為這對(duì)元素之間的距離.1
1 非負(fù)性
根據(jù)上述的介紹,余弦距離的取值范圍為[0,2],滿足非負(fù)性的性質(zhì)
2 對(duì)稱性
dist(A,B)=1−cosθ=dist(B,A)
所以滿足對(duì)稱性
3 三角不等式
因此,余弦距離是不滿足三角不等式的性質(zhì)的.
所以余弦距離不是嚴(yán)格意義上定義的距離,但是他可以有效的體現(xiàn)特征向量在方向上的相對(duì)差異
總結(jié)
以上是生活随笔為你收集整理的余弦相似度和余弦距离的推导与理解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 交叉验证python_交叉验证
- 下一篇: C#的3DES加密解密算法