机器学习 | 距离计算
文章目錄
- 距離計(jì)算
- 1. 閔可夫斯基距離(有序?qū)傩?#xff09;
- 1.1 曼哈頓距離
- 1.2 歐氏距離
- 2. VDM 距離(無(wú)序?qū)傩?#xff09;
- 3. MinkovDM 距離(混合屬性)
- 4. 加權(quán)距離(重要性不同)
- 參考資料
相關(guān)文章:
機(jī)器學(xué)習(xí) | 目錄
機(jī)器學(xué)習(xí) | 聚類評(píng)估指標(biāo)
無(wú)監(jiān)督學(xué)習(xí) | KMeans與KMeans++原理
無(wú)監(jiān)督學(xué)習(xí) | KMeans之Skleaen實(shí)現(xiàn):電影評(píng)分聚類
距離計(jì)算
對(duì)函數(shù) dist(?,?)dist(\cdot,\cdot)dist(?,?) ,若它是一個(gè)“距離度量”(distance measure),則需滿足一些基本性質(zhì):[1]
(1)非負(fù)性:dist(xi,xj)≥0;同一性:dist(xi,xj)=0當(dāng)且僅當(dāng)xi=xj;對(duì)稱性:dist(xi,xj)=dist(xj,xi)直遞性:dist(xi,xj)≤dist(xi,xk)+dist(xk,xj)【三角不等式】\begin{aligned} &非負(fù)性:dist(x_i,x_j) \geq 0; \\ &同一性:dist(x_i,x_j)=0 當(dāng)且僅當(dāng) x_i=x_j;\\ &對(duì)稱性:dist(x_i,x_j) = dist(x_j,x_i)\\ &直遞性:dist(x_i,x_j)\leq dist(x_i,x_k)+dist(x_k,x_j) 【三角不等式】\\ \end{aligned}\tag{1} ?非負(fù)性:dist(xi?,xj?)≥0;同一性:dist(xi?,xj?)=0當(dāng)且僅當(dāng)xi?=xj?;對(duì)稱性:dist(xi?,xj?)=dist(xj?,xi?)直遞性:dist(xi?,xj?)≤dist(xi?,xk?)+dist(xk?,xj?)【三角不等式】?(1)
1. 閔可夫斯基距離(有序?qū)傩?#xff09;
給定樣本 xi=(xi1,xi2,? ,xin)x_i=(x_{i1},x_{i2},\cdots,x_{in})xi?=(xi1?,xi2?,?,xin?) 與 xj=(xj1,xj2,? ,xjn)x_j=(x_{j1},x_{j2},\cdots,x_{jn})xj?=(xj1?,xj2?,?,xjn?) ,最常用的是“閔可夫斯基距離”(Minkowski distance)
(2)distmk(xi,xj)=(∑u=1n∣xiu?xju∣p)1pdist_{mk}(x_i,x_j)=\bigg(\sum_{u=1}^n |x_{iu}-x_{ju}|^p\bigg)^{\frac{1}{p}} \tag{2}distmk?(xi?,xj?)=(u=1∑n?∣xiu??xju?∣p)p1?(2)
對(duì) p≥1p \geq 1p≥1,式 2 明顯滿足公式 1 的距離度量基本性質(zhì)。
當(dāng) p→∞時(shí),則得到切比雪夫距離p\to\infty 時(shí),則得到切比雪夫距離p→∞時(shí),則得到切比雪夫距離
1.1 曼哈頓距離
當(dāng) p=1p=1p=1 時(shí),閔可夫斯基距離即曼哈頓距離(Manhattan distance),亦稱“街區(qū)距離”(city block distance):
(3)distman(xi,xj)=∥xi?xj∥1=∑u=1n∣xiu?xju∣dist_{man}(x_i,x_j)=\|x_i-x_j\|_1=\sum_{u=1}^n|x_{iu}-x_{ju}| \tag{3}distman?(xi?,xj?)=∥xi??xj?∥1?=u=1∑n?∣xiu??xju?∣(3)
1.2 歐氏距離
當(dāng) p=2p=2p=2 時(shí),閔可夫斯基距離即歐式距離(Euclidean distance):
(4)disted(xi,xj)=∥xi,xj∥2=∑u=1n∣xiu?xju∣2dist_{ed}(x_i,x_j)=\|x_i,x_j\|_2=\sqrt{\sum_{u=1}^n|x_{iu}-x_{ju}|^2} \tag{4}disted?(xi?,xj?)=∥xi?,xj?∥2?=u=1∑n?∣xiu??xju?∣2?(4)
我們常將屬性劃分為“連續(xù)屬性”(continuous attribute)和“離散屬性”(categorical attribute),前者在定義域上有無(wú)窮多個(gè)可能的取值,后者在定義域上是有限個(gè)取值。
然而,在討論距離計(jì)算時(shí),屬性上是否定義了“序”關(guān)系更為重要。例如定義域 {1,2,3} 的離散屬性與連續(xù)屬性的性質(zhì)更接近一些,能直接在屬性值上結(jié)算距離:“1”與“2”比較接近、與“3”比較遠(yuǎn),這樣的屬性稱為“有序?qū)傩浴?#xff08;ordinal attribute);而定義域 {飛機(jī), 火車, 輪船} 這樣的離散屬性則不能直接在屬性值上計(jì)算距離,稱為“無(wú)序?qū)傩浴?#xff08;non-ordinal attribute)。
顯然,閔可夫斯基距離可用于連續(xù)屬性和有序?qū)傩浴?/p>
連續(xù)屬性亦稱“數(shù)值屬性”(numerical attribute),“離散屬性”亦稱“列名屬性“(nominal attribute)
2. VDM 距離(無(wú)序?qū)傩?#xff09;
對(duì)無(wú)需屬性可采用VDM(Value Difference Metric)。令 mu,am_{u,a}mu,a? 表示在屬性 uuu 上取值為 aaa 的樣本數(shù),kkk 為樣本數(shù), mu,a,im_{u,a,i}mu,a,i? 表示在第 iii 個(gè)樣本簇中在屬性 uuu 上取值為 aaa 的樣本數(shù),kkk 為樣本簇?cái)?shù),則屬性 uuu 上兩個(gè)離散值 aaa 與 bbb 之間的 VDM 距離為:
(5)VDMp(a,b)=∑i=1k∣mu,a,imu,a?mu,b,imu,b∣pVDM_p(a,b)=\sum_{i=1}^k\bigg|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}\bigg|^p \tag{5}VDMp?(a,b)=i=1∑k?∣∣∣∣?mu,a?mu,a,i???mu,b?mu,b,i??∣∣∣∣?p(5)
3. MinkovDM 距離(混合屬性)
將閔可夫斯基距離和 VDM 距離結(jié)合即可處理混合屬性。假定有 ncn_cnc? 個(gè)有序?qū)傩浴?n?ncn-n_cn?nc? 個(gè)無(wú)序?qū)傩?#xff0c;不失一般性,令有序?qū)傩耘帕性跓o(wú)序?qū)傩灾?#xff0c;則
(6)MinkovDMp(xi,xj)=(∑u=1nc∣xiu?xju∣p+∑u=nc+1nVDMp(xiu,xju))1pMinkovDM_p(x_i,x_j)=\bigg( \sum_{u=1}^{n_c}|x_{iu}-x_{ju}|^p + \sum_{u=n_c+1}^{n} VDM_p(x_{iu},x_{ju}) \bigg)^{\frac{1}{p}} \tag{6}MinkovDMp?(xi?,xj?)=(u=1∑nc??∣xiu??xju?∣p+u=nc?+1∑n?VDMp?(xiu?,xju?))p1?(6)
4. 加權(quán)距離(重要性不同)
當(dāng)樣本空間中不同屬性的重要性不同時(shí),可使用“加權(quán)距離”(weighted distance)。
以加權(quán)閔可夫斯基距離為例:
(7)distwmk(xi,xj)=(∑u=1nwu∣xiu?xju∣p)1pdist_{wmk}(x_i,x_j)=\bigg(\sum_{u=1}^n w_u|x_{iu}-x_{ju}|^p\bigg)^{\frac{1}{p}} \tag{7}distwmk?(xi?,xj?)=(u=1∑n?wu?∣xiu??xju?∣p)p1?(7)
參考資料
[1] 周志華. 機(jī)器學(xué)習(xí)[M]. 北京: 清華大學(xué)出版社, 2016: 199-200.
總結(jié)
以上是生活随笔為你收集整理的机器学习 | 距离计算的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 高性能计算中并行的概念理解
- 下一篇: CPU的核心数、线程数的关系和区别