机器学习中的距离和损失函数
生活随笔
收集整理的這篇文章主要介紹了
机器学习中的距离和损失函数
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
文章目錄
- 13.1 距離度量
- 13.2 損失函數(shù)
13.1 距離度量
- 距離函數(shù)種類:歐式距離、曼哈頓距離、明式距離(閔可夫斯基距離)、馬氏距離、切比雪夫距離、標(biāo)準(zhǔn)化歐式距離、漢明距離、夾角余弦等
- 常用距離函數(shù):歐式距離、馬氏距離、曼哈頓距離、明式距離
1.歐式距離
歐式距離是最容易直觀理解的距離度量方法,我們小學(xué),中學(xué),高中所接觸的兩個空間中的距離一般都是指的是歐式距離。
2.曼哈頓距離(Manhattan Distance)
兩個點(diǎn)在標(biāo)準(zhǔn)坐標(biāo)系上的絕對軸距總和
3.切比雪夫距離
各坐標(biāo)數(shù)值差的最大值
4.閔可夫斯基距離
閔氏距離不是一種距離,而是一組距離的定義,是對多個距離度量公式的概括性的表述。
5.標(biāo)準(zhǔn)化歐氏距離
定義: 標(biāo)準(zhǔn)化歐氏距離是針對歐氏距離的缺點(diǎn)而作的一種改進(jìn)。標(biāo)準(zhǔn)歐氏距離的思路:既然數(shù)據(jù)各維分量的分布不一樣,那先將各個分量都**“標(biāo)準(zhǔn)化”**到均值、方差相等。
6.馬氏距離
**概念:**馬氏距離是基于樣本分布的一種距離。物理意義就是在規(guī)范化的主成分空間中的歐氏距離。所謂規(guī)范化的主成分空間就是利用主成分分析對一些數(shù)據(jù)進(jìn)行主成分分解。再對所有主成分分解軸做歸一化,形成新的坐標(biāo)軸。由這些坐標(biāo)軸張成的空間就是規(guī)范化的主成分空間。
馬氏距離的優(yōu)點(diǎn):與量綱無關(guān),排除變量之間的相關(guān)性干擾
7.余弦距離
夾角余弦取值范圍為[-1,1]。余弦越大表示兩個向量的夾角越小,余弦越小表示兩向量的夾角越大。當(dāng)兩個向量的方向重合時余弦取最大值1,當(dāng)兩個向量的方向完全相反余弦取最小值-1。
8.漢明距離
定義:兩個等長字符串s1與s2的漢明距離為:將其中一個變?yōu)榱硗庖粋€所需要作的最小字符替換次數(shù)。
9.信息熵
以上的距離度量方法度量的皆為兩個樣本(向量)之間的距離,而信息熵描述的是整個系統(tǒng)內(nèi)部樣本之間的一個距離,或者稱之為系統(tǒng)內(nèi)樣本分布的集中程度(一致程度)、分散程度、混亂程度(不一致程度)。系統(tǒng)內(nèi)樣本分布越分散(或者說分布越平均),信息熵就越大。分布越有序(或者說分布越集中),信息熵就越小。
13.2 損失函數(shù)
- log對數(shù) 損失函數(shù)(邏輯回歸)
- 平方損失函數(shù)(最小二乘法)
- 指數(shù)損失函數(shù)(AdaBoost)
- Hinge損失函數(shù)(SVM)
- 0-1損失函數(shù)
- 絕對值損失函數(shù)
損失函數(shù)(loss function)是用來估量你模型的預(yù)測值f(x)與真實(shí)值Y的不一致程度,它是一個非負(fù)實(shí)值函數(shù),通常使用L(Y, f(x))來表示,損失函數(shù)越小,模型的魯棒性就越好。
損失函數(shù)是經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)的核心部分,也是結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)重要組成部分。模型的結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)包括了經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng)和正則項(xiàng)
1.log對數(shù) 損失函數(shù)
在邏輯回歸的推導(dǎo)中,它假設(shè)樣本服從伯努利分布(0-1分布),然后求得滿足該分布的似然函數(shù)。
log函數(shù)是單調(diào)遞增的,(凸函數(shù)避免局部最優(yōu))
在使用梯度下降來求最優(yōu)解的時候,它的迭代式子與平方損失求導(dǎo)后的式子非常相似
2.平方損失函數(shù)(最小二乘法, Ordinary Least Squares)
最小二乘法是線性回歸的一種,OLS將問題轉(zhuǎn)化成了一個凸優(yōu)化問題。
在線性回歸中,它假設(shè)樣本和噪聲都服從高斯分布(為什么假設(shè)成高斯分布呢?其實(shí)這里隱藏了一個小知識點(diǎn),就是中心極限定理),最后通過極大似然估計(jì)(MLE)可以推導(dǎo)出最小二乘式子。
為什么它會選擇使用歐式距離作為誤差度量呢(即Mean squared error, MSE),主要有以下幾個原因: - 簡單,計(jì)算方便;
- 歐氏距離是一種很好的相似性度量標(biāo)準(zhǔn);
- 在不同的表示域變換后特征性質(zhì)不變
3.指數(shù)損失函數(shù)(AdaBoost)
4.hinge損失
在機(jī)器學(xué)習(xí)算法中,hinge損失函數(shù)和SVM是息息相關(guān)的。在線性支持向量機(jī)中,最優(yōu)化問題可以等價(jià)于下列式子:
損失函數(shù)總結(jié)
總結(jié)
以上是生活随笔為你收集整理的机器学习中的距离和损失函数的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《数据结构上机实验(C语言实现)》笔记(
- 下一篇: 《数据结构上机实验(C语言实现)》笔记(