关于SVM,面试官们都怎么问
作者?| WEIWEI? 整理?|?NewBeeNLP
公式較多,希望大家耐心慢慢理清楚?
寫在前面
持續(xù)準(zhǔn)備面試中。。。準(zhǔn)備的過程中,慢慢發(fā)現(xiàn),如果死記硬背的話很難,可當(dāng)推導(dǎo)一遍并且細細研究里面的緣由的話,面試起來應(yīng)該什么都不怕,問什么問題都可以由公式推導(dǎo)得到結(jié)論,不管問什么,公式擺在那里,影響這個公式的變量就在那,你問什么我答什么。。共勉!!
一、SVM簡介
SVM 是一種二類分類模型。它的基本思想是在特征空間中尋找間隔最大的分離超平面使數(shù)據(jù)得到高效的二分類,具體來講,有三種情況(不加核函數(shù)的話就是個線性模型,加了之后才會升級為一個非線性模型):
當(dāng)訓(xùn)練樣本線性可分時,通過硬間隔最大化,學(xué)習(xí)一個線性分類器,即線性可分支持向量機;
當(dāng)訓(xùn)練數(shù)據(jù)近似線性可分時,引入松弛變量,通過軟間隔最大化,學(xué)習(xí)一個線性分類器,即線性支持向量機;
當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時,通過使用核技巧及軟間隔最大化,學(xué)習(xí)非線性支持向量機。
二、SVM 為什么采用間隔最大化(與感知機的區(qū)別)
當(dāng)訓(xùn)練數(shù)據(jù)線性可分時,存在無窮個分離超平面可以將兩類數(shù)據(jù)正確分開。感知機利用誤分類最小策略,求得分離超平面,不過此時的解有無窮多個。線性可分支持向量機利用間隔最大化求得最優(yōu)分離超平面,這時,解是唯一的。另一方面,此時的分隔超平面所產(chǎn)生的分類結(jié)果是最魯棒的,對未知實例的泛化能力最強。
三、SVM的目標(biāo)(硬間隔)
有兩個目標(biāo):
第一個是使間隔最大化,
第二個是使樣本正確分類,
稍微解釋一下, 是超平面參數(shù),目標(biāo)一是從點到面的距離公式化簡來的,具體不展開,目標(biāo)二就相當(dāng)于感知機,只是把大于等于0進行縮放變成了大于等于1,為了后面的推導(dǎo)方便。有了兩個目標(biāo),寫在一起,就變成了svm的終極目標(biāo):
四、求解目標(biāo)(硬間隔)
從上面的公式看出,這是一個有約束條件的最優(yōu)化問題,用拉格朗日函數(shù)來解決。
上式的拉格朗日函數(shù)為:
在滿足Slater定理的時候,且過程滿足KKT條件的時候,原問題轉(zhuǎn)換成對偶問題:
先求內(nèi)部最小值,對 和 求偏導(dǎo)并令其等于0可得:
將其代入到上式中去可得到
此時需要求解 ,利用SMO(序列最小優(yōu)化)算法:
SMO算法的基本思路是每次選擇兩個變量 和 ,選取的兩個變量所對應(yīng)的樣本之間間隔要盡可能大,因為這樣更新會帶給目標(biāo)函數(shù)值更大的變化。SMO算法之所以高效,是因為僅優(yōu)化兩個參數(shù)的過程實際上僅有一個約束條件,其中一個可由另一個表示,這樣的二次規(guī)劃問題具有閉式解。
五、軟間隔
不管直接在原特征空間,還是在映射的高維空間,我們都假設(shè)樣本是線性可分的。雖然理論上我們總能找到一個高維映射使數(shù)據(jù)線性可分,但在實際任務(wù)中,尋找一個合適的核函數(shù)核很困難。此外,由于數(shù)據(jù)通常有噪聲存在,一味追求數(shù)據(jù)線性可分可能會使模型陷入過擬合,因此,我們放寬對樣本的要求,允許少量樣本分類錯誤。這樣的想法就意味著對目標(biāo)函數(shù)的改變,之前推導(dǎo)的目標(biāo)函數(shù)里不允許任何錯誤,并且讓間隔最大,現(xiàn)在給之前的目標(biāo)函數(shù)加上一個誤差,就相當(dāng)于允許原先的目標(biāo)出錯,引入松弛變量 ,公式變?yōu)?#xff1a;
那么這個松弛變量怎么計算呢,最開始試圖用0,1損失去計算,但0,1損失函數(shù)并不連續(xù),求最值時求導(dǎo)的時候不好求,所以引入合頁損失(hinge loss):
函數(shù)圖長這樣:
理解起來就是,原先制約條件是保證所有樣本分類正確, ,現(xiàn)在出現(xiàn)錯誤的時候,一定是這個式子不被滿足了,即 錯誤 ,衡量一下錯了多少呢?因為左邊一定小于1,那就跟1比較,因為1是邊界,所以用1減去 來衡量錯誤了多少,所以目標(biāo)變?yōu)?#xff08;正確分類的話損失為0,錯誤的話付出代價):
但這個代價需要一個控制的因子,引入C>0,懲罰參數(shù),即:
可以想象,C越大說明把錯誤放的越大,說明對錯誤的容忍度就小,反之亦然。當(dāng)C無窮大時,就變成一點錯誤都不能容忍,即變成硬間隔。實際應(yīng)用時我們要合理選取C,C越小越容易欠擬合,C越大越容易過擬合。
所以軟間隔的目標(biāo)函數(shù)為:
其中:
六、軟間隔求解
與硬間隔類似:
上式的拉格朗日函數(shù)為:
在滿足Slater定理的時候,且過程滿足KKT條件的時候,原問題轉(zhuǎn)換成對偶問題:
先求內(nèi)部最小值,對 , 和 求偏導(dǎo)并令其等于 可得:
將其代入到上式中去可得到,注意 被消掉了:
此時需要求解 ,同樣利用SMO(序列最小優(yōu)化)算法。
七. 核函數(shù)
為什么要引入核函數(shù):
當(dāng)樣本在原始空間線性不可分時,可將樣本從原始空間映射到一個更高維的特征空間,使得樣本在這個特征空間內(nèi)線性可分。而引入這樣的映射后,所要求解的對偶問題的求解中,無需求解真正的映射函數(shù),而只需要知道其核函數(shù)。核函數(shù)的定義:K(x,y)=<?(x),?(y)>,即在特征空間的內(nèi)積等于它們在原始樣本空間中通過核函數(shù) K 計算的結(jié)果。一方面數(shù)據(jù)變成了高維空間中線性可分的數(shù)據(jù),另一方面不需要求解具體的映射函數(shù),只需要給定具體的核函數(shù)即可,這樣使得求解的難度大大降低。
用自己的話說就是,在SVM不論是硬間隔還是軟間隔在計算過程中,都有X轉(zhuǎn)置點積X,若X的維度低一點還好算,但當(dāng)我們想把X從低維映射到高維的時候(讓數(shù)據(jù)變得線性可分時),這一步計算很困難,等于說在計算時,需要先計算把X映射到高維的的?(x),再計算?(x1)和?(x2)的點積,這一步計算起來開銷很大,難度也很大,此時引入核函數(shù),這兩步的計算便成了一步計算,即只需把兩個x帶入核函數(shù),計算核函數(shù),舉個列子一目了然(圖片來自:從零推導(dǎo)支持向量機):
個人對核函數(shù)的理解:核函數(shù)就是一個函數(shù),接收兩個變量,這兩個變量是在低維空間中的變量,而核函數(shù)求的值等于將兩個低維空間中的向量映射到高維空間后的內(nèi)積。
八. 如何確定一個函數(shù)是核函數(shù)
驗證正定核啥的,咱也不太懂,給出:
設(shè) , 是定義在 上的對稱函數(shù),如果對任意的 , 對應(yīng)的Gram矩陣 是半正定矩陣,則 是正定核
所以不懂,就用人家確定好的常見核函數(shù)及其優(yōu)缺點:
九. 如何選擇核函數(shù):
當(dāng)特征維數(shù) 超過樣本數(shù) 時 (文本分類問題通常是這種情況), 使用線性核;
當(dāng)特征維數(shù) 比較小. 樣本數(shù) 中等時, 使用RBF核;
當(dāng)特征維數(shù) 比較小. 樣本數(shù) 特別大時, 支持向量機性能通常不如深度神經(jīng)網(wǎng)絡(luò)
十. 關(guān)于支持向量的問題
1. 先說硬間隔:
先看KKT條件
主問題可行:
對偶問題可行:
互補松弛:
支持向量,對偶變量 對應(yīng)的樣本;
線性支持向量機中, 支持向量是距離劃分超平面最近的樣本, 落在最大間隔邊界上。
證明:由線性支持向量機的KKT 條件可知,。當(dāng) 時,,即
支持向量機的參數(shù) (w; b) 僅由支持向量決定, 與其他樣本無關(guān)。
2. 再說軟間隔:
先看kkt條件:
主問題可行:
對偶問題可行:
互補松弛:
經(jīng)過SMO后,求得 , 。
對于任意樣本 ,
若 ,此樣本點不是支持向量,該樣本對模型沒有任何的作用
若 ,此樣本是一個支持向量(同硬間隔)
若滿足 ,進一步地,
若 , 則 ,即剛好 ,樣本恰好在最大間隔邊界上
若 ,有 ,此時若 則該樣本落在最大間隔內(nèi)部
若 則該樣本落在最大間隔內(nèi)部(不屬于自己的另一部分)即被錯誤分類 如圖:
十一. 談?wù)凷VM的損失函數(shù)
此處說的是軟間隔:
先看軟間隔的基本型形式:
稍微做一點變化:
這樣寫是為了符合標(biāo)準(zhǔn)的損失函數(shù)+正則化的樣子,其中, 第一項稱為經(jīng)驗風(fēng)險, 度量了模型對訓(xùn)練數(shù)據(jù)的擬合程度; 第二項稱為結(jié)構(gòu)風(fēng)險, 也稱為正則化項, 度量 了模型自身的復(fù)雜度. 正則化項削減了假設(shè)空間, 從而 降低過擬合風(fēng)險. λ 是個可調(diào)節(jié)的超參數(shù), 用于權(quán)衡經(jīng)驗風(fēng)險和結(jié)構(gòu)風(fēng)險.
其中:
這樣的話給上式乘以mc,就會變成上上式了。
十二. 為什么SVM對缺失數(shù)據(jù)敏感?
這里說的缺失數(shù)據(jù)是指缺失某些特征數(shù)據(jù),向量數(shù)據(jù)不完整。SVM 沒有處理缺失值的策略。而 SVM 希望樣本在特征空間中線性可分,所以特征空間的好壞對SVM的性能很重要。缺失特征數(shù)據(jù)將影響訓(xùn)練結(jié)果的好壞。
十三. SVM的優(yōu)缺點:
優(yōu)點:
由于SVM是一個凸優(yōu)化問題,所以求得的解一定是全局最優(yōu)而不是局部最優(yōu)。
不僅適用于線性線性問題還適用于非線性問題(用核技巧)。
擁有高維樣本空間的數(shù)據(jù)也能用SVM,這是因為數(shù)據(jù)集的復(fù)雜度只取決于支持向量而不是數(shù)據(jù)集的維度,這在某種意義上避免了“維數(shù)災(zāi)難”。
理論基礎(chǔ)比較完善(例如神經(jīng)網(wǎng)絡(luò)就更像一個黑盒子)。
缺點:
二次規(guī)劃問題求解將涉及m階矩陣的計算(m為樣本的個數(shù)), 因此SVM不適用于超大數(shù)據(jù)集。(SMO算法可以緩解這個問題)
只適用于二分類問題。(SVM的推廣SVR也適用于回歸問題;可以通過多個SVM的組合來解決多分類問題)看了這篇文章你還不懂SVM你就來打我[1]SVM 高頻面試題[2]從零推導(dǎo)支持向量機(SVM)[3]
本文參考資料
[1]
看了這篇文章你還不懂SVM你就來打我: https://zhuanlan.zhihu.com/p/49331510
[2]SVM 高頻面試題: https://zhuanlan.zhihu.com/p/43827793
[3]從零推導(dǎo)支持向量機(SVM): https://zhuanlan.zhihu.com/p/31652569
-?END?-
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習(xí)在線手冊深度學(xué)習(xí)在線手冊AI基礎(chǔ)下載(pdf更新到25集)本站qq群1003271085,加入微信群請回復(fù)“加群”獲取一折本站知識星球優(yōu)惠券,請回復(fù)“知識星球”喜歡文章,點個在看
總結(jié)
以上是生活随笔為你收集整理的关于SVM,面试官们都怎么问的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 武汉大学提出全球最大的口罩遮挡人脸数据集
- 下一篇: 【白话机器学习】算法理论+实战之PCA降