日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

关于SVM,面试官们都怎么问

發(fā)布時間:2025/3/8 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 关于SVM,面试官们都怎么问 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者?| WEIWEI? 整理?|?NewBeeNLP


公式較多,希望大家耐心慢慢理清楚?

寫在前面

持續(xù)準(zhǔn)備面試中。。。準(zhǔn)備的過程中,慢慢發(fā)現(xiàn),如果死記硬背的話很難,可當(dāng)推導(dǎo)一遍并且細細研究里面的緣由的話,面試起來應(yīng)該什么都不怕,問什么問題都可以由公式推導(dǎo)得到結(jié)論,不管問什么,公式擺在那里,影響這個公式的變量就在那,你問什么我答什么。。共勉!!

一、SVM簡介

SVM 是一種二類分類模型。它的基本思想是在特征空間中尋找間隔最大的分離超平面使數(shù)據(jù)得到高效的二分類,具體來講,有三種情況(不加核函數(shù)的話就是個線性模型,加了之后才會升級為一個非線性模型):

  • 當(dāng)訓(xùn)練樣本線性可分時,通過硬間隔最大化,學(xué)習(xí)一個線性分類器,即線性可分支持向量機;

  • 當(dāng)訓(xùn)練數(shù)據(jù)近似線性可分時,引入松弛變量,通過軟間隔最大化,學(xué)習(xí)一個線性分類器,即線性支持向量機;

  • 當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時,通過使用核技巧及軟間隔最大化,學(xué)習(xí)非線性支持向量機。

二、SVM 為什么采用間隔最大化(與感知機的區(qū)別)

當(dāng)訓(xùn)練數(shù)據(jù)線性可分時,存在無窮個分離超平面可以將兩類數(shù)據(jù)正確分開。感知機利用誤分類最小策略,求得分離超平面,不過此時的解有無窮多個。線性可分支持向量機利用間隔最大化求得最優(yōu)分離超平面,這時,解是唯一的。另一方面,此時的分隔超平面所產(chǎn)生的分類結(jié)果是最魯棒的,對未知實例的泛化能力最強。

三、SVM的目標(biāo)(硬間隔)

有兩個目標(biāo):

  • 第一個是使間隔最大化,

  • 第二個是使樣本正確分類,

稍微解釋一下, 是超平面參數(shù),目標(biāo)一是從點到面的距離公式化簡來的,具體不展開,目標(biāo)二就相當(dāng)于感知機,只是把大于等于0進行縮放變成了大于等于1,為了后面的推導(dǎo)方便。有了兩個目標(biāo),寫在一起,就變成了svm的終極目標(biāo):

四、求解目標(biāo)(硬間隔)

從上面的公式看出,這是一個有約束條件的最優(yōu)化問題,用拉格朗日函數(shù)來解決。

上式的拉格朗日函數(shù)為:

在滿足Slater定理的時候,且過程滿足KKT條件的時候,原問題轉(zhuǎn)換成對偶問題:

先求內(nèi)部最小值,對 和 求偏導(dǎo)并令其等于0可得:

將其代入到上式中去可得到

此時需要求解 ,利用SMO(序列最小優(yōu)化)算法:

SMO算法的基本思路是每次選擇兩個變量 和 ,選取的兩個變量所對應(yīng)的樣本之間間隔要盡可能大,因為這樣更新會帶給目標(biāo)函數(shù)值更大的變化。SMO算法之所以高效,是因為僅優(yōu)化兩個參數(shù)的過程實際上僅有一個約束條件,其中一個可由另一個表示,這樣的二次規(guī)劃問題具有閉式解。

五、軟間隔

不管直接在原特征空間,還是在映射的高維空間,我們都假設(shè)樣本是線性可分的。雖然理論上我們總能找到一個高維映射使數(shù)據(jù)線性可分,但在實際任務(wù)中,尋找一個合適的核函數(shù)核很困難。此外,由于數(shù)據(jù)通常有噪聲存在,一味追求數(shù)據(jù)線性可分可能會使模型陷入過擬合,因此,我們放寬對樣本的要求,允許少量樣本分類錯誤。這樣的想法就意味著對目標(biāo)函數(shù)的改變,之前推導(dǎo)的目標(biāo)函數(shù)里不允許任何錯誤,并且讓間隔最大,現(xiàn)在給之前的目標(biāo)函數(shù)加上一個誤差,就相當(dāng)于允許原先的目標(biāo)出錯,引入松弛變量 ,公式變?yōu)?#xff1a;

那么這個松弛變量怎么計算呢,最開始試圖用0,1損失去計算,但0,1損失函數(shù)并不連續(xù),求最值時求導(dǎo)的時候不好求,所以引入合頁損失(hinge loss):

函數(shù)圖長這樣:

理解起來就是,原先制約條件是保證所有樣本分類正確, ,現(xiàn)在出現(xiàn)錯誤的時候,一定是這個式子不被滿足了,即 錯誤 ,衡量一下錯了多少呢?因為左邊一定小于1,那就跟1比較,因為1是邊界,所以用1減去 來衡量錯誤了多少,所以目標(biāo)變?yōu)?#xff08;正確分類的話損失為0,錯誤的話付出代價):

但這個代價需要一個控制的因子,引入C>0,懲罰參數(shù),即:

可以想象,C越大說明把錯誤放的越大,說明對錯誤的容忍度就小,反之亦然。當(dāng)C無窮大時,就變成一點錯誤都不能容忍,即變成硬間隔。實際應(yīng)用時我們要合理選取C,C越小越容易欠擬合,C越大越容易過擬合。

所以軟間隔的目標(biāo)函數(shù)為:

其中:

六、軟間隔求解

與硬間隔類似:

上式的拉格朗日函數(shù)為:

在滿足Slater定理的時候,且過程滿足KKT條件的時候,原問題轉(zhuǎn)換成對偶問題:

先求內(nèi)部最小值,對 , 和 求偏導(dǎo)并令其等于 可得:

將其代入到上式中去可得到,注意 被消掉了:

此時需要求解 ,同樣利用SMO(序列最小優(yōu)化)算法。

七. 核函數(shù)

為什么要引入核函數(shù):

當(dāng)樣本在原始空間線性不可分時,可將樣本從原始空間映射到一個更高維的特征空間,使得樣本在這個特征空間內(nèi)線性可分。而引入這樣的映射后,所要求解的對偶問題的求解中,無需求解真正的映射函數(shù),而只需要知道其核函數(shù)。核函數(shù)的定義:K(x,y)=<?(x),?(y)>,即在特征空間的內(nèi)積等于它們在原始樣本空間中通過核函數(shù) K 計算的結(jié)果。一方面數(shù)據(jù)變成了高維空間中線性可分的數(shù)據(jù),另一方面不需要求解具體的映射函數(shù),只需要給定具體的核函數(shù)即可,這樣使得求解的難度大大降低。

用自己的話說就是,在SVM不論是硬間隔還是軟間隔在計算過程中,都有X轉(zhuǎn)置點積X,若X的維度低一點還好算,但當(dāng)我們想把X從低維映射到高維的時候(讓數(shù)據(jù)變得線性可分時),這一步計算很困難,等于說在計算時,需要先計算把X映射到高維的的?(x),再計算?(x1)和?(x2)的點積,這一步計算起來開銷很大,難度也很大,此時引入核函數(shù),這兩步的計算便成了一步計算,即只需把兩個x帶入核函數(shù),計算核函數(shù),舉個列子一目了然(圖片來自:從零推導(dǎo)支持向量機):

個人對核函數(shù)的理解:核函數(shù)就是一個函數(shù),接收兩個變量,這兩個變量是在低維空間中的變量,而核函數(shù)求的值等于將兩個低維空間中的向量映射到高維空間后的內(nèi)積。

八. 如何確定一個函數(shù)是核函數(shù)

驗證正定核啥的,咱也不太懂,給出:

設(shè) , 是定義在 上的對稱函數(shù),如果對任意的 , 對應(yīng)的Gram矩陣 是半正定矩陣,則 是正定核

所以不懂,就用人家確定好的常見核函數(shù)及其優(yōu)缺點:

九. 如何選擇核函數(shù):

  • 當(dāng)特征維數(shù) 超過樣本數(shù) 時 (文本分類問題通常是這種情況), 使用線性核;

  • 當(dāng)特征維數(shù) 比較小. 樣本數(shù) 中等時, 使用RBF核;

  • 當(dāng)特征維數(shù) 比較小. 樣本數(shù) 特別大時, 支持向量機性能通常不如深度神經(jīng)網(wǎng)絡(luò)

十. 關(guān)于支持向量的問題

1. 先說硬間隔:

先看KKT條件

  • 主問題可行:

  • 對偶問題可行:

  • 互補松弛:

支持向量,對偶變量 對應(yīng)的樣本;

  • 線性支持向量機中, 支持向量是距離劃分超平面最近的樣本, 落在最大間隔邊界上。

證明:由線性支持向量機的KKT 條件可知,。當(dāng) 時,,即

  • 支持向量機的參數(shù) (w; b) 僅由支持向量決定, 與其他樣本無關(guān)。

2. 再說軟間隔:

先看kkt條件:

  • 主問題可行:

  • 對偶問題可行:

  • 互補松弛:

經(jīng)過SMO后,求得 , 。

對于任意樣本 ,

  • 若 ,此樣本點不是支持向量,該樣本對模型沒有任何的作用

  • 若 ,此樣本是一個支持向量(同硬間隔)

若滿足 ,進一步地,

  • 若 , 則 ,即剛好 ,樣本恰好在最大間隔邊界上

  • 若 ,有 ,此時若 則該樣本落在最大間隔內(nèi)部

  • 若 則該樣本落在最大間隔內(nèi)部(不屬于自己的另一部分)即被錯誤分類 如圖:

十一. 談?wù)凷VM的損失函數(shù)

此處說的是軟間隔:

先看軟間隔的基本型形式:

稍微做一點變化:

這樣寫是為了符合標(biāo)準(zhǔn)的損失函數(shù)+正則化的樣子,其中, 第一項稱為經(jīng)驗風(fēng)險, 度量了模型對訓(xùn)練數(shù)據(jù)的擬合程度; 第二項稱為結(jié)構(gòu)風(fēng)險, 也稱為正則化項, 度量 了模型自身的復(fù)雜度. 正則化項削減了假設(shè)空間, 從而 降低過擬合風(fēng)險. λ 是個可調(diào)節(jié)的超參數(shù), 用于權(quán)衡經(jīng)驗風(fēng)險和結(jié)構(gòu)風(fēng)險.

其中:

這樣的話給上式乘以mc,就會變成上上式了。

十二. 為什么SVM對缺失數(shù)據(jù)敏感?

這里說的缺失數(shù)據(jù)是指缺失某些特征數(shù)據(jù),向量數(shù)據(jù)不完整。SVM 沒有處理缺失值的策略。而 SVM 希望樣本在特征空間中線性可分,所以特征空間的好壞對SVM的性能很重要。缺失特征數(shù)據(jù)將影響訓(xùn)練結(jié)果的好壞。

十三. SVM的優(yōu)缺點:

優(yōu)點:

  • 由于SVM是一個凸優(yōu)化問題,所以求得的解一定是全局最優(yōu)而不是局部最優(yōu)。

  • 不僅適用于線性線性問題還適用于非線性問題(用核技巧)。

  • 擁有高維樣本空間的數(shù)據(jù)也能用SVM,這是因為數(shù)據(jù)集的復(fù)雜度只取決于支持向量而不是數(shù)據(jù)集的維度,這在某種意義上避免了“維數(shù)災(zāi)難”。

  • 理論基礎(chǔ)比較完善(例如神經(jīng)網(wǎng)絡(luò)就更像一個黑盒子)。

缺點:

  • 二次規(guī)劃問題求解將涉及m階矩陣的計算(m為樣本的個數(shù)), 因此SVM不適用于超大數(shù)據(jù)集。(SMO算法可以緩解這個問題)

  • 只適用于二分類問題。(SVM的推廣SVR也適用于回歸問題;可以通過多個SVM的組合來解決多分類問題)看了這篇文章你還不懂SVM你就來打我[1]SVM 高頻面試題[2]從零推導(dǎo)支持向量機(SVM)[3]

本文參考資料

[1]

看了這篇文章你還不懂SVM你就來打我: https://zhuanlan.zhihu.com/p/49331510

[2]

SVM 高頻面試題: https://zhuanlan.zhihu.com/p/43827793

[3]

從零推導(dǎo)支持向量機(SVM): https://zhuanlan.zhihu.com/p/31652569

-?END?-

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習(xí)在線手冊深度學(xué)習(xí)在線手冊AI基礎(chǔ)下載(pdf更新到25集)本站qq群1003271085,加入微信群請回復(fù)“加群”獲取一折本站知識星球優(yōu)惠券,請回復(fù)“知識星球”喜歡文章,點個在看

總結(jié)

以上是生活随笔為你收集整理的关于SVM,面试官们都怎么问的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。