日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

支持向量机的最大分类间隔(转)

發(fā)布時(shí)間:2023/12/20 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 支持向量机的最大分类间隔(转) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

SVM算法在在1995年正式發(fā)表,在針對(duì)中小型數(shù)據(jù)規(guī)模的分類(lèi)任務(wù)上有著卓越的效果,同時(shí)有著完整的理論證明,在20世紀(jì)末的幾年和21世紀(jì)初的10年完勝神經(jīng)網(wǎng)絡(luò),吳恩達(dá)在其2003年的《Machien learning》公開(kāi)課上用兩節(jié)課的時(shí)間對(duì)其進(jìn)行講解,而神經(jīng)網(wǎng)絡(luò)講解了20min左右。就是這個(gè)算法把神經(jīng)網(wǎng)絡(luò)按在地上摩擦了大概15年的時(shí)間,直到深度學(xué)習(xí)的興起。但即便這樣,現(xiàn)在SVM算法依舊被廣泛的使用。?
SVM大概的可以不確切的分為三個(gè)程度理解:?
(1)線性可分情況下的線性分類(lèi)器,這是最原始的SVM,它最核心的思想就是最大的分類(lèi)間隔(margin maximization);?
(2)線性不可分情況下的線性分類(lèi)器,引入了軟間隔(soft margin)的概念;?
(3)線性不可分情況下的非線性分類(lèi)器,是SVM與核函數(shù)(kernel function)的結(jié)合。?
在下面只會(huì)第一部分的內(nèi)容。

什么是最大分類(lèi)間隔

SVM最大分類(lèi)間隔的靈感來(lái)自于一個(gè)非常符合直覺(jué)的觀察,如果存在兩類(lèi)數(shù)據(jù),數(shù)據(jù)的特征是二維的,那么我們就可以把數(shù)據(jù)畫(huà)在一個(gè)二維平面上,此時(shí)我想找到一個(gè)決策面(決策邊界)去將這兩類(lèi)數(shù)據(jù)分開(kāi)。如下圖所示:?
?
理論上這個(gè)決策邊界有無(wú)數(shù)種選擇,就像圖中畫(huà)出的四條黑色的線,都能實(shí)現(xiàn)分類(lèi),但是哪一種是最好的分類(lèi)方式呢?SVM算法認(rèn)為在上圖中靠近決策平邊界的點(diǎn)(正負(fù)樣本)與決策邊界的距離最大時(shí),是最好的分類(lèi)選擇:?
?
上圖中紅色的線就是要優(yōu)化的目標(biāo),它表征了數(shù)據(jù)到?jīng)Q策邊界的距離,這個(gè)距離就是所謂的最大分類(lèi)間隔。同時(shí)在上面的幾個(gè)數(shù)據(jù),如果靠近兩側(cè)的數(shù)據(jù)少了幾個(gè),也不會(huì)影響決策邊界的確定,而被紅色框框出來(lái)三個(gè)數(shù)據(jù)才決定了最終的決策邊界,所以這三個(gè)數(shù)據(jù)被稱(chēng)之為支持向量。

線性分類(lèi)器

支持向量機(jī)算法如何實(shí)現(xiàn)最大分類(lèi)間隔的任務(wù)呢?我們可以先從線性分類(lèi)器開(kāi)始理解它,支持向量在沒(méi)有引入核函數(shù)的時(shí)候就是一個(gè)線性的分類(lèi)器,我們假設(shè)與決策邊界垂直的向量(決策面的法向量)為V:?
?
黑色的線是假設(shè)的決策邊界,X1和X2是決策邊界兩側(cè)的兩個(gè)點(diǎn),Xt1和Xt2是兩個(gè)點(diǎn)在法向量V上面的投影,那么可以很直觀看到,原點(diǎn)到Xt1的距離<原點(diǎn)到Xt2的距離,而且可以推廣延伸到只要數(shù)據(jù)點(diǎn)在決策邊界的兩側(cè),那么在決策邊界左側(cè)的數(shù)據(jù)點(diǎn)在法向量上面的投影距離永遠(yuǎn)比右側(cè)的距離短,這就是支持向量機(jī)實(shí)現(xiàn)分類(lèi)預(yù)測(cè)的依據(jù)。那么怎么用公式表征出這個(gè)點(diǎn)到直線投影的距離呢??
可以做這樣一個(gè)假設(shè)驗(yàn)證一下:?
?
如上圖中的情況所示:要求向量b在向量a上的投影距離d,向量的內(nèi)積可以表示為:?
?
于是角度的余弦為:?
?
距離d可以表示為:?

而在SVM的特征空間中,a是決策邊界的法向量,那么a為單位法向量的時(shí)候其模為1,所以就有:

最后我們把a(bǔ)和b換成上面設(shè)定的值就會(huì)有:?
?
有了這個(gè)東西,我們總能找到一個(gè)常數(shù)C分開(kāi)兩類(lèi)數(shù)據(jù),也就是說(shuō):

到了上面的公式后,問(wèn)題就非常的清晰了,法向量V其實(shí)就是決策邊界的系數(shù)(這是解析幾何里面的知識(shí)),那么大家肯定見(jiàn)過(guò)一種和它非常像的公式,叫做樣本空間下的超平面線性方程

線性分類(lèi)器就是這個(gè)樣子!!!?
不經(jīng)過(guò)sigmoid函數(shù)的Logistic模型也是這個(gè)樣子!!?
不激活的神經(jīng)網(wǎng)絡(luò)中的單個(gè)神經(jīng)元還是這個(gè)樣子!!

如何實(shí)現(xiàn)最大分類(lèi)間隔

從上面可以看到,此時(shí)的支持向量機(jī)(沒(méi)有加核函數(shù))就是個(gè)線性的分類(lèi)器,它的卓越性能就體現(xiàn)在在線性分類(lèi)器基礎(chǔ)上的最大分類(lèi)間隔。?
所以本質(zhì)上SVM要訓(xùn)練的參數(shù)只有w和b,關(guān)鍵就在于SVM如何在優(yōu)化中體現(xiàn)最大分類(lèi)間隔的思想!?
針對(duì)所有的訓(xùn)練數(shù)據(jù)(traindata),SVM都希望:?
?
這里的正負(fù)1就體現(xiàn)的最大分類(lèi)間隔,這里是選擇用正負(fù)1是為了計(jì)算方便,因?yàn)闊o(wú)論間隔是多少,都可以依靠伸縮w和b約為1。上述公式就是SVM的最大間隔假設(shè)。如下圖:?
?
在這個(gè)圖中,決策邊界兩邊的線之間的距離(最大間隔)為:?
?
它是這樣求出來(lái)的,數(shù)據(jù)中的支持向量在影響著最大間隔,那么假設(shè)兩個(gè)支持向量x1和x2分別為正負(fù),最大間隔就應(yīng)該是x2-x1在法向量上的投影:?
?
所以求取d的過(guò)程為:?
?
?
這就是SVM的優(yōu)化目標(biāo),它想要找到max(d),然后大家可能發(fā)現(xiàn)了,這個(gè)目標(biāo)里面沒(méi)有b,之和w有關(guān),那么是不是任意的b都可以呢??
顯然不是的,這個(gè)優(yōu)化有一個(gè)約束條件,因?yàn)橥茖?dǎo)的過(guò)程就有假設(shè)條件是兩個(gè)支持向量要求在兩側(cè),所以這個(gè)約束條件可以寫(xiě)成:?

所以最終的目標(biāo)為:

?
或者為:?
?
需要注意的是,約束條件中的i=1…….n,n為樣本的個(gè)數(shù)。

總結(jié)

以上是生活随笔為你收集整理的支持向量机的最大分类间隔(转)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。