逻辑回归与朴素贝叶斯的战争
0
一起走過的
?
首先,小夕帶領大家回顧一下文章《邏輯回歸》、《Sigmoid與Softmax》、《樸素貝葉斯》中的幾點內容,這幾點內容也是本文的前置知識:
1. 邏輯回歸模型的表達式(假設函數):,其中。
2. 邏輯回歸模型本質上是二類分類問題中其中一個類別的后驗概率。
3.?用于二類分類的sigmoid函數只是用于多類分類的softmax函數的一個特例。
4. 樸素貝葉斯模型本質上計算并比較的是某樣本x與某類別y的聯合概率。
?如果對上述前置知識有疑問,小夕強烈建議再參考那三篇文章理解一下哦。
?
好了,上面的知識在本文中已默認為常識,不再額外解釋啦~
1
戰爭導火索
在樸素貝葉斯模型中,P(x,y)是基于貝葉斯定理和獨立性假設來近似得到的,而不是像回歸模型計算P(y|x)那樣直接計算出來。那么有沒有一種表示來直接得到P(x,y)的表達式呢?
?
還記得我們在《sigmoid與softmax》中定義的,小夕將定義為向量w1與w2的“親密度”,而某個樣本x屬于某個類別的后驗概率P(y|x)就可以解讀為“類別y與樣本x的親密度占所有類別與樣本x的親密度之和的比例”,用數學語言(softmax)描述就是這樣子的(K為類別數,wj是小夕解讀過的描述類別j的向量,同時也是大眾理解的模型參數):
?
?
仔細觀察一下小夕用親密度解釋后驗概率的這句話,有沒有發現這句話非常生動的描繪了P(y|x)呢?(不是自夸啦\(//?//)\,下文要用到...)
--->?固定住x,因此計算親密度時忽略其他樣本的存在(準確講,忽略P(x)的分布情況),只關心當前的樣本x。
?
那如果我們要描繪P(x,y)呢?描繪x與y的聯合概率分布的話,肯定既要描繪出全部的y的情況,又要描繪出全部的x的情況,機智的你或許已經想到了,那我們不固定x了,而是考慮全部的x不就行啦。所以,某樣本x與某類別y的聯合概率P(x,y)就是“類別y與樣本x的親密度占所有類別與所有樣本的親密度之和的比例”,也就是只需要讓分母照顧到所有樣本就行啦~所以:
?
?
沒錯,這就是樸素貝葉斯模型背后的東西,它本質上就是額外考慮了樣本x自身分布情況的邏輯回歸(多類時的softmax回歸)。所以本質上,邏輯回歸模型與樸素貝葉斯模型之間隔著的墻就是這個p(x)。一個優雅的數學公式總結一下:
?
?
于是機器學習模型基本上兵分兩路:像樸素貝葉斯這種,通過計算樣本x與類別y的聯合分布來進行分類的機器學習模型被稱為生成式模型;像邏輯回歸這種,在固定住特定樣本x的情況下,計算該樣本x與類別y的條件分布來進行分類的機器學習模型被稱為判別式模型。
?
有了這兩個定義以后,戰爭爆發了。
2
戰爭
?
戰爭焦點:以樸素貝葉斯模型為代表的判別式模型與以邏輯回歸為代表的生成式模型哪個更好呢?
?
理論上說,生成式模型不僅考慮(計算中包含)了后驗概率,又包含了樣本x自身的分布情況,因此比判別式模型涵蓋更多的信息量,所以應該更準確才是。但是實際上,從歷史戰況來看,除了文本分類等個別任務外,判別式模型的代表,邏輯回歸模型,往往比代表生成式模型的樸素貝葉斯模型表現更佳。
這是為什么呢?
從上文的樸素貝葉斯的公式可以看出,想要基于全部信息,來計算完整的p(x,y)其實是很困難的,因此需要像樸素貝葉斯一樣做一些獨立性假設才能近似計算p(x,y)。然而,這些假設又過度簡化了p(x),使得它的估計很不準確,導致哪怕在樸素貝葉斯模型表現優異的場景下,它對各個p(x,y)的計算實際上都是很不準的。
?
在此,有一個小實驗大家可以做一下:
用樸素貝葉斯分類器完成某個分類任務,記下分類器對每個預測結果的把握(即每個P(x,y))。然后把每個樣本的每一維度的特征復制成兩個。即讓X=[x1,x2,x3…]變成X=[x1,x1,x2,x2,x3,x3…],然后再訓練,然后看看對預測結果的把握有沒有增大或減小。
我們知道,這樣肯定不會帶來任何額外的信息量,也不會改變p(x)的分布,然而,這樣卻會導致樸素貝葉斯增大對預測結果的把握度,也就是增大了對p(x,y)的估計值,這顯然是大大的誤差。
?
而判別式模型,由于固定了x值,所以不會考慮p(x)的問題,也就是說對p(x)的分布呈中立態度,自然不會因此引入額外的誤差。而對于分類問題,去考慮和計算p(x)的分布情況本就是多此一舉的,因此,反倒是判別式模型往往要優于生成式模型的。
?
所以,暫且就認為樸素貝葉斯模型戰敗了。
3
戰后悄悄話
?
然而,就像樸素貝葉斯與邏輯回歸這個生成式-判別式對,同樣的戰爭蔓延到了分類之外的戰場上...
?
欲知后事如何,且聽小夕下回,也可能下下回,或者下下下回,或者...
總結
以上是生活随笔為你收集整理的逻辑回归与朴素贝叶斯的战争的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Spring Cloud构建微服务架构:
- 下一篇: 美团外卖客户端高可用建设体系