【机器学习】当贝叶斯、奥卡姆和香农一起来定义机器学习时
?
介紹
在機器學(xué)習(xí)的所有高級流行語中,我們很少聽到一個短語將統(tǒng)計學(xué)習(xí)、信息論和自然哲學(xué)的一些核心概念融合成一個三個單詞的組合。
并且,它不僅僅是一個用于機器學(xué)習(xí)(ML)博士和理論家的短語。對于任何有興趣探索的人來說,它都具有精確且易于理解的含義,而且對于機器學(xué)習(xí)(ML)和數(shù)據(jù)科學(xué)的實踐者來說,它是一種實用的回報。
我們說的是最小描述長度(Minimum Description Length)。你可能會想這到底是什么…
?
貝葉斯和他的定理
?
那是18世紀下半葉,當時還沒有叫做“概率論”的數(shù)學(xué)科學(xué)分支。人們知道這一點,僅僅是因為聽起來頗為奇怪的“機會主義”——以亞伯拉罕?德?莫耶弗(Abraham de Moievre)的一本書命名。1763年,一篇名為《關(guān)于解決機會主義問題的論文》的文章被讀給皇家學(xué)會,并發(fā)表在《倫敦皇家學(xué)會哲學(xué)學(xué)報》上。在這篇文章中,貝葉斯用一種相當頻繁的方式描述了一個關(guān)于聯(lián)合概率的簡單定理,它導(dǎo)致了反概率的計算,即貝葉斯定理。
從那以后,統(tǒng)計科學(xué)的兩個敵對派別——貝葉斯學(xué)派和弗倫庫姆斯學(xué)派之間爆發(fā)了多次爭論。讓我們暫時忽略歷史,集中于對貝葉斯推理機制的簡單解釋。我只關(guān)注方程。
?
這基本上告訴您在看到數(shù)據(jù)/證據(jù)(可能性)后更新您的belief (先驗概率)并將更新的degree of belief 分配給后驗概率你可以從一個belief開始,但是每個數(shù)據(jù)點要么加強要么削弱你的belief,你會一直更新你的假設(shè)。
在統(tǒng)計推斷的世界中,假設(shè)是一種belief 。這是一種關(guān)于過程本質(zhì)的belief(我們永遠無法觀察到),它是在產(chǎn)生一個隨機變量(我們可以觀察或測量它,盡管不是沒有噪聲)之后。在統(tǒng)計學(xué)中,它通常被定義為一個概率分布。但在機器學(xué)習(xí)的背景下,它可以被認為是任何一套規(guī)則(邏輯或過程),我們相信,這些規(guī)則可以產(chǎn)生例子或訓(xùn)練數(shù)據(jù),我們被賦予學(xué)習(xí)這個神秘過程的隱藏本質(zhì)。
所以,讓我們試著在不同的符號中重新定義貝葉斯定理——與數(shù)據(jù)科學(xué)相關(guān)的符號。我們用D表示數(shù)據(jù),用h表示假設(shè),這意味著我們使用貝葉斯公式來確定數(shù)據(jù)來自什么假設(shè),給定數(shù)據(jù)。我們把定理重寫為,
?
現(xiàn)在,一般來說,我們有一個很大的(通常是無限的)假設(shè)空間,即許多假設(shè)可供選擇。貝葉斯推斷的本質(zhì)是我們想要檢查數(shù)據(jù)以最大化一個假設(shè)的概率,該假設(shè)最有可能產(chǎn)生觀察到的數(shù)據(jù)。我們基本上想要確定P(h | D)的argmax,即我們想知道哪個h,觀察到的D最有可能。為此,我們可以把這個項放到分母P(D)中因為它不依賴于假設(shè)。這一方案以極大后驗(MAP)這個饒舌的名字而聞名。
現(xiàn)在,我們應(yīng)用以下數(shù)學(xué)技巧,
- 對于原函數(shù),即取對數(shù),極大化的工作原理與之相似,但這并沒有改變極大化的問題。
- 乘積的對數(shù)是各個對數(shù)的總和
- 數(shù)量的最大化等同于負數(shù)量的最小化
?
這來自信息論
?
香農(nóng)
要描述克勞德·香農(nóng)的天才和奇異的一生,需要大量的篇幅。香農(nóng)幾乎是單槍匹馬奠定了信息論的基礎(chǔ),引領(lǐng)我們進入了現(xiàn)代高速通信和信息交流的時代。
香農(nóng)在麻省理工學(xué)院(mit)的電子工程碩士論文被稱為20世紀最重要的碩士論文:22歲的香農(nóng)在論文中展示了如何利用繼電器和開關(guān)的電子電路實現(xiàn)19世紀數(shù)學(xué)家喬治布爾(George Boole)的邏輯代數(shù)。數(shù)字計算機設(shè)計的最基本的特征——“True”、“False”、“0”和“1”的表示作為打開或關(guān)閉的開關(guān),以及使用電子邏輯門來做決策和執(zhí)行算術(shù)——可以追溯到香農(nóng)論文中的見解。
但這還不是他最大的成就。
1941年,香農(nóng)去了貝爾實驗室,在那里他從事戰(zhàn)爭事務(wù),包括密碼學(xué)。他還在研究信息和通信背后的原創(chuàng)理論。1948年,貝爾實驗室的研究雜志發(fā)表了一篇著名的論文。
香農(nóng)定義了由一個源所產(chǎn)生的信息數(shù)量, 例如, 消息中的數(shù)量, 這個公式類似于物理中定義熱力學(xué)熵的方程式。在最基本的術(shù)語中, 香農(nóng)的信息熵是編碼消息所需的二進制位數(shù)。對于具有概率 p 的消息或事件, 該消息的最有效 (即緊湊) 編碼將需要-log2 (p) 位。
這正是出現(xiàn)在貝葉斯定理中的最大后驗表達式中出現(xiàn)的那些術(shù)語的本質(zhì)!
因此,我們可以說,在貝葉斯推理的世界中,最可能的假設(shè)依賴于兩項,這兩項喚起了長度的感覺——而不是最小長度。
?
Length(h):奧卡姆剃刀
奧克漢姆的威廉(約1287-1347)是一位英國Franciscan修士和神學(xué)家,也是一位有影響力的中世紀哲學(xué)家。作為一個偉大的邏輯學(xué)家,他的名聲主要來自于他的格言,也就是眾所周知的奧卡姆剃刀。剃刀一詞指的是通過“剔除”不必要的假設(shè)或割裂兩個相似的結(jié)論來區(qū)分兩個假設(shè)。
確切地說,他說的是:“實體非必然的多元必然性”(實體不能超過必然性而倍增)。用統(tǒng)計學(xué)的話說,這意味著我們必須努力用最簡單的假設(shè)來解釋所有的數(shù)據(jù)。
類似的原則得到了其他杰出人物的響應(yīng)。
艾薩克·牛頓爵士:“我們不應(yīng)該承認任何自然事物的原因,就像那些既真實又足以解釋其表象的事物一樣。”
Bertrand Russell:“只要可能,用已知實體的結(jié)構(gòu)替換未知實體的推論。”
下列哪一個決策樹具有較小的長度?A還是B?
?
即使沒有一個假設(shè)的“長度”的精確定義,我相信你會認為左邊(A)的樹看起來更小或更短。當然,你是對的。因此,一個更短的假設(shè)是一個要么自由參數(shù)更少,要么復(fù)雜決策邊界更少(對于一個分類問題)的假設(shè),或者這些屬性的組合可以表示它的簡潔性。
?
Length(D|h)
它是假設(shè)數(shù)據(jù)的長度。這是什么意思?
直覺上,它與假設(shè)的正確性或表征能力有關(guān)。除其他事項外,它還包含一個假設(shè),即“推斷”數(shù)據(jù)的好壞程度。如果假設(shè)真的很好地生成數(shù)據(jù)并且我們可以無錯誤地測量數(shù)據(jù),那么我們根本不需要數(shù)據(jù)。
想想牛頓運動定律。
它們最初出現(xiàn)在《Principia》一書中,并沒有任何嚴格的數(shù)學(xué)證明。它們不是定理。它們很像基于對自然物體運動的觀察而做出的假設(shè)。但是他們對數(shù)據(jù)的描述非常非常好。因此它們就變成了物理定律。
這就是為什么你不需要保持和記住所有可能的加速度數(shù)字作為一個力作用于物體的函數(shù)。你只需要相信compact hypothesis,即F=ma,并相信所有你需要的數(shù)字,都可以在必要時從它計算出來。它使得長度(D|h)非常小。
但是如果數(shù)據(jù)與compact hypothesis有很大的偏差,那么你需要對這些偏差有一個很長的描述,可能的解釋等等。
因此,Length(D|h)簡潔地表達了“數(shù)據(jù)與給定假設(shè)的吻合程度”的概念。
本質(zhì)上,它是錯誤分類或錯誤率的概念。對于完美的假設(shè),它是短的,在極限情況下為零。對于一個不完全符合數(shù)據(jù)的假設(shè),它往往比較長。
這就是權(quán)衡。
如果你用奧卡姆剃刀刮掉了你的假設(shè),你很可能會得到一個簡單的模型,一個不適合所有數(shù)據(jù)的模型。因此,你必須提供更多的數(shù)據(jù)來獲得更好的brief。另一方面,如果你創(chuàng)建一個復(fù)雜的(長時間的)假設(shè),你可能會很好地擬合你的訓(xùn)練數(shù)據(jù),但這實際上可能不是正確的假設(shè),因為它違背了具有小熵的假設(shè)的映射原則。
聽起來像是偏差差權(quán)衡?是的
?
?
三者結(jié)合
因此,貝葉斯推理告訴我們,最好的假設(shè)是最小化假設(shè)的長度和錯誤率這兩項之和。
在這個意義深遠的句子中,它幾乎囊括了所有(有監(jiān)督的)機器學(xué)習(xí)。
- 線性模型的模型復(fù)雜度-多項式選擇,如何減少殘差平方和。
- 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的選擇-如何不過度擬合訓(xùn)練數(shù)據(jù),達到良好的驗證精度,但減少分類誤差。
- 支持向量機正則化和核選擇-軟與硬邊界的平衡,即用決策邊界非線性來平衡精度。
?
結(jié)論
一個奇妙的事實是,如此簡單的一套數(shù)學(xué)操作就能在概率論的基本特征上產(chǎn)生如此深刻而簡潔的描述監(jiān)督機器學(xué)習(xí)的基本限制和目標。讀者可以參考卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)的博士論文《機器學(xué)習(xí)為何有效》(Why Machine Learning Works),以簡明地闡述這些問題。同樣值得思考的是,所有這些理論是如何與“沒有免費午餐定理”理論聯(lián)系起來的。
?
原文:https://towardsdatascience.com/when-bayes-ockham-and-shannon-come-together-to-define-machine-learning-96422729a1ad
?
總結(jié)
以上是生活随笔為你收集整理的【机器学习】当贝叶斯、奥卡姆和香农一起来定义机器学习时的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 无代码开发平台为什么能火?它是如何收费的
- 下一篇: 科研必备文献管理软件EndNote