机器学习理论引导 电子版_机器学习理论篇1:机器学习的数学基础(2)
本節主要就是講述的機器學習的數學基礎,提到數學基礎,可能一眼就會是滿眼的枯燥、沒意思,但是成就英雄的路上注定了孤獨,要想要真正的在學術上有所突破就必須挨得住寂寞,受得住孤獨,才能真正的走進熟悉直到完全掌握機器學習的真諦,萬事開頭難,而且做什么事情都要打好地基,空中樓閣并不是現實中存在的,所以我們從本期課程開始再次從基礎開始學習吧!本節內容為第三部分:概率。
三、概率
3-1、為什么使用概率?
概率論是用于表示不確定性陳述的數學框架,即它是對事物不確定性的度量。
在人工智能領域,我們主要以兩種方式來使用概率論。首先,概率法則告訴我們AI系統應該如何推理,所以我們設計一些算法來計算或者近似由概率論導出的表達式。其次,我們可以用概率和統計從理論上分析我們提出的AI系統的行為。
計算機科學的許多分支處理的對象都是完全確定的實體,但機器學習卻大量使用概率論。實際上如果你了解機器學習的工作原理你就會覺得這個很正常。因為機器學習大部分時候處理的都是不確定量或隨機量。
3-2、隨機變量
隨機變量可以隨機地取不同值的變量。我們通常用小寫字母來表示隨機變量本身,而用帶數字下標的小寫字母來表示隨機變量能夠取到的值。例如,X1 和?X2 都是隨機變量X可能的取值。
對于向量值變量,我們會將隨機變量寫成X,它的一個值為x。就其本身而言,一個隨機變量只是對可能的狀態的描述;它必須伴隨著一個概率分布來指定每個狀態的可能性。
隨機變量可以是離散的或者連續的。
3-3、概率分布
給定某隨機變量的取值范圍,概率分布就是導致該隨機事件出現的可能性。
從機器學習的角度來看,概率分布就是符合隨機變量取值范圍的某個對象屬于某個類別或服從某種趨勢的可能性。
3-4、條件概率
很多情況下,我們感興趣的是某個事件在給定其它事件發生時出現的概率,這種概率叫條件概率。
我們將給定X=x時Y=y發生的概率記為P(Y=y|X=x),這個概率可以通過下面的公式來計算:
3-5、貝葉斯公式
先看看什么是“先驗概率”和“后驗概率”,以一個例子來說明:
假設某種病在人群中的發病率是0.001,即1000人中大概會有1個人得病,則有:P(患病)=0.1%;即:在沒有做檢驗之前,我們預計的患病率為P(患病)=0.1%,這個就叫作"先驗概率"。
再假設現在有一種該病的檢測方法,其檢測的準確率為95%;即:如果真的得了這種病,該檢測法有95%的概率會檢測出陽性,但也有5%的概率檢測出陰性;或者反過來說,但如果沒有得病,采用該方法有95%的概率檢測出陰性,但也有5%的概率檢測為陽性。用概率條件概率表示即為:P(顯示陽性|患病)=95%
現在我們想知道的是:在做完檢測顯示為陽性后,某人的患病率P(患病|顯示陽性),這個其實就稱為"后驗概率"。
而這個叫貝葉斯的人其實就是為我們提供了一種可以利用先驗概率計算后驗概率的方法,我們將其稱為“貝葉斯公式”。
在這個例子里就是:
貝葉斯公式貫穿了機器學習中隨機問題分析的全過程。從文本分類到概率圖模型,其基本分類都是貝葉斯公式。
期望、方差、協方差等主要反映數據的統計特征,機器學習的一個很大應用就是數據挖掘等,因此這些基本的統計概念也是很有必要掌握。另外,像后面的EM算法中,就需要用到期望的相關概念和性質。
3-6、期望
在概率論和統計學中,數學期望是試驗中每次可能結果的概率乘以其結果的總和。它是最基本的數學特征之一,反映隨機變量平均值的大小。
假設X是一個離散隨機變量,其可能的取值有:{x1,x2,......,xn},各個取值對應的概率取值為:P(Xk),k=1,2,......,n,則其數學期望被定義為:
假設X是一個連續型隨機變量,其概率密度函數為則其數學期望被定義為:
3-7、方差
概率中,方差用來衡量隨機變量與其數學期望之間的偏離程度;統計中的方差為樣本方差,是各個樣本數據分別與其平均數之差的平方和的平均數。數學表達式如下:
3-8、協方差
在概率論和統計學中,協方差被用于衡量兩個隨機變量X和Y之間的總體誤差。數學定義式為:
3-9、常見分布函數
1)0-1分布
0-1分布是單個二值型離散隨機變量的分布,其概率分布函數為:
2)幾何分布
幾何分布是離散型概率分布,其定義為:在n次伯努利試驗中,試驗k次才得到第一次成功的機率。即:前k-1次皆失敗,第k次成功的概率。其概率分布函數為:
性質:
3)二項分布
二項分布即重復n次伯努利試驗,各次試驗之間都相互獨立,并且每次試驗中只有兩種可能的結果,而且這兩種結果發生與否相互對立。如果每次試驗時,事件發生的概率為p,不發生的概率為1-p,則n次重復獨立試驗中發生k次的概率為:
4)高斯分布
高斯分布又叫正態分布,其曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,如下圖所示:
5)指數分布
指數分布是事件的時間間隔的概率,它的一個重要特征是無記憶性。例如:如果某一元件的壽命的壽命為T,已知元件使用了t小時,它總共使用至少t+s小時的條件概率,與從開始使用時算起它使用至少s小時的概率相等。下面這些都屬于指數分布:
嬰兒出生的時間間隔
網站訪問的時間間隔
奶粉銷售的時間間隔
指數分布的公式可以從泊松分布推斷出來。如果下一個嬰兒要間隔時間t,就等同于t之內沒有任何嬰兒出生,即:
指數分布的圖像如下:
6)泊松分布
日常生活中,大量事件是有固定頻率的,比如:
某醫院平均每小時出生3個嬰兒
某網站平均每分鐘有2次訪問
某超市平均每小時銷售4包奶粉
它們的特點就是,我們可以預估這些事件的總數,但是沒法知道具體的發生時間。已知平均每小時出生3個嬰兒,請問下一個小時,會出生幾個?有可能一下子出生6個,也有可能一個都不出生,這是我們沒法知道的。
泊松分布就是描述某段時間內,事件具體的發生概率。其概率函數為:
其中:
P表示概率,N表示某種函數關系,t表示時間,n表示數量,1小時內出生3個嬰兒的概率,就表示為P(N(1)=3);λ表示事件的頻率。
還是以上面醫院平均每小時出生3個嬰兒為例,則λ=3;
那么,接下來兩個小時,一個嬰兒都不出生的概率可以求得為:
【注】上面的指數分布和泊松分布參考了阮一峰大牛的博客:“泊松分布和指數分布:10分鐘教程”,在此說明,也對其表示感謝!
3-10、Lagrange乘子法
對于一般的求極值問題我們都知道,求導等于0就可以了。但是如果我們不但要求極值,還要求一個滿足一定約束條件的極值,那么此時就可以構造Lagrange函數,其實就是把約束項添加到原函數上,然后對構造的新函數求導。
對于一個要求極值的函數f(x,y),圖上的藍圈就是這個函數的等高圖,就是說f(x,y)=c1,c2,...,cn 分別代表不同的數值(每個值代表一圈,等高圖),我要找到一組(x,y),使它的值ci越大越好,但是這點必須滿足約束條件g(x,y)(在黃線上)。
也就是說f(x,y)和g(x,y)相切,或者說它們的梯度▽f和▽g平行,因此它們的梯度(偏導)成倍數關系;那我么就假設為 λ 倍,然后把約束條件加到原函數后再對它求導,其實就等于滿足了下圖上的式子。
在支持向量機模型(SVM)的推導中一步很關鍵的就是利用拉格朗日對偶性將原問題轉化為對偶問題。
3-11、最大似然估計
最大似然也稱為最大概似估計,即:在“模型已定,參數θ未知”的情況下,通過觀測數據估計未知參數θ的一種思想或方法。
其基本思想是:給定樣本取值后,該樣本最有可能來自參數為何值的總體。即:尋找使得觀測到樣本數據的可能性最大。
舉個例子,假設我們要統計全國人口的身高,首先假設這個身高服從服從正態分布,但是該分布的均值與方差未知。由于沒有足夠的人力和物力去統計全國每個人的身高,但是可以通過采樣(所有的采樣要求都是獨立同分布的),獲取部分人的身高,然后通過最大似然估計來獲取上述假設中的正態分布的均值與方差。
求極大似然函數估計值的一般步驟:
1、寫出似然函數;
2、對似然函數取對數;
3、兩邊同時求導數;
4、令導數為0解出似然方程。
在機器學習中也會經常見到極大似然的影子。比如后面的邏輯斯特回歸模型(LR),其核心就是構造對數損失函數后運用極大似然估計。
矩陣做約
內容提要:
*天氣寒冷,注意保暖!
*寒假不可怕,就怕學霸玩轉寒假!
*知識點都已經寫得這么明顯了,你還要錯過嗎?
雷課:
? ? ? ?讓教育更有質量,
? ? ? ?讓教育更有想象!
總結
以上是生活随笔為你收集整理的机器学习理论引导 电子版_机器学习理论篇1:机器学习的数学基础(2)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 比亚迪汽车:某自媒体捏造“雇群众演员去
- 下一篇: catia如何整列加工_CATIA V5