机器学习——PAC
文章目錄
- 一、數(shù)據(jù)壓縮
- 二、可視化
- 三、PAC問題規(guī)劃1
- 四、PAC問題規(guī)劃2
- 五、主成分?jǐn)?shù)量選擇
- 六、應(yīng)用PAC的建議
提示:本文是基于吳恩達(dá)老師機(jī)器學(xué)習(xí)視頻總結(jié)
一、數(shù)據(jù)壓縮
降維首先是可以用于數(shù)據(jù)壓縮的,例如將2維數(shù)據(jù)降維成一維數(shù)據(jù),如下圖所示:
二、可視化
降維還可以將原本無法可視化的數(shù)據(jù)通過降維從而進(jìn)行可視化。
如下圖是各國的各項數(shù)據(jù),因為特征較多,因此無法進(jìn)行可視化:
將這50維的數(shù)據(jù)壓縮為2維,之前需要一個向量中50個實(shí)數(shù)表示一個國家,想在只需要2個實(shí)數(shù)。
三、PAC問題規(guī)劃1
我們直觀的看一下PAC的效果。
假設(shè)我們已經(jīng)通過算法選擇了要投影的線是橙色那條,那么我們可以用藍(lán)色的線繪制出它的投影誤差,我們要做的其實(shí)就是時投影誤差盡可能地小。
為了作出對比,我們繪制了下面一條粉紅色的線,可以見到它的投影誤差則是比較大的。
假如我們想從2維壓縮成1維:那么就需要找到一個向量(方向沒有關(guān)系),使得數(shù)據(jù)的投影誤差最小。
進(jìn)行推廣,我們可以得到多維壓縮的定義。假如我們想從n維壓縮成k維:那么就需要找到k個向量u(1)、u(2)、…、u(k),使得數(shù)據(jù)的投影誤差最小。
上圖是展示了線性回歸和PCA的區(qū)別,如圖所示:(左圖代表線性回歸,右圖代表PCA)
四、PAC問題規(guī)劃2
在我們進(jìn)行PCA處理前,我們首先需要對數(shù)據(jù)進(jìn)行預(yù)處理。
其中我們需要將數(shù)據(jù)進(jìn)行均值歸一化 (歸一化問題可以看這篇文章),也就是進(jìn)行下列操作:
下面介紹具體如何使用PCA算法:
現(xiàn)在假設(shè)我們需要將n維度的數(shù)據(jù)降成k維度
1、首先要先計算出協(xié)方差,具體表達(dá)式如下:(其中σ是一個n*n的矩陣)
2、通過SVD函數(shù)計算出協(xié)方差σ的特征向量
3、我們需要使用的是U矩陣(n*n的矩陣),如下圖所示
4、因為我們想降至k維,因此我們就要從U矩陣中取出u(1)~ u(k) ,從而構(gòu)建新的矩陣(n*k的矩陣),稱為Ureduce
5、最后我們要將n維的x降成k維的z,其中z=(Ureduce)TX
五、主成分?jǐn)?shù)量選擇
在利用PCA算法的時候,我們需要確定降至的維度k,這個k同樣也被稱為數(shù)據(jù)主要成分的數(shù)量或者數(shù)據(jù)的主要成分保留的數(shù)量,這一小節(jié)就來討論一下如何選擇k。
PCA算法主要做的工作就是最小化average squard projection error,也就是要最小化下面這個表達(dá)式:
同時,我們還需要定義total variation(可以理解為樣本和全零點(diǎn)之間的舉例),也就是下面這個表達(dá)式:
當(dāng)我們想要選擇k時,通用的原則是選擇下面不等式成立的最小k,如下所示:
并且,我們也可以調(diào)整0.01這個數(shù)字來調(diào)整被保留的完整性。上式就表示百分之99的方差被保留了下來。
下面介紹如何完成k選擇的算法:
1.我們從k=1開始,使用PCA算法計算這些值
2.然后檢查不等式是否成立
3.如果不成立就換k=2,k=3,…,如此繼續(xù)。假設(shè)到k=17時成立了,那么就選擇k=17
如此可見,上面這個算法比較麻煩,好在svd方法提供了簡便的計算方式。
1.首先我們通過svd算法得到相應(yīng)的矩陣
2.S矩陣是一個對角矩陣,只有對角線上的數(shù)字非零
3.然后我們就開始計算過程,我們可以用下面的表達(dá)式代替計算之前的不等式。假設(shè)我們計算k=3,分子就是S11、S22、S33求和,分母是全部對角線元素求和。我們要檢查的就是它是否小于等于0.01,同樣是選擇能夠滿足不等式的最小k
如果這樣做,你就只需要調(diào)用一次svd,節(jié)省了許多時間
六、應(yīng)用PAC的建議
下面則是介紹了PCA算法在較少數(shù)據(jù)維度的應(yīng)用,如下圖所示:
基本思想:將原本高維度的數(shù)據(jù)x降至低維度的z,然后采用z建立模型進(jìn)行訓(xùn)練。
需要特別注意以下幾個方面:
1、PCA算法只能運(yùn)行在訓(xùn)練集上,在交叉驗證集或測試集中同樣也是使用訓(xùn)練集建立的映射。(也就是在后面進(jìn)行預(yù)測時要使用測試集計算出來的Ureduce)
2、不要使用PCA去防止過擬合,因此PCA可能會損失一些重要的特征,使用正則化的方法去防止過擬合更有效果
3、如果能夠在不使用PCA的情況下計算得到結(jié)果,那么就不要使用PCA。如果沒辦法計算得到(運(yùn)行性太慢等等情況),再使用PCA。
總結(jié)
- 上一篇: 没钱去巴西? 谷歌地图街景带你游览比赛场
- 下一篇: 临界区 互斥 事件 信标的区别