當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习——PAC

發(fā)布時間：2024/3/12 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习——PAC 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

一、數(shù)據(jù)壓縮
二、可視化
三、PAC問題規(guī)劃1
四、PAC問題規(guī)劃2
五、主成分?jǐn)?shù)量選擇
六、應(yīng)用PAC的建議

提示：本文是基于吳恩達(dá)老師機(jī)器學(xué)習(xí)視頻總結(jié)

一、數(shù)據(jù)壓縮

降維首先是可以用于數(shù)據(jù)壓縮的，例如將2維數(shù)據(jù)降維成一維數(shù)據(jù)，如下圖所示：

二、可視化

降維還可以將原本無法可視化的數(shù)據(jù)通過降維從而進(jìn)行可視化。
如下圖是各國的各項數(shù)據(jù)，因為特征較多，因此無法進(jìn)行可視化：

將這50維的數(shù)據(jù)壓縮為2維，之前需要一個向量中50個實(shí)數(shù)表示一個國家，想在只需要2個實(shí)數(shù)。

三、PAC問題規(guī)劃1

我們直觀的看一下PAC的效果。

假設(shè)我們已經(jīng)通過算法選擇了要投影的線是橙色那條，那么我們可以用藍(lán)色的線繪制出它的投影誤差，我們要做的其實(shí)就是時投影誤差盡可能地小。
為了作出對比，我們繪制了下面一條粉紅色的線，可以見到它的投影誤差則是比較大的。

假如我們想從2維壓縮成1維：那么就需要找到一個向量（方向沒有關(guān)系），使得數(shù)據(jù)的投影誤差最小。
進(jìn)行推廣，我們可以得到多維壓縮的定義。假如我們想從n維壓縮成k維：那么就需要找到k個向量u(1)、u(2)、…、u(k)，使得數(shù)據(jù)的投影誤差最小。

上圖是展示了線性回歸和PCA的區(qū)別，如圖所示：（左圖代表線性回歸，右圖代表PCA）

四、PAC問題規(guī)劃2

在我們進(jìn)行PCA處理前，我們首先需要對數(shù)據(jù)進(jìn)行預(yù)處理。
其中我們需要將數(shù)據(jù)進(jìn)行均值歸一化（歸一化問題可以看這篇文章），也就是進(jìn)行下列操作：

下面介紹具體如何使用PCA算法：
現(xiàn)在假設(shè)我們需要將n維度的數(shù)據(jù)降成k維度
1、首先要先計算出協(xié)方差，具體表達(dá)式如下：（其中σ是一個n*n的矩陣）

2、通過SVD函數(shù)計算出協(xié)方差σ的特征向量

3、我們需要使用的是U矩陣（n*n的矩陣），如下圖所示

4、因為我們想降至k維，因此我們就要從U矩陣中取出u₍₁₎~ u_(k) ，從而構(gòu)建新的矩陣(n*k的矩陣)，稱為U_reduce

5、最后我們要將n維的x降成k維的z,其中z=(U_reduce)^TX

五、主成分?jǐn)?shù)量選擇

在利用PCA算法的時候，我們需要確定降至的維度k，這個k同樣也被稱為數(shù)據(jù)主要成分的數(shù)量或者數(shù)據(jù)的主要成分保留的數(shù)量，這一小節(jié)就來討論一下如何選擇k。
PCA算法主要做的工作就是最小化average squard projection error，也就是要最小化下面這個表達(dá)式：

同時，我們還需要定義total variation（可以理解為樣本和全零點(diǎn)之間的舉例），也就是下面這個表達(dá)式:

當(dāng)我們想要選擇k時，通用的原則是選擇下面不等式成立的最小k，如下所示：

并且，我們也可以調(diào)整0.01這個數(shù)字來調(diào)整被保留的完整性。上式就表示百分之99的方差被保留了下來。

下面介紹如何完成k選擇的算法：

1.我們從k=1開始，使用PCA算法計算這些值
2.然后檢查不等式是否成立
3.如果不成立就換k=2，k=3，…，如此繼續(xù)。假設(shè)到k=17時成立了，那么就選擇k=17

如此可見，上面這個算法比較麻煩，好在svd方法提供了簡便的計算方式。

1.首先我們通過svd算法得到相應(yīng)的矩陣

2.S矩陣是一個對角矩陣，只有對角線上的數(shù)字非零

3.然后我們就開始計算過程，我們可以用下面的表達(dá)式代替計算之前的不等式。假設(shè)我們計算k=3，分子就是S11、S22、S33求和，分母是全部對角線元素求和。我們要檢查的就是它是否小于等于0.01，同樣是選擇能夠滿足不等式的最小k

如果這樣做，你就只需要調(diào)用一次svd，節(jié)省了許多時間

六、應(yīng)用PAC的建議

下面則是介紹了PCA算法在較少數(shù)據(jù)維度的應(yīng)用,如下圖所示：

基本思想：將原本高維度的數(shù)據(jù)x降至低維度的z，然后采用z建立模型進(jìn)行訓(xùn)練。

需要特別注意以下幾個方面：
1、PCA算法只能運(yùn)行在訓(xùn)練集上，在交叉驗證集或測試集中同樣也是使用訓(xùn)練集建立的映射。（也就是在后面進(jìn)行預(yù)測時要使用測試集計算出來的Ureduce）
2、不要使用PCA去防止過擬合，因此PCA可能會損失一些重要的特征，使用正則化的方法去防止過擬合更有效果
3、如果能夠在不使用PCA的情況下計算得到結(jié)果，那么就不要使用PCA。如果沒辦法計算得到（運(yùn)行性太慢等等情況），再使用PCA。

總結(jié)

以上是生活随笔為你收集整理的机器学习——PAC的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

机器
pac

上一篇：没钱去巴西? 谷歌地图街景带你游览比赛场
下一篇：临界区互斥事件信标的区别