Stanford UFLDL教程 池化Pooling
池化
Contents?[hide]
|
池化: 概述
在通過卷積獲得了特征 (features) 之后,下一步我們希望利用這些特征去做分類。理論上講,人們可以用所有提取得到的特征去訓練分類器,例如 softmax 分類器,但這樣做面臨計算量的挑戰。例如:對于一個 96X96 像素的圖像,假設我們已經學習得到了400個定義在8X8輸入上的特征,每一個特征和圖像卷積都會得到一個?(96 ? 8 + 1) * (96 ? 8 + 1) = 7921?維的卷積特征,由于有 400 個特征,所以每個樣例 (example) 都會得到一個?892?* 400 = 3,168,400?維的卷積特征向量。學習一個擁有超過 3 百萬特征輸入的分類器十分不便,并且容易出現過擬合 (over-fitting)。
為了解決這個問題,首先回憶一下,我們之所以決定使用卷積后的特征是因為圖像具有一種“靜態性”的屬性,這也就意味著在一個圖像區域有用的特征極有可能在另一個區域同樣適用。因此,為了描述大的圖像,一個很自然的想法就是對不同位置的特征進行聚合統計,例如,人們可以計算圖像一個區域上的某個特定特征的平均值 (或最大值)。這些概要統計特征不僅具有低得多的維度 (相比使用所有提取得到的特征),同時還會改善結果(不容易過擬合)。這種聚合的操作就叫做池化 (pooling),有時也稱為平均池化或者最大池化 (取決于計算池化的方法)。
下圖顯示池化如何應用于一個圖像的四塊不重合區域。
池化的不變性
如果人們選擇圖像中的連續范圍作為池化區域,并且只是池化相同(重復)的隱藏單元產生的特征,那么,這些池化單元就具有平移不變性 (translation invariant)。這就意味著即使圖像經歷了一個小的平移之后,依然會產生相同的 (池化的) 特征。在很多任務中 (例如物體檢測、聲音識別),我們都更希望得到具有平移不變性的特征,因為即使圖像經過了平移,樣例(圖像)的標記仍然保持不變。例如,如果你處理一個MNIST數據集的數字,把它向左側或右側平移,那么不論最終的位置在哪里,你都會期望你的分類器仍然能夠精確地將其分類為相同的數字。
(*MNIST 是一個手寫數字庫識別庫:?http://yann.lecun.com/exdb/mnist/)
形式化描述
形式上,在獲取到我們前面討論過的卷積特征后,我們要確定池化區域的大小(假定為),來池化我們的卷積特征。那么,我們把卷積特征劃分到數個大小為?的不相交區域上,然后用這些區域的平均(或最大)特征來獲取池化后的卷積特征。這些池化后的特征便可以用來做分類。
中英文對照
總結
以上是生活随笔為你收集整理的Stanford UFLDL教程 池化Pooling的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Stanford UFLDL教程 主成分
- 下一篇: CVPR 2015 papers