深度学习元老Yann Lecun详解卷积神经网络
本文聯合編譯:Blake、高斐
雷鋒網(公眾號:雷鋒網)注:卷積神經網絡(Convolutional Neural Network)是一種前饋神經網絡,它的人工神經元可以響應一部分覆蓋范圍內的周圍單元,對于大型圖像處理有出色表現。
Yann?LeCun出生在法國,曾在多倫多大學跟隨深度學習鼻祖Geoffrey Hinton進行博士后研究。早在20世紀80年代末,Yann?LeCun就作為貝爾實驗室的研究員提出了卷積網絡技術,并展示如何使用它來大幅度提高手寫識別能力。上世紀末本世紀初,當神經網絡失寵時Yann?LeCun是少數幾名一直堅持的科學家之一。他于2003年成為紐約大學教授,并從此引領了深度學習的發展,目前任職于Facebook FAIR實驗室。本文是Yann?LeCun對于卷積神經網絡(Convolutional Neural Network)的演講介紹PPT。
Yann LeCun (信息學與計算機科學)(2015-2016)
ConvNets嘗試過程
首個卷積神經網絡模型(多倫多大學)(LeCun 88,89)
共320個運用反向傳播算法訓練的實例
帶有步幅的卷積(子樣本)
緊密相連的池化過程
在貝爾實驗室建立的首個“真實”卷積神經網絡模型(LeCun et al 89)
運用反向傳播算法進行訓練
USPS 編碼數字:7300次訓練,2000次測試
帶有步幅的卷積
緊密相連的池化過程
卷積神經網絡(vintage 1990)
濾波-雙曲正切——池化——濾波-雙曲正切——池化
多重卷積網絡
架構
卷積神經網絡的結構
卷積神經網絡的卷積運算過程大致如下:
輸入圖像通過三個可訓練的濾波器組進行非線性卷積,卷積后在每一層產生特征映射圖,然后特征映射圖中每組的四個像素在進行求和、加權值、加偏置,在此過程中這些像素在池化層被池化,最終得到輸出值。
卷積神經網絡的整體結構:
歸一化——濾波器組——非線性計算——池化
-
歸一化:圖像白化處理的變形(可選擇性)
減法運算:平均去除,高通濾波器進行濾波處理
?除法運算:局部對比規范化,方差歸一化
-
濾波器組:維度拓展,映射
-
非線性:稀疏化,飽和,側抑制
精餾,成分明智收縮,雙曲正切等
-
池化: 空間或特征類型的聚合
最大化,Lp范數,對數概率
LeNet5
卷積神經網絡簡化模型
MNIST ?(LeCun 1998)
階段1:濾波器組——擠壓——最大池化
階段2:濾波器組——擠壓——最大池化
階段3:標準2層 MLP
多特征識別(Matan et al 1992)
每一層都是一個卷積層
????單一特征識別器 ——SDNN
滑動窗口卷積神經網絡+加權有限狀態機
應用
卷積神經網絡的應用范圍
-
信號以(多維度)數組的形式出現
-
具有很強局部關聯性的信號
-
特征能夠在任何位置出現的信號
-
目標物不因翻譯或扭曲而變化的信號
-
一維卷積神經網絡:時序信號,文本
文本分類
音樂體裁分類
用于語音識別的聲學模型
時間序列預測
-
二維卷積神經網絡:圖像,時間-頻率表征(語音與音頻)
物體檢測,定位,識別
-
三維卷積神經網絡:視頻,立體圖像,層析成像
視頻識別/理解
生物醫學圖像分析
高光譜圖像分析
人臉檢測(Vaillant et al.93, 94)
-
應用于大圖像檢測的卷積神經網絡
-
多尺度熱量圖
-
對候選圖像的非最大抑制
-
對256X256圖像進行6秒稀疏
人臉檢測的藝術結果狀態
卷積神經網絡在生物圖像切割方面的應用
-
生物圖像切割(Ning et al. IEEE-TIP 2005)
-
運用卷積神經網絡在大背景下進行像素標記
-
卷積神經網絡擁有一個像素窗口,標記中央像素
-
運用一個有條件的隨機域進行清除
-
3D版連接體(Jain et al.2007)
場景解析/標記
場景解析/標記:多尺度卷積神經網絡結構
-
每一個輸出值對應一個大的輸入背景
46X46全像素窗口;92X92 1/2像素窗口;182X182 1/4像素窗口
[7X7卷積運算]->[2X2池化] ->[7X7卷積運算] ->[2X2池化] ->[7X7卷積運算] ->
監督式訓練全標記圖像
方法:通過超級像素區域選出主要部分
輸入圖像——超像素邊界參數——超像素邊界——通過超像素進行主要部分投票處理——類別與區域邊界對齊
多尺度卷積網絡——卷積網絡特征(每個像素中d=768)卷積分類——“soft”分類得分
場景分析/標記
-
無前期處理
-
逐幀進行
-
在Vittex-6 FPGA硬件上以50ms一幀運行卷積網絡
但是在以太網上傳輸特征限制了系統的表現
針對遠程自適應機器人視覺的卷積網絡(DARPA LAGR項目2005-2008)
輸入圖像
標記
分類輸出
非常深的卷積網絡架構
小內核,較少二次抽樣(小部分二次抽樣)
VGG
GoogleNet
Resnet
使用卷積網絡進行對象檢測和定位
分類+定位:多重移動窗口
-
將帶多重滑動窗口的卷積網絡應用到圖像上
-
重要提示:將卷積網絡應用到一張圖片上非常便宜
只要計算整個圖像的卷積并把全連接層復制
分類+定位:滑動窗口+限定框回歸
-
將帶多重滑動窗口的卷積網絡應用到圖像上
-
對每個窗口,預測一個類別和限定框參數
即便目標不是完全包含在瀏覽窗口中,卷積網絡也能猜測它認為這個目標是什么。
Deep Face
-
Taigman等 CVPR 2014
隊列
卷積網絡
度量學習
-
Facebook開發的自動標記方法
每天8億張圖片
使用卷積網絡進行姿勢預估和屬性恢復
深度屬性模型的姿勢對齊網絡
Zhang等 CVPR 2014 (Facebook AI Research)
人物檢測和姿勢預估
Tompson,Goroshin,Jain,Lecun,Bregler等 arxiv(2014)
監督卷積網絡畫圖
-
使用卷積網絡來畫圖
-
Dosovitskyi等 arxiv (1411:5928)
監督卷積網絡畫圖
-
生成椅子
-
特征空間對椅子進行計算
全局(端對端)學習:能量模型
輸入——卷積網絡(或其他深度架構)——能量模塊(潛在變量、輸出)——能量
-
使得系統中每個模塊都能進行訓練。
-
所有模塊都是同時訓練的,這樣就能優化全局的損失函數。
-
包括特征提取器,識別器,以及前后處理程序(圖像模型)。
-
問題:反向傳播在圖像模型中傾斜
深度卷積網絡(還有其他深度神經網絡)
-
訓練樣本:(Xi,Yi)k=1 到 k
-
對象函數(邊緣型損失= ReLU)
題圖來自newscientist.com
| 本文作者:李尊 | 2016-08-23 18:39 |
總結
以上是生活随笔為你收集整理的深度学习元老Yann Lecun详解卷积神经网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【caffe-Windows】mnist
- 下一篇: 基于deep learning的快速图像