日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

01 LeNet-5论文笔记-Gradient-Based Learning Applied to Document Recognition

發(fā)布時(shí)間:2023/12/20 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 01 LeNet-5论文笔记-Gradient-Based Learning Applied to Document Recognition 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Abstract

摘要

??使用BP算法多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練構(gòu)成種個(gè)成功的基于梯度學(xué)習(xí)技術(shù)的最佳案例。提供一個(gè)合適的網(wǎng)絡(luò)架構(gòu),基于梯度學(xué)習(xí)算法就能將其用于合成復(fù)雜的決策面以便將高維模式(例如手寫字符)區(qū)分歸類,并進(jìn)行最小預(yù)處理。本文綜述了各種方法對(duì)手寫字符特征識(shí)別,并將其與標(biāo)準(zhǔn)手寫數(shù)字識(shí)別任務(wù)進(jìn)行了比較。用于處理二維圖形的可變性,卷積神經(jīng)網(wǎng)絡(luò)顯著優(yōu)勝于其他技術(shù)。
??現(xiàn)實(shí)生活中的文檔識(shí)別系統(tǒng)是由多個(gè)模型組成的,包括字段抽取、分割、識(shí)別和語(yǔ)義建模。一個(gè)新的學(xué)習(xí)模式,稱為圖變壓網(wǎng)絡(luò)(GTN),允許像多模型系統(tǒng)這樣的訓(xùn)練全局化使用基于梯度的方法,以盡量減少總體形式的性能指標(biāo)。
??介紹了兩種在線手寫字符識(shí)別系統(tǒng)。實(shí)驗(yàn)證實(shí)全局訓(xùn)練的優(yōu)越性,以及圖變壓網(wǎng)絡(luò)(GTN)的靈活性。
??還介紹了一種用于閱讀銀行支票的圖變壓網(wǎng)絡(luò)。利用卷積神經(jīng)網(wǎng)絡(luò)的特征識(shí)別并結(jié)合全局訓(xùn)練技術(shù),提高商業(yè)和個(gè)人支付記錄的準(zhǔn)確率。它是商業(yè)部署,每天讀取百萬(wàn)級(jí)支票。

關(guān)鍵詞—— 神經(jīng)網(wǎng)絡(luò)、光學(xué)識(shí)別符(OCR)、文檔識(shí)別、機(jī)器學(xué)習(xí)、基于梯度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)、圖變壓網(wǎng)絡(luò)、有窮狀態(tài)轉(zhuǎn)換器

I.Introduction

介紹
??在過(guò)去的幾年里,機(jī)器學(xué)習(xí)技術(shù)中特別是神經(jīng)網(wǎng)絡(luò)應(yīng)用,在模式識(shí)別系統(tǒng)中扮演著越來(lái)越重要的角色。事實(shí)上,可以說(shuō),學(xué)習(xí)技術(shù)的可用性在近幾年模式識(shí)別應(yīng)用如連續(xù)語(yǔ)音識(shí)別和手寫字符識(shí)別中一直是一個(gè)至關(guān)重要的方面。
??本文主要的觀點(diǎn)是,通過(guò)跟多的依賴自動(dòng)的數(shù)學(xué)學(xué)習(xí)來(lái)建立更好的模式識(shí)別系統(tǒng),并更少的依賴手動(dòng)設(shè)計(jì)和啟發(fā)式。這是由于機(jī)器學(xué)習(xí)和計(jì)算機(jī)技術(shù)近幾年的進(jìn)展而成為可能的。使用字符識(shí)別作為案例研究。我們展示了手工制作的特征提取可以被精心設(shè)計(jì)的直接操作像素圖像的學(xué)習(xí)機(jī)器有效地替代。使用文檔理解作為一個(gè)案例研究,我們表明通過(guò)手動(dòng)集成單獨(dú)設(shè)計(jì)的模塊構(gòu)建識(shí)別系統(tǒng)的傳統(tǒng)方法,可以用統(tǒng)一的、原則性好的設(shè)計(jì)范式代替,稱其為圖轉(zhuǎn)換器網(wǎng)絡(luò),允許訓(xùn)練所有的模型以優(yōu)化全能型標(biāo)準(zhǔn)。
??從識(shí)別模型的早期開(kāi)始,人們就知道自然數(shù)據(jù)的多變性和豐富性,無(wú)論是演講、字符或是其它類型的模式,幾乎不能純手工建立一個(gè)準(zhǔn)確性高的識(shí)別系統(tǒng)。因此,大多模式識(shí)別系統(tǒng)都是結(jié)合使用自動(dòng)學(xué)習(xí)技術(shù)和手工制作算法構(gòu)建的。識(shí)別單個(gè)模式通常的方法由將系統(tǒng)劃分為圖像1中兩個(gè)主要的模塊。 第一個(gè)模塊稱為特征抽取器,轉(zhuǎn)化輸入模式,以便它們可以由低維向量或符號(hào)的短字符串表示(a)能很容易的匹配或比較,表示(b)不改變其性質(zhì)的輸入模式的轉(zhuǎn)換和扭曲是相對(duì)不變的。特征抽取器包含了大部分先驗(yàn)知識(shí),而且是特定任務(wù)的。它也是大多數(shù)設(shè)計(jì)工作的重點(diǎn),因?yàn)樗彩峭耆ㄟ^(guò)手工制作的。另一方面,分類器通常是多用途且可訓(xùn)練的本文的主要問(wèn)題之一是識(shí)別的準(zhǔn)確率極大的取決于設(shè)計(jì)者提出一套合適特征的能力。這是一項(xiàng)艱巨的任務(wù),不幸的是,必須為每個(gè)新問(wèn)題重新做一項(xiàng)工作。大量的模式識(shí)別文獻(xiàn)用于描述和比較不同特征集對(duì)于不同任務(wù)的相對(duì)優(yōu)點(diǎn)。

??從歷史上看,由于需要合適的特征提取器這一事實(shí),使用僅限于低維空間的學(xué)習(xí)技術(shù),易于分離的類。在過(guò)去的十年里,三因素的結(jié)合改變了這憧憬。首先,快速算數(shù)單元的低成本機(jī)器的可用性使得依賴跟多的蠻力法而不是算法細(xì)化。其次,用于大型超市和廣泛興趣問(wèn)題(例如手寫字符識(shí)別),大量數(shù)據(jù)集的可用性使設(shè)計(jì)者能夠依賴更多的實(shí)際數(shù)據(jù)和更少的手工制作的特征抽取來(lái)建立識(shí)別系統(tǒng)。第三個(gè)非常重要的因素是強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù)的可用性可以處理高維輸入,且當(dāng)輸入這些復(fù)雜大數(shù)據(jù)集時(shí),能夠創(chuàng)造復(fù)雜決策函數(shù)。在語(yǔ)音和手寫字符識(shí)別系統(tǒng)的準(zhǔn)確率近年來(lái)的進(jìn)展很大程度上可以歸結(jié)為更多的依賴學(xué)習(xí)技術(shù)和大型訓(xùn)練數(shù)據(jù)集。作為這一事實(shí)的依據(jù),大部分現(xiàn)代化商業(yè)OCR系統(tǒng)使用一些多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練和反向傳播。
??本文中,我們考慮到手寫字符識(shí)別(第一節(jié)和第二節(jié)),以及比較幾種學(xué)習(xí)技術(shù)在基準(zhǔn)數(shù)據(jù)集上的性能與手寫字符比較(第三節(jié))。雖然使用自動(dòng)學(xué)習(xí)越多越好,但是沒(méi)有學(xué)習(xí)技術(shù)離開(kāi)少量先驗(yàn)知識(shí)能完美完成任務(wù)。在一個(gè)多層神經(jīng)網(wǎng)絡(luò)情下中,融合知識(shí)的一個(gè)好方法是可以根據(jù)任務(wù)調(diào)整它的架構(gòu)。第二段中介紹的卷積神經(jīng)網(wǎng)絡(luò)是一種專門的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的案例,它通過(guò)使用局部連接模式和對(duì)權(quán)重施加約束,將2D 形狀的不變性知識(shí)結(jié)合起來(lái)。第三節(jié)比較了幾種孤立手寫數(shù)字識(shí)別方法。從對(duì)單個(gè)字符的識(shí)別到對(duì)文檔中的此句的識(shí)別,第四節(jié)中介紹而多個(gè)模型訓(xùn)練減少整體誤差的設(shè)想。當(dāng)模塊操作著有向圖時(shí),可變長(zhǎng)度對(duì)象(如手寫字符)使用多模型系統(tǒng)是最好的做法。這引出了可訓(xùn)練圖變壓器網(wǎng) (GTN) 的概念。第五節(jié)描述如今經(jīng)典的過(guò)分割的方法,用于識(shí)別字詞或其他字符串。第六節(jié)提出摒棄手工分割和標(biāo)注的情況下,在字詞水平上用于訓(xùn)練一個(gè)識(shí)別器的判別性和非判別性的基于梯度技術(shù)。第七部分提出來(lái)空間位移神經(jīng)網(wǎng)絡(luò)方法,為消除分割啟發(fā)式的需要,在輸入的所有可能位置掃描識(shí)別器。第八節(jié)展示可訓(xùn)練的圖變壓網(wǎng)絡(luò)(GTN)根據(jù)一般的圖合成算法用于轉(zhuǎn)換多個(gè)廣義傳感器。語(yǔ)音識(shí)別中常用的圖變壓網(wǎng)絡(luò)(GTNs) 和隱馬爾可夫模型之間的連接也被處理。第六節(jié)描述了一個(gè)訓(xùn)練有素的的圖變壓網(wǎng)絡(luò)(GTN)系統(tǒng),用于鋼筆計(jì)算機(jī)中輸入的手寫。此問(wèn)題稱為 “聯(lián)機(jī) ” 手寫識(shí)別, 因?yàn)橛?jì)算機(jī)必須在用戶寫入時(shí)立即反饋。該系統(tǒng)的核心是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。結(jié)果清晰的展示了訓(xùn)練一個(gè)字詞水平的識(shí)別器的有點(diǎn),而不是預(yù)先分割的、手工標(biāo)記的、孤立字符上進(jìn)行訓(xùn)練。第十節(jié)描述了一個(gè)完整的圖轉(zhuǎn)換網(wǎng)絡(luò)系統(tǒng),用于閱讀手寫和機(jī)器打印的銀行支票。系統(tǒng)的核心是卷積神經(jīng)網(wǎng)絡(luò),也稱為L(zhǎng)eNet-5,在第二節(jié)描述。該系統(tǒng)在 NCR 公司對(duì)銀行業(yè)的支票識(shí)別系統(tǒng)進(jìn)行了商業(yè)應(yīng)用。它正在美國(guó)的幾家銀行每月閱讀數(shù)以百萬(wàn)計(jì)的支票。

A.Learning from Data

??有幾種自動(dòng)機(jī)器學(xué)習(xí)的方法,但是近年來(lái)由神經(jīng)網(wǎng)絡(luò)社區(qū)推廣的最成功的方法之一可以稱為基于數(shù)值或梯度的學(xué)習(xí)。機(jī)器學(xué)習(xí)計(jì)算函數(shù)在這里:
其中Zp是第p個(gè)輸入模式,W代表系統(tǒng)中可調(diào)參數(shù)的集合。在模式識(shí)別設(shè)置中,輸出Yp可以解釋為模式Zp的識(shí)別類別標(biāo)簽或與每個(gè)類別關(guān)聯(lián)的分?jǐn)?shù)或概率。損失函數(shù)在這里:

衡量Dp(正確的或是模式Zp的期望輸出)和系統(tǒng)產(chǎn)生的輸出之間的誤差。平均損失函數(shù)Etrain(W)是一組稱為訓(xùn)練集{(Z1,D1),……(Zp,Dp)}的標(biāo)記示例上的誤差Ep的平均值。在最簡(jiǎn)單的情況下,學(xué)習(xí)問(wèn)題在于找到最小化Etrain(W)的W值。實(shí)際上,對(duì)系統(tǒng)在訓(xùn)練集上的性能興趣不大。 更為相關(guān)的度量是系統(tǒng)在現(xiàn)場(chǎng)的錯(cuò)誤率將在實(shí)踐中使用。 通過(guò)測(cè)量與訓(xùn)練集分離的一組樣本(稱為測(cè)試集)的準(zhǔn)確性來(lái)評(píng)估此性能。許多理論和實(shí)驗(yàn)工作1,2,3表明,測(cè)試集Etest的預(yù)期錯(cuò)誤率與訓(xùn)練集Etrain的錯(cuò)誤率之間的差距隨著訓(xùn)練樣本的數(shù)量近似為在這里
,其中P是訓(xùn)練樣本的數(shù)量,h是有效容量或機(jī)器6,7的復(fù)雜性的度量,a是0.5到1.0之間的數(shù)字,k是常數(shù)。當(dāng)訓(xùn)練樣本數(shù)量增加時(shí),這個(gè)差距總是會(huì)減小。此外,隨著h容量增加,Etrain減少。因此,當(dāng)h容量增加的時(shí)候,在Etrain減少和差距增加中要衡量,以最佳的容量h值實(shí)現(xiàn)最低的泛化誤差Etest。大多數(shù)學(xué)習(xí)算法都試圖最小化Etrain以及對(duì)差距的一些估計(jì)。這種形式的正式版本稱為結(jié)構(gòu)風(fēng)險(xiǎn)最小化6,7,它基于定義能力增強(qiáng)的機(jī)器學(xué)習(xí)序列,該序列對(duì)應(yīng)于參數(shù)空間的子集序列,從而每個(gè)子集都是先前子集的超集。實(shí)際上,結(jié)構(gòu)風(fēng)險(xiǎn)最小化是通過(guò)最小化如下公式:
來(lái)實(shí)現(xiàn)的,其中函數(shù)H(W)被稱為正則化函數(shù),beta是一個(gè)常數(shù)。選擇H(W)使得它對(duì)屬于參數(shù)空間的高容量子集的參數(shù)W取大值。最小化H(W)實(shí)際上限制了參數(shù)空間可訪問(wèn)子集的容量,從而控制了在最小化訓(xùn)練誤差和最小化訓(xùn)練誤差與測(cè)試誤差之間的期望之間的權(quán)衡。

B.Gradient-Based Learning

基于梯度學(xué)習(xí)
??關(guān)于一組參數(shù)最小化函數(shù)的一般問(wèn)題是計(jì)算機(jī)科學(xué)中許多問(wèn)題的根源。基于梯度的學(xué)習(xí)基于這樣一個(gè)事實(shí),即與離散函數(shù)相比,最小化合理的平滑連續(xù)函數(shù)通常要容易得多。通過(guò)估計(jì)參數(shù)值的微小變化對(duì)損耗函數(shù)的影響,可以使損耗函數(shù)最小化。這是通過(guò)損耗函數(shù)相對(duì)于參數(shù)的梯度來(lái)衡量的。當(dāng)可以通過(guò)解析而不是通過(guò)擾動(dòng)以數(shù)值方式計(jì)算梯度矢量時(shí),可以設(shè)計(jì)出一種高效的學(xué)習(xí)算法。這是眾多基于梯度的具有連續(xù)值參數(shù)的學(xué)習(xí)算法的基礎(chǔ)。在本文描述的過(guò)程中,參數(shù)W的集合是一個(gè)實(shí)值向量,對(duì)于該向量,E(W) 是連續(xù)的,并且?guī)缀踉谌魏蔚胤蕉伎晌⒎帧T谶@種情況下,最簡(jiǎn)單的最小化步驟是梯度下降算法,其中W的迭代調(diào)整,如下:

在這個(gè)最簡(jiǎn)單的案例中,在這里
是一個(gè)標(biāo)量常數(shù),更為復(fù)雜的過(guò)程是在這里,或?qū)⑵涮鎿Q為對(duì)角矩陣,或?qū)⑵涮鎿Q為逆Hessian矩陣的估計(jì),如牛頓法或擬牛頓法。也可以使用共軛梯度方法[8]。但是,附錄B顯示,盡管文獻(xiàn)中有許多相反的說(shuō)法,但是這些二階方法對(duì)大型學(xué)習(xí)機(jī)的實(shí)用性非常有限。
??流行的最小化過(guò)程是隨機(jī)梯度算法,也稱為在線更新。 它包括使用噪聲或平均梯度的近似版本來(lái)更新參數(shù)向量。在最常見(jiàn)的情況下,W根據(jù)單個(gè)樣本進(jìn)行更新:

通過(guò)此過(guò)程,參數(shù)向量在平均軌跡附近波動(dòng),但在具有冗余樣本(例如語(yǔ)音或字符識(shí)別中遇到的樣本)的大型訓(xùn)練集上,其收斂速度通常比常規(guī)梯度下降法和二階方法快得多。其原因在附錄B中進(jìn)行了解釋。自20世紀(jì)60年代以來(lái),就對(duì)這種用于學(xué)習(xí)的算法的性質(zhì)進(jìn)行了理論研究,但直到80年代中期,非平凡任務(wù)的實(shí)際成功才出現(xiàn)。
C.梯度反向傳播

II.Convolutional Neural Networks For Isolated Character Recognition

??經(jīng)過(guò)梯度下降訓(xùn)練的多層網(wǎng)絡(luò)能夠從大量例子中學(xué)習(xí)復(fù)雜的、高維的非線性映射,這使得它們很容易成為圖像識(shí)別任務(wù)的候選對(duì)象。在傳統(tǒng)的模式識(shí)別模型中,人工設(shè)計(jì)的特征提取器從輸入信息中收集相關(guān)信息,并消除不相關(guān)的變量。然后,一個(gè)可訓(xùn)練的分類器將得到的特征向量分類,在該方案中,可以使用標(biāo)準(zhǔn)的、全連通的多層網(wǎng)絡(luò)作為分類器。一個(gè)可能更有趣的方案是盡可能多地依賴于特征提取器本身的學(xué)習(xí)。在字符識(shí)別的情況下,網(wǎng)絡(luò)可以提供幾乎原始的輸入(例如尺寸歸一化的圖像)。雖然這可以通過(guò)一個(gè)普通的連接前饋網(wǎng)絡(luò)來(lái)完成,并成功地完成一些任務(wù),如字符識(shí)別等任務(wù)中能夠取得不錯(cuò)的效果,但是仍然有不少問(wèn)題存在。
??首先,輸入的圖像一般都很大,經(jīng)常有幾百個(gè)變量(即像素)。如果采用全連接網(wǎng)絡(luò)的話,即使第一個(gè)隱含層僅有100個(gè)神經(jīng)元,那前兩層之間的權(quán)重參數(shù)也會(huì)有幾萬(wàn)個(gè)。數(shù)量如此大的參數(shù)會(huì)增加系統(tǒng)的容量,但也因此需要更大的訓(xùn)練集。而且,在某些硬件設(shè)備上實(shí)現(xiàn)時(shí)由于需要存儲(chǔ)的參數(shù)如此多,可能會(huì)帶來(lái)內(nèi)存不足的問(wèn)題。但是,用于圖像或語(yǔ)音的非結(jié)構(gòu)化網(wǎng)絡(luò)的主要缺陷是,對(duì)于轉(zhuǎn)換或輸入的局部失真沒(méi)有內(nèi)在的不變性。在被提供給神經(jīng)網(wǎng)絡(luò)固定大小的輸入層之前,字符圖像或其他2D或1D信號(hào)必須近似地標(biāo)準(zhǔn)化并居于輸入域的中心。不幸的是,沒(méi)有這樣完美的預(yù)處理:手寫體通常在單詞級(jí)別標(biāo)準(zhǔn)化,這可能導(dǎo)致單個(gè)字符的大小、傾斜和位置變化。這一點(diǎn),再加上書寫風(fēng)格的多樣性,會(huì)導(dǎo)致輸入對(duì)象中不同特征的位置發(fā)生變化。原則上,一個(gè)足夠大的全連接網(wǎng)絡(luò)可以學(xué)習(xí)產(chǎn)生與這種變化不同的產(chǎn)出。然而,學(xué)習(xí)這樣一項(xiàng)任務(wù)可能會(huì)導(dǎo)致在輸入中不同位置具有相似權(quán)重模式的多個(gè)單元,從而在輸入中不同特征出現(xiàn)的任何地方檢測(cè)到這些特征。學(xué)習(xí)這些權(quán)重參數(shù)需要數(shù)目巨大的訓(xùn)練樣本來(lái)覆蓋可能的變化空間。
??其次,全連接結(jié)構(gòu)忽略了輸入的整體結(jié)構(gòu)。輸入變量可以以任何不影響訓(xùn)練輸出的順序給定。與變量不同的是,圖像有很強(qiáng)的2D局部結(jié)構(gòu):像素在空間上是高度相關(guān)的。
?? 卷積神經(jīng)網(wǎng)絡(luò)結(jié)合了三種結(jié)構(gòu)的思想以確保一定程度的平移、縮放和畸變不變性:局部感受野(local receptive fields)、權(quán)值共享(shared weights )或權(quán)值復(fù)制(weights replication)和時(shí)間或空間子采樣(sub-sampling。圖中展示的LeNet-5是一種用于識(shí)別字符的典型卷積神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)中輸入平面接收尺寸統(tǒng)一且中心對(duì)齊后的字符圖像。

A.Convolutional Networks

B.LeNet-5

??本節(jié)將詳細(xì)介紹實(shí)驗(yàn)中使用的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的架構(gòu)。LeNet-5包括7個(gè)層,不包括輸入,所有的層都包含可訓(xùn)練的參數(shù)(權(quán)重)。輸入是一個(gè)32x32像素的圖像。這比數(shù)據(jù)庫(kù)中最大的字符大得多(在28x28字段中居中最多20x20像素)。其原因是,在最高級(jí)特征檢測(cè)器的接收域的中心可以出現(xiàn)潛在的顯著特征,如筆畫端點(diǎn)或角。在LeNet-5中,最后一個(gè)卷積層(C3,見(jiàn)下文)的接受域中心集在32x32輸入的中心形成了一個(gè)20x20的區(qū)域。輸入像素的值被歸一化,以便背景級(jí)別(白色)對(duì)應(yīng)于0.1的值,前景(黑色)對(duì)應(yīng)于1.175。這使得輸入均值大約為0,而方差大約為1,從而加速了的學(xué)習(xí)[46]。
??下面,卷積層標(biāo)記為Cx,子采樣層標(biāo)記為Sx,全連通層標(biāo)記為Fx,其中x為層索引。

??層C1是一個(gè)包含6張feature map的卷積層。每個(gè)feature map中的每個(gè)單元都連接到輸入中的一個(gè)5x5鄰域。特征圖的大小為28x28,這可以防止輸入的連接脫離邊界。C1包含156個(gè)可訓(xùn)練參數(shù)和122,304個(gè)連接。
??層S2是子采樣層,有6張大小為14x14的feature map。每個(gè)feature map中的每個(gè)單元都連接到對(duì)應(yīng)的feature map中的一個(gè)2x2鄰域1。對(duì)S2中的一個(gè)單元的四個(gè)輸入相加,然后乘以一個(gè)可訓(xùn)練系數(shù),再加上一個(gè)可訓(xùn)練偏差。結(jié)果通過(guò)s形函數(shù)傳遞。2x2接受域是不重疊的,因此S2中的feature map的行數(shù)和列數(shù)是C1中的feature map的一半。層S2有12個(gè)可訓(xùn)練參數(shù)和5,880個(gè)。
??連接層C3是一個(gè)包含16個(gè)feature map的卷積層。每個(gè)feature map中的每個(gè)單元都連接到S2的eature maps子集中幾個(gè)相同位置的5x鄰域。表I結(jié)合C3的feature map顯示了一組S2特征映射。結(jié)合每個(gè)C3 feature map。為什么不把每個(gè)S2特征圖和每個(gè)C3特征圖連接起來(lái)呢?原因有兩方面。首先,不完全連接方案將連接數(shù)量控制在合理范圍內(nèi)。更重要的是,它打破了網(wǎng)絡(luò)的對(duì)稱性。不同的特征圖被迫提取不同的(希望是互補(bǔ)的)特征,因?yàn)樗鼈兊玫讲煌妮斎爰1鞩中的連接方案背后的基本原理如下。前六個(gè)C3 feature map從S2中的三個(gè)feature map的每個(gè)相鄰子集中獲取輸入。接下來(lái)的6個(gè)從每個(gè)連續(xù)的4的子集中獲取輸入。接下來(lái)的三個(gè)從一些不連續(xù)的4的子集中獲取輸入。最后一個(gè)從所有S2特征映射中獲取輸入。層C3有1,516個(gè)可訓(xùn)練參數(shù)和151,600個(gè)連接。
??Laver S4是一個(gè)子采樣層,有16個(gè)大小為5x5的feature map。每個(gè)feature map中的每個(gè)單元都連接到C3中對(duì)應(yīng)的feature map中的一個(gè)2x2鄰域,類似于C1和S2。層S4有32個(gè)可訓(xùn)練的參數(shù)和2000個(gè)連接。

C3中前6個(gè)特征圖分別從S2中連續(xù)的3個(gè)特征圖獲取輸入;C3中接下來(lái)6個(gè)特征圖分別從S2中連續(xù)的4個(gè)特征圖獲取輸入;接下來(lái)3個(gè)特征圖分別從S2中4個(gè)不連續(xù)的特征圖獲取輸入;最后一個(gè)特征圖從S2中的所有特征圖獲取輸入。C3層有1,516(60*25+16)個(gè)訓(xùn)練參數(shù)和151,600個(gè)連接。同樣沒(méi)有 padding。在權(quán)重分配上值得注意的是:C3層中某個(gè)特征圖從S2中部分的特征圖獲取輸入時(shí),它們共享偏置,但是每個(gè)卷積核的權(quán)重不同。比如,C3中第一個(gè)feature map從S2中前三個(gè)feature map獲取輸入,在計(jì)算時(shí)一共有三個(gè)卷積核(5*5*3=75個(gè)可訓(xùn)練參數(shù))和一個(gè)共享的偏置(1個(gè)可訓(xùn)練參數(shù)),所以一共76個(gè)trainable parameters.

??層C5是一個(gè)包含120個(gè)feature map的卷積層。在S4的所有16個(gè)feature map上,每個(gè)單元都連接到一個(gè)5x5的鄰域。在這里,因?yàn)镾4的大小是 5x5,所以C5的feature maps的大小是1x1:這相當(dāng)于S4和C5之間的完整連接。C5被標(biāo)記為卷積層,而不是全連接層,因?yàn)槿绻谄渌麠l件不變的情況下,LeNet-5的輸入變大,feature map的維數(shù)將大于1x1。動(dòng)態(tài)增加卷積網(wǎng)絡(luò)大小的過(guò)程在第七節(jié)中進(jìn)行了描述。C5層有48,120個(gè)可訓(xùn)練的連接。
??層F6,包含84個(gè)單元(這個(gè)數(shù)字的原因來(lái)自于輸出層的設(shè)計(jì),解釋如下),并完全連接到C5。它有10164個(gè)可訓(xùn)練參數(shù)。
??在經(jīng)典的神經(jīng)網(wǎng)絡(luò)中,直到F6層中的神經(jīng)元計(jì)算它們的輸入向量和權(quán)重向量之間的點(diǎn)積,并在權(quán)重向量上加上一個(gè)bias偏置。這個(gè)權(quán)重和,記為ai;對(duì)于單位i,則通過(guò)一個(gè)sigmoid壓縮函數(shù)得到單位i的狀態(tài),用xi表示。

sigmoid壓縮函數(shù)是一個(gè)縮放的雙曲正切:

其中A是函數(shù)的振幅,S決定了它在原點(diǎn)處的斜率。函數(shù)f是奇函數(shù),在+A和A處有水平漸近線。常數(shù)A被選為1.7159。選擇壓縮函數(shù)的基本原理在附錄a中給出。最后,輸出層由歐氏徑向基函數(shù)單元(RBF)組成,每類一個(gè),每個(gè)輸入84個(gè)。計(jì)算每個(gè)RBF單元yi的輸出

??換句話說(shuō),每個(gè)輸出RBF單元計(jì)算其輸入向量與參數(shù)向量之間的歐式距離。輸入距離參數(shù)向量越遠(yuǎn),RBF輸出越大。特定RBF的輸出可以解釋為一個(gè)懲罰項(xiàng),測(cè)量輸入模式和與RBF相關(guān)的類模型之間的契合度。在概率方面,RBF輸出可以解釋為在F6層構(gòu)型空間的高斯分布的非歸一化負(fù)對(duì)數(shù)似然。給定一個(gè)輸入模式,設(shè)計(jì)損失函數(shù)使F6的構(gòu)型盡可能接近該模式期望類對(duì)應(yīng)的RBF的參數(shù)向量。這些單元的參數(shù)向量是手工選擇的,并保持固定(至少最初是這樣)。這些參數(shù)向量的分量設(shè)為1或+1。雖然他們可能是隨機(jī)概率為1和+ 1,甚至選擇形成一個(gè)錯(cuò)誤校正碼[47]提出的,他們不是設(shè)計(jì)相應(yīng)的字符類代表一個(gè)程式化的形象畫在7 x12位圖(因此84號(hào))。這樣的表現(xiàn)并不是特別有用的識(shí)別孤立的數(shù)字,但它是非常有用的字符識(shí)別的字符串從完整的打印ASCII。基本原理是文字都是相似的,因此可能被混淆的,比如大寫字母O,小寫字母O,零,或小寫l,數(shù)字1,方括號(hào),大寫的I,會(huì)有類似的輸出代碼。具有類似的輸出代碼。如果該系統(tǒng)與語(yǔ)言后處理器結(jié)合使用,可以糾正這種混淆,這就特別有用。因?yàn)橐谆煜惖拇a是相似的,所以對(duì)于不明確的字符對(duì)應(yīng)的RBFs的輸出也將是相似的,并且后處理器將能夠選擇適當(dāng)?shù)拈g隔。圖3給出了完整ASCII集的輸出代碼.
??使用這種分布式代碼而不是更常見(jiàn)的“1 of N”代碼(也稱為位置代碼或祖母單元代碼)作為輸出的另一個(gè)原因是,當(dāng)類的數(shù)量超過(guò)幾十個(gè)時(shí),非分布式代碼的行為往往很糟糕。原因是一個(gè)非分布式代碼的輸出單元在大部分時(shí)間都必須是。這是相當(dāng)困難的實(shí)現(xiàn)與sigmoid單位。另一個(gè)原因是,分類器通常不僅用于識(shí)別字符,而且還用于拒絕非字符。具有分布式編碼的RBFs更適合于這一目的,因?yàn)榕c乙狀結(jié)腸不同,它們是在其內(nèi)部的一個(gè)非常限定的區(qū)域內(nèi)被激活的放置非典型圖案更有可能掉落的空間。RBFs的參數(shù)向量作為laver F6的目標(biāo)向量。值得指出的是,這些向量的分量為+1 or-1,完全在F6的sigmoid范圍內(nèi),因此可以防止這些sigmoid被飽和。事實(shí)上+1和1是sigmoid函數(shù)上曲率最大的點(diǎn)。這迫使F6單元在他們的最大非線性范圍內(nèi)操作。飽和的sigomid必須避免,因?yàn)樗且阎膶?dǎo)致緩慢收斂和不良條件的損失函數(shù)。

c .Loss Function

??可用于上述網(wǎng)絡(luò)的最簡(jiǎn)單的輸出損失函數(shù)是最大似然估計(jì)準(zhǔn)則(MLE),在我們的例子中,它等價(jià)于最小均方誤差(MSE)。對(duì)于一組訓(xùn)練樣本的準(zhǔn)則為:

式中yDp就是第Dp-th RBF單元的輸出,即對(duì)應(yīng)于輸入模式ZP的正確類的RBF單元。雖然這種成本函數(shù)適用于大多數(shù)情況,但它缺少三個(gè)重要的特性。首先,如果我們?cè)试SRBF的參數(shù)適應(yīng),E(W)有一個(gè)微不足道的,但完全不可接受的解決方案。在該解中,所有RBF參數(shù)向量均相等,且F6的狀態(tài)為常數(shù),等于該參數(shù)向量。在這種情況下,網(wǎng)絡(luò)很高興地忽略了輸入,所有的RBF輸出都等于零。如果不允許RBF權(quán)值適應(yīng),這種塌縮現(xiàn)象就不會(huì)發(fā)生。第二個(gè)問(wèn)題是班級(jí)之間沒(méi)有競(jìng)爭(zhēng)。這樣的競(jìng)爭(zhēng)可以通過(guò)使用一個(gè)更有區(qū)別的訓(xùn)練準(zhǔn)則來(lái)獲得,稱為MAP (maximum a posteriori)準(zhǔn)則,類似于有時(shí)用于訓(xùn)練HMMs[48],[49],[50]的最大互信息準(zhǔn)則。假設(shè)輸入圖像可以來(lái)自其中一個(gè)類,也可以來(lái)自背景中的“垃圾”類標(biāo)簽,那么它就相當(dāng)于最大化正確類Dp的后驗(yàn)概率(或者最小化正確類概率的對(duì)數(shù))。就懲罰函數(shù)而言,這意味著除了像MSE標(biāo)準(zhǔn)那樣將正確類的懲罰向下推外,該標(biāo)準(zhǔn)還會(huì)拉出不正確類的懲罰:

負(fù)的第二項(xiàng)起“競(jìng)爭(zhēng)”作用,它必然小于(或等于)第一項(xiàng),因此這個(gè)損失函數(shù)為正。常數(shù)j為正,可以防止已經(jīng)非常大的類的懲罰被進(jìn)一步推高。垃圾類標(biāo)簽的后驗(yàn)概率為
的比值(ZP,W),該判別準(zhǔn)則使RBF中心遠(yuǎn)離,避免了學(xué)習(xí)RBF參數(shù)時(shí)出現(xiàn)前面提到的“塌縮效應(yīng)”。在第六節(jié)中,我們對(duì)學(xué)習(xí)對(duì)輸入中的多個(gè)對(duì)象(例如,單詞或文檔中的字符)進(jìn)行分類的系統(tǒng)給出了這一標(biāo)準(zhǔn)的概括。對(duì)于卷積網(wǎng)絡(luò)中所有層的所有權(quán)重,損失函數(shù)的梯度計(jì)算是通過(guò)反向傳播完成的。標(biāo)準(zhǔn)算法必須稍加修改,以考慮到權(quán)值的共享。一個(gè)簡(jiǎn)單的實(shí)現(xiàn)方法是首先計(jì)算損失函數(shù)對(duì)每個(gè)連接的偏導(dǎo)數(shù),就好像網(wǎng)絡(luò)是一個(gè)傳統(tǒng)的沒(méi)有權(quán)值共享的多層網(wǎng)絡(luò)。然后將具有相同參數(shù)的所有連接的偏導(dǎo)數(shù)相加,形成對(duì)的偏導(dǎo)數(shù)準(zhǔn)網(wǎng)。
??損失函數(shù)相對(duì)于卷積網(wǎng)絡(luò)所有層中所有權(quán)值的梯度是通過(guò)反向傳播來(lái)計(jì)算的。標(biāo)準(zhǔn)算法必須稍加修改,以考慮到權(quán)值的共享。一個(gè)簡(jiǎn)單的實(shí)現(xiàn)方法是首先計(jì)算損失函數(shù)對(duì)每個(gè)連接的偏導(dǎo)數(shù),就好像網(wǎng)絡(luò)是一個(gè)傳統(tǒng)的沒(méi)有權(quán)值共享的多層網(wǎng)絡(luò)。所有這些聯(lián)系的偏導(dǎo)數(shù)都是一樣的-添加參數(shù),形成對(duì)該參數(shù)的導(dǎo)數(shù)。
??這樣一個(gè)大型體系結(jié)構(gòu)被訓(xùn)練的有效,但是這樣做需要使用附錄中描述的一些技術(shù)。附錄的A部分描述了一些細(xì)節(jié),比如使用的特定的sigmoid和權(quán)重初始化。B節(jié)和C節(jié)描述了所使用的最小化過(guò)程,它是Levenberg-Marquardt過(guò)程對(duì)角逼近的隨機(jī)版本。

Results and comparison with other methods

??雖然識(shí)別個(gè)體數(shù)字只是設(shè)計(jì)一個(gè)實(shí)際的識(shí)別系統(tǒng)所涉及的眾多問(wèn)題之一,但它是比較形狀識(shí)別方法的一個(gè)很好的基準(zhǔn)。雖然現(xiàn)有的許多方法結(jié)合了手工特征提取器和可訓(xùn)練分類器,但本研究集中于直接對(duì)尺寸歸一化圖像進(jìn)行操作的自適應(yīng)方法。

A.database:

未設(shè)置修改后的NIS用于訓(xùn)練和測(cè)試本文系統(tǒng)的數(shù)據(jù)庫(kù)是由NIST的專用數(shù)據(jù)庫(kù)3和包含手寫數(shù)字二值圖像的專用數(shù)據(jù)庫(kù)1組成的。NIST最初指定D-3作為訓(xùn)練集,SD-1作為測(cè)試集,但是SD-3比SD-1更清晰,更容易識(shí)別.其原因可以從SD-3在人口普查局工作人員中收集,而SD-1在高中生中收集這一事實(shí)中找到。從學(xué)習(xí)實(shí)驗(yàn)中得出合理的結(jié)論,要求結(jié)果獨(dú)立于訓(xùn)練集的選擇和整個(gè)樣本集的測(cè)試。因此,有必要通過(guò)混合NIST的數(shù)據(jù)集來(lái)建立一個(gè)新的數(shù)據(jù)庫(kù)。
??SD-1包含58,527位數(shù)字圖像,由500個(gè)不同的寫入器寫入。與SD-3中每個(gè)寫入器的數(shù)據(jù)塊依次出現(xiàn)不同,SD-1中的數(shù)據(jù)被打亂。SD-1的寫入器標(biāo)識(shí)是可用的,我們使用這些信息來(lái)解讀寫入器。然后我們將SD-1分成兩部分:前250個(gè)寫手寫的字符進(jìn)入我們新的訓(xùn)練集,其余250個(gè)寫手放入我們的測(cè)試集,這樣我們就有了兩個(gè)集,每個(gè)集有近3萬(wàn)個(gè)例子。新的訓(xùn)練集由足夠的SD-3樣本完成,從模式#0開(kāi)始,得到60,000個(gè)訓(xùn)練模式的完整集合。同樣,新的測(cè)試集由SD-3樣本完成,從模式#35,000開(kāi)始,得到60,000個(gè)測(cè)試模式的完整集合。在這里描述的實(shí)驗(yàn)中,我們只使用了10,000張測(cè)試圖像的子集(5,000張來(lái)自SD-1, 5,000張來(lái)自SD-3),但是我們使用了全部60,000個(gè)訓(xùn)練樣本。生成的數(shù)據(jù)庫(kù)稱為ModifiedIST 或 MNIST 數(shù)據(jù)集。
??原始的黑白(雙層)圖像尺寸被歸一化,以適應(yīng)一個(gè)20x20像素的盒子,同時(shí)保持它們的高寬比。由于歸一化算法使用了抗混疊(圖像插值)技術(shù),所得到的圖像含有灰度。使用了數(shù)據(jù)庫(kù)的三個(gè)版本。在第一個(gè)版本中,通過(guò)計(jì)算像素的質(zhì)心,使圖像以28x28的圖像為中心,并平移圖像,將該點(diǎn)定位于28x28場(chǎng)的中心。在某些情況下,這個(gè)28x28的字段被擴(kuò)展為32x32的背景像素。這個(gè)版本的數(shù)據(jù)庫(kù)將被稱為常規(guī)數(shù)據(jù)庫(kù)。在數(shù)據(jù)庫(kù)的第二個(gè)版本中,字符圖像被分離并裁剪為20x20像素的圖像。deslanting計(jì)算像素的慣性矩(將前景像素計(jì)算為1,將背景像素計(jì)算為0),并通過(guò)水平移動(dòng)線條來(lái)剪切圖像,使主軸垂直。此版本的數(shù)據(jù)庫(kù)將稱為deslanted數(shù)據(jù)庫(kù)。在數(shù)據(jù)庫(kù)的第三個(gè)版本中。在早期的一些實(shí)驗(yàn)中,圖像被縮小到16x16像素。常規(guī)數(shù)據(jù)庫(kù)(60000個(gè)訓(xùn)練示例、10,000個(gè)測(cè)試示例大小-標(biāo)準(zhǔn)化為20x20。在http://www.research.att.com/yann/ocr/mnist上可以找到,圖4顯示了從測(cè)試集中隨機(jī)抽取的示例。

b.Results

??在常規(guī)MNIST數(shù)據(jù)庫(kù)上訓(xùn)練了LeNet-5的幾個(gè)版本。通過(guò)整個(gè)訓(xùn)練數(shù)據(jù)對(duì)每個(gè)會(huì)話執(zhí)行20次迭代。全局學(xué)習(xí)率n(見(jiàn)附錄C中的公式21的定義)的值按照以下的時(shí)間表遞減:前兩輪為0.0005,后三輪為0.0002,接下來(lái)的3個(gè)是0.0001,接下來(lái)的4個(gè)是0.00005以后都是0.00001。在每次迭代之前,對(duì)500個(gè)樣本重新評(píng)估diagona Hessian近似值,如附錄C所述,并在整個(gè)迭代過(guò)程中保持不變。參數(shù)u被設(shè)置為0.02。在第一次測(cè)試中得到的有效學(xué)習(xí)率在參數(shù)集上的變化約為7 x 10-5和0.016。測(cè)試錯(cuò)誤率在通過(guò)訓(xùn)練集10次左右后穩(wěn)定在0.95%。通過(guò)19次后,訓(xùn)練集的錯(cuò)誤率達(dá)到0.35%。許多作者報(bào)告說(shuō),在訓(xùn)練神經(jīng)網(wǎng)絡(luò)或其他自適應(yīng)算法完成各種任務(wù)時(shí),觀察到過(guò)度訓(xùn)練的普遍現(xiàn)象。當(dāng)過(guò)度訓(xùn)練發(fā)生時(shí),訓(xùn)練誤差會(huì)隨著時(shí)間的推移而不斷減小,但是測(cè)試誤差會(huì)經(jīng)歷一個(gè)最小值,并在一定的迭代次數(shù)后開(kāi)始增加。雖然這種現(xiàn)象很常見(jiàn),但在圖5所示的學(xué)習(xí)曲線中并沒(méi)有觀察到這種現(xiàn)象。一個(gè)可能的原因是學(xué)習(xí)率保持相對(duì)較高。這樣做的結(jié)果是,權(quán)值永遠(yuǎn)不會(huì)落在局部最小值上,而是一直隨機(jī)地振蕩。由于這些波動(dòng),在更廣的最小值下,平均代價(jià)會(huì)更低。因此,隨機(jī)梯度與正則化項(xiàng)具有相似的效果,它有利于更廣的最小值。廣義最小值對(duì)應(yīng)于參數(shù)分布熵大的解,有利于提高泛化誤差。
??訓(xùn)練集大小的影響程度通過(guò)使用15000、30000和60000個(gè)樣本對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練來(lái)衡量。由此產(chǎn)生的訓(xùn)練錯(cuò)誤和測(cè)試錯(cuò)誤如圖6所示。很明顯,即使使用像LeNet-5這樣的專門架構(gòu),更多的訓(xùn)練數(shù)據(jù)也會(huì)提高精確度。
??為了驗(yàn)證這一假設(shè),我們通過(guò)隨機(jī)扭曲原始訓(xùn)練圖像來(lái)人為地生成更多的訓(xùn)練示例。增加的訓(xùn)練集由60000個(gè)原始模式加上540000個(gè)實(shí)例組成畸變模式與隨機(jī)選擇的畸變參數(shù)。扭曲是以下平面仿射變換的組合:水平和垂直平移、縮放、壓縮(同時(shí)的水平壓縮和垂直伸長(zhǎng),或反向)和水平剪切。圖7顯示了用于訓(xùn)練的扭曲模式的示例。當(dāng)使用失真數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),測(cè)試錯(cuò)誤率從沒(méi)有變形時(shí)的0.95%下降到0.8%。使用的訓(xùn)練參數(shù)與沒(méi)有變形時(shí)相同。訓(xùn)練的總時(shí)間不變(20次,每次60,000個(gè)模式)。值得注意的是,在這20次傳遞過(guò)程中,網(wǎng)絡(luò)只有效地看到單個(gè)樣本兩次。
??圖8顯示了所有82個(gè)分類錯(cuò)誤的測(cè)試示例。其中一些例子確實(shí)模棱兩可,但也有一些是這樣完全可以被人類識(shí)別出來(lái),盡管它們是用一種不被代表的風(fēng)格寫的。這表明,更多的訓(xùn)練數(shù)據(jù)有望進(jìn)一步改善。

C.Comparison with other classifiers

為了便于比較,在同一個(gè)數(shù)據(jù)庫(kù)上對(duì)其他多種可訓(xùn)練分類器進(jìn)行了訓(xùn)練和測(cè)試。這些結(jié)果的早期子集在[51]中提出。各種方法的測(cè)試集上的錯(cuò)誤率如圖9所示。

總結(jié)

以上是生活随笔為你收集整理的01 LeNet-5论文笔记-Gradient-Based Learning Applied to Document Recognition的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。