當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习笔记(待续)

發布時間：2023/12/13 pytorch 38 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习笔记(待续) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

背景知識

好的特征應具有不變性（大小、尺度和旋轉等）和可區分性）：例如Sift的出現，是局部圖像特征描述子研究領域一項里程碑式的工作。由于SIFT對尺度、旋轉以及一定視角和光照變化等圖像變化都具有不變性，并且SIFT具有很強的可區分性，的確讓很多問題的解決變為可能。

Deep Learning的一個別名UnsupervisedFeature Learning，就可以顧名思義了，Unsupervised的意思就是不要人參與特征的選取過程。

總的來說，人的視覺系統的信息處理是分級的。從低級的V1區提取邊緣特征，再到V2區的形狀或者目標的部分等，再到更高層，整個目標、目標的行為等。也就是說高層的特征是低層特征的組合，從低層到高層的特征表示越來越抽象，越來越能表現語義或者意圖。而抽象層面越高，存在的可能猜測就越少，就越利于分類。

關于特征

特征表示的粒度

學習算法在一個什么粒度上的特征表示，才有能發揮作用？就一個圖片來說，像素級的特征根本沒有價值。例如下面的摩托車，從像素級別，根本得不到任何信息，其無法進行摩托車和非摩托車的區分。而如果特征是一個具有結構性（或者說有含義）的時候，比如是否具有車把手（handle），是否具有車輪（wheel），就很容易把摩托車和非摩托車區分，學習算法才能發揮作用。

初級（淺層）特征表示
既然像素級的特征表示方法沒有作用，那怎樣的表示才有用呢？
1995 年前后，Bruno Olshausen和 David Field 兩位學者任職 Cornell University，他們試圖同時用生理學和計算機的手段，雙管齊下，研究視覺問題。
他們收集了很多黑白風景照片，從這些照片中，提取出400個小碎片，每個照片碎片的尺寸均為 16x16 像素，不妨把這400個碎片標記為 S[i], i = 0,.. 399。接下來，再從這些黑白風景照片中，隨機提取另一個碎片，尺寸也是 16x16 像素，不妨把這個碎片標記為 T。
他們提出的問題是，如何從這400個碎片中，選取一組碎片，S[k], 通過疊加的辦法，合成出一個新的碎片，而這個新的碎片，應當與隨機選擇的目標碎片 T，盡可能相似，同時，S[k] 的數量盡可能少。用數學的語言來描述，就是：

Sum_k (a[k] * S[k]) --> T, 其中 a[k] 是在疊加碎片 S[k] 時的權重系數。

為解決這個問題，Bruno Olshausen和 David Field 發明了一個算法，稀疏編碼（Sparse Coding）。

稀疏編碼是一個重復迭代的過程，每次迭代分兩步：

1）選擇一組 S[k]，然后調整 a[k]，使得Sum_k (a[k] * S[k]) 最接近 T。
2）固定住 a[k]，在 400 個碎片中，選擇其它更合適的碎片S’[k]，替代原先的 S[k]，使得Sum_k (a[k] * S’[k]) 最接近 T。

經過幾次迭代后，最佳的 S[k] 組合，被遴選出來了。令人驚奇的是，被選中的 S[k]，基本上都是照片上不同物體的邊緣線，這些線段形狀相似，區別在于方向。
Bruno Olshausen和 David Field 的算法結果，與 David Hubel 和Torsten Wiesel 的生理發現，不謀而合！
也就是說，復雜圖形，往往由一些基本結構組成。比如下圖：一個圖可以通過用64種正交的edges（可以理解成正交的基本結構）來線性表示。比如樣例的x可以用1-64個edges中的三個按照0.8,0.3,0.5的權重調和而成。而其他基本edge沒有貢獻，因此均為0 。

另外，大牛們還發現，不僅圖像存在這個規律，聲音也存在。他們從未標注的聲音中發現了20種基本的聲音結構，其余的聲音可以由這20種基本結構合成。

淺層學習（Shallow Learning）和深度學習（Deep Learning）

淺層學習是機器學習的第一次浪潮。
20世紀80年代末期，用于人工神經網絡的反向傳播算法（也叫Back Propagation算法或者BP算法）的發明，給機器學習帶來了希望，掀起了基于統計模型的機器學習熱潮。這個熱潮一直持續到今天。人們發現，利用BP算法可以讓一個人工神經網絡模型從大量訓練樣本中學習統計規律，從而對未知事件做預測。這種基于統計的機器學習方法比起過去基于人工規則的系統，在很多方面顯出優越性。這個時候的人工神經網絡，雖也被稱作多層感知機（Multi-layer Perceptron），但實際是種只含有一層隱層節點的淺層模型。
20世紀90年代，各種各樣的淺層機器學習模型相繼被提出，例如支撐向量機（SVM，Support Vector Machines）、 Boosting、最大熵方法（如LR，Logistic Regression）等。這些模型的結構基本上可以看成帶有一層隱層節點（如SVM、Boosting），或沒有隱層節點（如LR）。這些模型無論是在理論分析還是應用中都獲得了巨大的成功。相比之下，由于理論分析的難度大，訓練方法又需要很多經驗和技巧，這個時期淺層人工神經網絡反而相對沉寂。

深度學習是機器學習的第二次浪潮。

2006年，加拿大多倫多大學教授、機器學習領域的泰斗Geoffrey Hinton和他的學生RuslanSalakhutdinov在《科學》上發表了一篇文章，開啟了深度學習在學術界和工業界的浪潮。這篇文章有兩個主要觀點：

1）多隱層的人工神經網絡具有優異的特征學習能力，學習得到的特征對數據有更本質的刻畫，從而有利于可視化或分類；
2）深度神經網絡在訓練上的難度，可以通過“逐層初始化”（layer-wise pre-training）來有效克服，在這篇文章中，逐層初始化是通過無監督學習實現的。

當前多數分類、回歸等學習方法為淺層結構算法，其局限性在于有限樣本和計算單元情況下對復雜函數的表示能力有限，針對復雜分類問題其泛化能力受到一定制約。
深度學習可通過學習一種深層非線性網絡結構，實現復雜函數逼近，表征輸入數據分布式表示，并展現了強大的從有限樣本集中學習數據集本質特征的能力。（多層的好處是可以用較少的參數表示復雜的函數）

深度學習的實質，是通過構建具有很多隱層的機器學習模型和海量的訓練數據，來學習更有用的特征，從而最終提升分類或預測的準確性。因此，“深度模型”是手段，“特征學習”是目的。
區別于傳統的淺層學習，深度學習的不同在于：

1）強調了模型結構的深度，通常有5層、6層，甚至10多層的隱層節點；
2）明確突出了特征學習的重要性，也就是說，通過逐層特征變換，將樣本在原空間的特征表示變換到一個新特征空間，從而使分類或預測更加容易。

與人工規則構造特征的方法相比，利用大數據來學習特征，更能夠刻畫數據的豐富內在信息。

deep的含義就是多層神經元網絡，每一層代表一種層次的概念，越往下概念的正交性越好，越往上概念的正交性越差，越具有相似度。因為高層概念彼此可能互相包含了相同的基本結構。
高層概念分離出基本結構的方法也很容易理解，就是打散了聚類

關于算法和算力的討論詳見
算法還是算力？周志華微博引爆深度學習的“雞生蛋，蛋生雞”問題

周志華：
最重要的進步是由機器學習技術的進步帶來的，計算能力起到了促進作用而不是根本作用。
機器學習的進步使我們從‘不能’到‘能’，計算能力的進步使我們從‘能’到‘更好’。試圖抹殺前者的作用，認為一切都是計算能力提高帶來的，是錯誤且危險的。

中科院計算所的包云崗研究員則表示，“算法進步和計算能力進步對今天AI都不可或缺”，二者相輔相成。其中算力提升的作用則表現在運行時間減少、功耗降低、開發效率提高這幾大方面，進步相當顯著。

Hinton其中第一次明確提到計算能力是其研究能成功的三大條件之一：“provided that computers were fast enough, data sets were big enough,and the initial weights were close enough to a good solution”。
Hinton老爺子2006年的算法突破終究離不開當時的數據集與計算機硬件。

Deep learning與Neural Network

深度學習的概念源于人工神經網絡的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征，以發現數據的分布式特征表示。

Deep learning本身算是machine learning的一個分支，簡單可以理解為neural network的發展。大約二三十年前，neural network曾經是ML領域特別火熱的一個方向，但是后來確慢慢淡出了，原因包括以下幾個方面：

1）比較容易過擬合，參數比較難tune，而且需要不少trick；
2）訓練速度比較慢，在層次比較少（小于等于3）的情況下效果并不比其它方法更優；

所以中間有大約20多年的時間，神經網絡被關注很少，這段時間基本上是SVM和boosting算法的天下。但是，一個癡心的老先生Hinton，他堅持了下來，并最終（和其它人一起Bengio、Yann.lecun等）提成了一個實際可行的deep learning框架。

Deep learning與傳統的神經網絡之間有相同的地方也有很多不同。

二者的相同在于deep learning采用了神經網絡相似的分層結構，系統由包括輸入層、隱層（多層）、輸出層組成的多層網絡，只有相鄰層節點之間有連接，同一層以及跨層節點之間相互無連接，每一層可以看作是一個logistic regression模型；這種分層結構，是比較接近人類大腦的結構的。

而為了克服神經網絡訓練中的問題，DL采用了與神經網絡很不同的訓練機制。

傳統神經網絡中，采用的是back propagation的方式進行，簡單來講就是采用迭代的算法來訓練整個網絡，隨機設定初值，計算當前網絡的輸出，然后根據當前輸出和label之間的差去改變前面各層的參數，直到收斂（整體是一個梯度下降法）。
而deep learning整體上是一個layer-wise的訓練機制。這樣做的原因是因為，如果采用back propagation的機制，對于一個deep network（7層以上），殘差傳播到最前面的層已經變得太小，出現所謂的gradient diffusion（梯度擴散）。

Deep learning訓練過程

傳統神經網絡的訓練方法為什么不能用在深度神經網絡

BP算法作為傳統訓練多層網絡的典型算法，實際上對僅含幾層網絡，該訓練方法就已經很不理想。深度結構（涉及多個非線性處理單元層）非凸目標代價函數中普遍存在的局部最小是訓練困難的主要來源。

BP算法存在的問題：

（1）梯度越來越稀疏：從頂層越往下，誤差校正信號越來越小；
（2）收斂到局部最小值：尤其是從遠離最優區域開始的時候（隨機值初始化會導致這種情況的發生）；
（3）一般，我們只能用有標簽的數據來訓練：但大部分的數據是沒標簽的，而大腦可以從沒有標簽的的數據中學習；

deep learning訓練過程

如果對所有層同時訓練，時間復雜度會太高；如果每次訓練一層，偏差就會逐層傳遞。這會面臨跟上面監督學習中相反的問題，會嚴重欠擬合（因為深度網絡的神經元和參數太多了）。

2006年，hinton提出了在非監督數據上建立多層神經網絡的一個有效方法，簡單的說，分為兩步，
一是每次訓練一層網絡，二是調優，使原始表示x向上生成的高級表示r和該高級表示r向下生成的x’盡可能一致。方法是：

1）首先逐層構建單層神經元，這樣每次都是訓練一個單層網絡。
2）當所有層訓練完后，Hinton使用wake-sleep算法進行調優。

將除最頂層的其它層間的權重變為雙向的，這樣最頂層仍然是一個單層神經網絡，而其它層則變為了圖模型。向上的權重用于“認知”，向下的權重用于“生成”。然后使用Wake-Sleep算法調整所有的權重。讓認知和生成達成一致，也就是保證生成的最頂層表示能夠盡可能正確的復原底層的結點。比如頂層的一個結點表示人臉，那么所有人臉的圖像應該激活這個結點，并且這個結果向下生成的圖像應該能夠表現為一個大概的人臉圖像。Wake-Sleep算法分為醒（wake）和睡（sleep）兩個部分。

1）wake階段：認知過程，通過外界的特征和向上的權重（認知權重）產生每一層的抽象表示（結點狀態），并且使用梯度下降修改層間的下行權重（生成權重）。也就是“如果現實跟我想象的不一樣，改變我的權重使得我想象的東西就是這樣的”。
2）sleep階段：生成過程，通過頂層表示（醒時學得的概念）和向下權重，生成底層的狀態，同時修改層間向上的權重。也就是“如果夢中的景象不是我腦中的相應概念，改變我的認知權重使得這種景象在我看來就是這個概念”。

備注：wake階段的解釋

deep learning訓練過程具體如下：

1）使用自下上升非監督學習（就是從底層開始，一層一層的往頂層訓練）：
采用無標定數據（有標定數據也可）分層訓練各層參數，這一步可以看作是一個無監督訓練過程，是和傳統神經網絡區別最大的部分（這個過程可以看作是feature learning過程）：

具體的，先用無標定數據訓練第一層，訓練時先學習第一層的參數（這一層可以看作是得到一個使得輸出和輸入差別最小的三層神經網絡的隱層），由于模型capacity的限制以及稀疏性約束，使得得到的模型能夠學習到數據本身的結構，從而得到比輸入更具有表示能力的特征；在學習得到第n-1層后，將n-1層的輸出作為第n層的輸入，訓練第n層，由此分別得到各層的參數；

2）自頂向下的監督學習（就是通過帶標簽的數據去訓練，誤差自頂向下傳輸，對網絡進行微調）

基于第一步得到的各層參數進一步fine-tune整個多層模型的參數，這一步是一個有監督訓練過程；第一步類似神經網絡的隨機初始化初值過程，由于DL的第一步不是隨機初始化，而是通過學習輸入數據的結構得到的，因而這個初值更接近全局最優，從而能夠取得更好的效果；所以deep learning效果好很大程度上歸功于第一步的feature learning過程。

Deep Learning的常用模型或者方法

AutoEncoder自動編碼器

Deep Learning最簡單的一種方法是利用人工神經網絡的特點，人工神經網絡（ANN）本身就是具有層次結構的系統，如果給定一個神經網絡，我們假設其輸出與輸入是相同的，然后訓練調整其參數，得到每一層中的權重。自然地，我們就得到了輸入I的幾種不同表示（每一層代表一種表示），這些表示就是特征。自動編碼器就是一種盡可能復現輸入信號的神經網絡。為了實現這種復現，自動編碼器就必須捕捉可以代表輸入數據的最重要的因素，就像PCA那樣，找到可以代表原信息的主要成分。

具體過程簡單的說明如下：

1）給定無標簽數據，用非監督學習學習特征：

在我們之前的神經網絡中，如第一個圖，我們輸入的樣本是有標簽的，即（input, target），這樣我們根據當前輸出和target（label）之間的差去改變前面各層的參數，直到收斂。但現在我們只有無標簽數據，也就是右邊的圖。那么這個誤差怎么得到呢？

如上圖，我們將input輸入一個encoder編碼器，就會得到一個code，這個code也就是輸入的一個表示，那么我們怎么知道這個code表示的就是input呢？我們加一個decoder解碼器，這時候decoder就會輸出一個信息，那么如果輸出的這個信息和一開始的輸入信號input是很像的（理想情況下就是一樣的），那很明顯，我們就有理由相信這個code是靠譜的。所以，我們就通過調整encoder和decoder的參數，使得重構誤差最小，這時候我們就得到了輸入input信號的第一個表示了，也就是編碼code了。因為是無標簽數據，所以誤差的來源就是直接重構后與原輸入相比得到。

2）通過編碼器產生特征，然后訓練下一層。這樣逐層訓練：

那上面我們就得到第一層的code，我們的重構誤差最小讓我們相信這個code就是原輸入信號的良好表達了，或者牽強點說，它和原信號是一模一樣的（表達不一樣，反映的是一個東西）。那第二層和第一層的訓練方式就沒有差別了，我們將第一層輸出的code當成第二層的輸入信號，同樣最小化重構誤差，就會得到第二層的參數，并且得到第二層輸入的code，也就是原輸入信息的第二個表達了。其他層就同樣的方法炮制就行了（訓練這一層，前面層的參數都是固定的，并且他們的decoder已經沒用了，都不需要了）。

3）有監督微調：

經過上面的方法，我們就可以得到很多層了。至于需要多少層（或者深度需要多少，這個目前本身就沒有一個科學的評價方法）需要自己試驗調了。每一層都會得到原始輸入的不同的表達。當然了，我們覺得它是越抽象越好了，就像人的視覺系統一樣。

到這里，這個AutoEncoder還不能用來分類數據，因為它還沒有學習如何去連結一個輸入和一個類。它只是學會了如何去重構或者復現它的輸入而已?；蛘哒f，它只是學習獲得了一個可以良好代表輸入的特征，這個特征可以最大程度上代表原輸入信號。那么，為了實現分類，我們就可以在AutoEncoder的最頂的編碼層添加一個分類器（例如(LogicalRegression) 邏輯回歸、SVM等），然后通過標準的多層神經網絡的監督訓練方法（梯度下降法）去訓練。

也就是說，這時候，我們需要將最后層的特征code輸入到最后的分類器，通過有標簽樣本，通過監督學習進行微調，這也分兩種，一個是只調整分類器（黑色部分）：

另一種：通過有標簽樣本，微調整個系統：（如果有足夠多的數據，這個是最好的。end-to-end learning端對端學習）

一旦監督訓練完成，這個網絡就可以用來分類了。神經網絡的最頂層可以作為一個線性分類器，然后我們可以用一個更好性能的分類器去取代它。

在研究中可以發現，如果在原有的特征中加入這些自動學習得到的特征可以大大提高精確度，甚至在分類問題中比目前最好的分類算法效果還要好！

自動編碼參考文獻
Autoencoders were first introduced in the 1980s by Hinton and the PDP group (Rumelhart et al., 1986 [18]) to address the problem of backpropagation without a teacher, by using the input data as the teacher.
《Learning internal representations by error propagation》

AutoEncoder存在一些變體，這里簡要介紹下兩個：

Sparse AutoEncoder稀疏自動編碼器：

當然，我們還可以繼續加上一些約束條件得到新的Deep Learning方法，如：如果在AutoEncoder的基礎上加上L1的Regularity限制（L1主要是約束每一層中的節點中大部分都要為0，只有少數不為0，這就是Sparse名字的來源），我們就可以得到Sparse AutoEncoder法。

如上圖，其實就是限制每次得到的表達code盡量稀疏。因為稀疏的表達往往比其他的表達要有效（人腦好像也是這樣的，某個輸入只是刺激某些神經元，其他的大部分的神經元是受到抑制的）。

Denoising AutoEncoders降噪自動編碼器：

降噪自動編碼器DA是在自動編碼器的基礎上，訓練數據加入噪聲，所以自動編碼器必須學習去去除這種噪聲而獲得真正的沒有被噪聲污染過的輸入。因此，這就迫使編碼器去學習輸入信號的更加魯棒的表達，這也是它的泛化能力比一般編碼器強的原因。DA可以通過梯度下降算法去訓練。

備注：降噪自動編碼器DA 可以使用梯度下降的方法進行訓練，降噪自動編碼器DA只有一層，而梯度彌散和局部最優是相對多層而言的。
自頂向下微調整個網絡的參數
把深度網絡看做多層神經網絡，我們傳統的訓練神經網絡的方法是先隨機的初始化網絡的參數，然后用有標簽樣本來進行BP訓練整個網絡。但這樣的訓練對多層網絡來說會產生梯度擴散，隨機的初始化也會容易陷入不好的局部最小值，總之，用傳統方法去訓練多層深度網絡是不好的。
有效的深度網絡訓練方法就是逐層的非監督訓練前面的層，然后再堆疊一個分類層。我們前面逐層預訓練的得到的參數給我們的整個神經網絡提供一個比較好的初始化的參數，這樣可以更好的避免局部最優，然后我們再用有標簽樣本來訓練這整個網絡，這樣可以避免整個網絡BP產生的梯度擴散問題。這樣的訓練方法對深度網絡來說才是有效的。

Sparse Coding稀疏編碼

如果我們把輸出必須和輸入相等的限制放松，同時利用線性代數中基的概念，即O = a1*Φ1 + a2*Φ2+….+ an*Φn， Φi是基，ai是系數，我們可以得到這樣一個優化問題：

Min |I – O|，其中I表示輸入，O表示輸出。

通過求解這個最優化式子，我們可以求得系數ai和基Φi，這些系數和基就是輸入的另外一種近似表達。
因此，它們可以用來表達輸入I，這個過程也是自動學習得到的。如果我們在上述式子上加上L1的Regularity限制，得到：

Min |I – O| + u*(|a1| + |a2| + … + |an |)

這種方法被稱為Sparse Coding。通俗的說，就是將一個信號表示為一組基的線性組合，而且要求只需要較少的幾個基就可以將信號表示出來。
“稀疏性”定義為：只有很少的幾個非零元素或只有很少的幾個遠大于零的元素。要求系數 ai 是稀疏的意思就是說：對于一組輸入向量，我們只想有盡可能少的幾個系數遠大于零。選擇使用具有稀疏性的分量來表示我們的輸入數據是有原因的，因為絕大多數的感官數據，比如自然圖像，可以被表示成少量基本元素的疊加，在圖像中這些基本元素可以是面或者線。同時，比如與初級視覺皮層的類比過程也因此得到了提升（人腦有大量的神經元，但對于某些圖像或者邊緣只有很少的神經元興奮，其他都處于抑制狀態）。

稀疏編碼算法是一種無監督學習方法，它用來尋找一組“超完備”基向量來更高效地表示樣本數據。雖然形如主成分分析技術（PCA）能使我們方便地找到一組“完備”基向量，但是這里我們想要做的是找到一組“超完備”基向量來表示輸入向量（也就是說，基向量的個數比輸入向量的維數要大）。超完備基的好處是它們能更有效地找出隱含在輸入數據內部的結構與模式。然而，對于超完備基來說，系數ai不再由輸入向量唯一確定。因此，在稀疏編碼算法中，我們另加了一個評判標準“稀疏性”來解決因超完備而導致的退化（degeneracy）問題。（詳細過程請參考：UFLDL Tutorial稀疏編碼）

比如在圖像的Feature Extraction的最底層要做Edge Detector的生成，那么這里的工作就是從Natural Images中randomly選取一些小patch，通過這些patch生成能夠描述他們的“基”，也就是右邊的8*8=64個basis組成的basis，然后給定一個test patch, 我們可以按照上面的式子通過basis的線性組合得到，而sparse matrix就是a，下圖中的a中有64個維度，其中非零項只有3個，故稱“sparse”。

這里可能大家會有疑問，為什么把底層作為Edge Detector呢？上層又是什么呢？這里做個簡單解釋大家就會明白，之所以是Edge Detector是因為不同方向的Edge就能夠描述出整幅圖像，所以不同方向的Edge自然就是圖像的basis了……而上一層的basis組合的結果，上上層又是上一層的組合basis……

Sparse coding分為兩個部分：

1）Training階段：給定一系列的樣本圖片[x1, x 2, …]，我們需要學習得到一組基[Φ1, Φ2, …]，也就是字典。

稀疏編碼是k-means算法的變體，其訓練過程也差不多（EM算法的思想：如果要優化的目標函數包含兩個變量，如L(W, B)，那么我們可以先固定W，調整B使得L最小，然后再固定B，調整W使L最小，這樣迭代交替，不斷將L推向最小值。EM算法可以見我的博客：“從最大似然到EM算法淺解”）。

訓練過程就是一個重復迭代的過程，按上面所說，我們交替的更改a和Φ使得下面這個目標函數最小。

每次迭代分兩步：

a）固定字典Φ[k]，然后調整a[k]，使得上式，即目標函數最小（即解LASSO問題）。
b）然后固定住a [k]，調整Φ [k]，使得上式，即目標函數最小（即解凸QP問題）。

不斷迭代，直至收斂。這樣就可以得到一組可以良好表示這一系列x的基，也就是字典。

2）Coding階段：給定一個新的圖片x，由上面得到的字典，通過解一個LASSO問題得到稀疏向量a。這個稀疏向量就是這個輸入向量x的一個稀疏表達了。

例如：

☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆
Restricted Boltzmann Machine (RBM)限制波爾茲曼機

Deep Learning（深度學習）學習筆記整理系列之（六）
上面網頁寫的比較亂，有待進一步優化和重新總結。
☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆

受限玻爾茲曼機（RBM）學習筆記（三）能量函數和概率分布

RBM MATLAB code

《A practical guide to training restricted Boltzmann machines V1》

《A practical guide to training restricted Boltzmann machines V2》
RBM訓練指導手冊粗略（A Practical Guide to Training Restricted Boltzmann Machines）

A Beginner’s Tutorial for Restricted Boltzmann Machines

Convolutional Neural Networks卷積神經網絡

☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆

Deep Learning（深度學習）學習筆記整理系列之（七）
上面網頁講解比較粗糙，需要重新整理和總結。
卷積神經網絡請閱讀下面博文
李宏毅機器學習課程10~~~卷積神經網絡

☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆
訓練算法與傳統的BP算法差不多。主要包括4步，這4步被分為兩個階段：

第一階段，向前傳播階段：

a）從樣本集中取一個樣本(X,Yp)，將X輸入網絡；
b）計算相應的實際輸出Op。

在此階段，信息從輸入層經過逐級的變換，傳送到輸出層。這個過程也是網絡在完成訓練后正常運行時執行的過程。在此過程中，網絡執行的是計算（實際上就是輸入與每層的權值矩陣相點乘，得到最后的輸出結果）：

Op=Fn（…（F2（F1（XpW（1））W（2））…）W（n））

第二階段，向后傳播階段

a）算實際輸出Op與相應的理想輸出Yp的差；
b）按極小化誤差的方法反向傳播調整權矩陣。

BP 算法請閱讀下面的博文
李宏毅機器學習課程7~~~反向傳播
Calculus on Computational Graphs: Backpropagation

卷積神經網絡CNN基本概念筆記

參考文獻和Deep Learning學習資源

參考文獻

吳恩達 Andrew Ng 的公開課

無監督特征學習——Unsupervised feature learning and deep learning

Deep Learning（深度學習）學習筆記整理系列

UFLDL_Tutorial

UFLDL教程

2012 Machine Learning and AI via Brain simulations

2011Machine Learning and AI via Brain simulations - Stanford Computer

NIPS - Video Machine Learning and AI via Brain simulations

2013-08-01 Prof. Andrew Ng: “Deep Learning: Machine learning via Large-scale Brain Simulations”

Hugo Larochelle 教授的神經網絡課程
http://info.usherbrooke.ca/hlarochelle/cours/ift725_A2013/contenu.html

deep learning at oxford 2015

總結

以上是生活随笔為你收集整理的深度学习笔记(待续)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：中银长城e闪付怎么开通？这些申请条件缺一
下一篇：李宏毅机器学习课程6~~~深度学习入门