當前位置：首頁 > 人工智能 > 卷积神经网络 >内容正文

卷积神经网络

2.11 计算机视觉现状-深度学习第四课《卷积神经网络》-Stanford吴恩达教授

發(fā)布時間：2025/4/5 卷积神经网络 69 豆豆

生活随笔收集整理的這篇文章主要介紹了 2.11 计算机视觉现状-深度学习第四课《卷积神经网络》-Stanford吴恩达教授小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2.10 數(shù)據(jù)擴充

回到目錄

2.12 總結

計算機視覺現(xiàn)狀 (The State of Computer Vision)

深度學習已經成功地應用于計算機視覺、自然語言處理、語音識別、在線廣告、物流還有其他許多問題。在計算機視覺的現(xiàn)狀下，深度學習應用于計算機視覺應用有一些獨特之處。在這個視頻中，我將和你們分享一些我對深度學習在計算機視覺方面應用的認識，希望能幫助你們更好地理解計算機視覺作品（此處指計算機視覺或者數(shù)據(jù)競賽中的模型）以及其中的想法，以及如何自己構建這些計算機視覺系統(tǒng)。

你可以認為大部分機器學習問題是介于少量數(shù)據(jù)和大量數(shù)據(jù)范圍之間的。舉個例子，我認為今天我們有相當數(shù)量的語音識別數(shù)據(jù)，至少相對于這個問題的復雜性而言。雖然現(xiàn)在圖像識別或圖像分類方面有相當大的數(shù)據(jù)集，因為圖像識別是一個復雜的問題，通過分析像素并識別出它是什么，感覺即使在線數(shù)據(jù)集非常大，如超過一百萬張圖片，我們仍然希望我們能有更多的數(shù)據(jù)。還有一些問題，比如物體檢測，我們擁有的數(shù)據(jù)更少。提醒一下，圖像識別其實是如何看圖片的問題，并且告訴你這張圖是不是貓，而對象檢測則是看一幅圖，你畫一個框，告訴你圖片里的物體，比如汽車等等。因為獲取邊框的成本比標記對象的成本更高，所以我們進行對象檢測的數(shù)據(jù)往往比圖像識別數(shù)據(jù)要少，對象檢測是我們下周要討論的內容。

所以，觀察一下機器學習數(shù)據(jù)范圍圖譜，你會發(fā)現(xiàn)當你有很多數(shù)據(jù)時，人們傾向于使用更簡單的算法和更少的手工工程，因為我們不需要為這個問題精心設計特征。當你有大量的數(shù)據(jù)時，只要有一個大型的神經網(wǎng)絡，甚至一個更簡單的架構，可以是一個神經網(wǎng)絡，就可以去學習它想學習的東西。

相反當你沒有那么多的數(shù)據(jù)時，那時你會看到人們從事更多的是手工工程，低調點說就是你有很多小技巧可用（整理者注：在機器學習或者深度學習中，一般更崇尚更少的人工處理，而手工工程更多依賴人工處理，注意領會Andrew NG的意思）。但我認為每你沒有太多數(shù)據(jù)時，手工工程實際上是獲得良好表現(xiàn)的最佳方式。

所以當我看機器學習應用時，我們認為通常我們的學習算法有兩種知識來源，一個來源是被標記的數(shù)據(jù)，就像( $x, y$ )應用在監(jiān)督學習。第二個知識來源是手工工程，有很多方法去建立一個手工工程系統(tǒng)，它可以是源于精心設計的特征，手工精心設計的網(wǎng)絡體系結構或者是系統(tǒng)的其他組件。所以當你沒有太多標簽數(shù)據(jù)時，你只需要更多地考慮手工工程。

所以我認為計算機視覺是在試圖學習一個非常復雜的功能，我們經常感覺我們沒有足夠的數(shù)據(jù)，即使獲得了更多數(shù)據(jù)，我們還是經常覺得還是沒有足夠的數(shù)據(jù)來滿足需求。這就是為什么計算機視覺，從過去甚至到現(xiàn)在都更多地依賴于手工工程。我認為這也是計算機視覺領域發(fā)展相當復雜網(wǎng)絡架構地原因，因為在缺乏更多數(shù)據(jù)的情況下，獲得良好表現(xiàn)的方式還是花更多時間進行架構設計，或者說在網(wǎng)絡架構設計上浪費（貶義褒用，即需要花費更多時間的意思）更多時間。

如果你認為我是在貶低手工工程，那并不是我的意思，當你沒有足夠的數(shù)據(jù)時，手工工程是一項非常困難，非常需要技巧的任務，它需要很好的洞察力，那些對手工工程有深刻見解的人將會得到更好的表現(xiàn)。當你沒有足夠的數(shù)據(jù)時，手工工程對一個項目來說貢獻就很大。當你有很多數(shù)據(jù)的時候我就不會花時間去做手工工程，我會花時間去建立學習系統(tǒng)。但我認為從歷史而言，計算機視覺領域還只是使用了非常小的數(shù)據(jù)集，因此從歷史上來看計算機視覺還是依賴于大量的手工工程。甚至在過去的幾年里，計算機視覺任務的數(shù)據(jù)量急劇增加，我認為這導致了手工工程量大幅減少，但是在計算機視覺上仍然有很多的網(wǎng)絡架構使用手工工程，這就是為什么你會在計算機視覺中看到非常復雜的超參數(shù)選擇，比你在其他領域中要復雜的多。實際上，因為你通常有比圖像識別數(shù)據(jù)集更小的對象檢測數(shù)據(jù)集，當我們談論對象檢測時，其實這是下周的任務，你會看到算法變得更加復雜，而且有更多特殊的組件。

幸運的是，當你有少量的數(shù)據(jù)時，有一件事對你很有幫助，那就是遷移學習。我想說的是，在之前的幻燈片中，Tigger、Misty或者二者都不是的檢測問題中，我們有這么少的數(shù)據(jù)，遷移學習會有很大幫助。這是另一套技術，當你有相對較少的數(shù)據(jù)時就可以用很多相似的數(shù)據(jù)。

如果你看一下計算機視覺方面的作品，看看那里的創(chuàng)意，你會發(fā)現(xiàn)人們真的是躊躇滿志，他們在基準測試中和競賽中表現(xiàn)出色。對計算機視覺研究者來說，如果你在基準上做得很好了，那就更容易發(fā)表論文了，所以有許多人致力于這些基準上，把它做得很好。積極的一面是，它有助于整個社區(qū)找出最有效得算法。但是你在論文上也看到，人們所做的事情讓你在數(shù)據(jù)基準上表現(xiàn)出色，但你不會真正部署在一個實際得應用程序用在生產或一個系統(tǒng)上。

（整理著注：Benchmark 基準測試，Benchmark是一個評價方式，在整個計算機領域有著長期的應用。維基百科上解釋：“As computer architecture advanced, it became more difficult to compare the performance of various computer systems simply by looking at their specifications.Therefore, tests were developed that allowed comparison of different architectures.”Benchmark在計算機領域應用最成功的就是性能測試，主要測試負載的執(zhí)行時間、傳輸速度、吞吐量、資源占用率等。）

下面是一些有助于在基準測試中表現(xiàn)出色的小技巧，這些都是我自己從來沒使用過的東西，如果我把一個系統(tǒng)投入生產，那就是為客戶服務。

其中一個是集成，這就意味著在你想好了你想要的神經網(wǎng)絡之后，可以獨立訓練幾個神經網(wǎng)絡，并平均它們的輸出。比如說隨機初始化三個、五個或者七個神經網(wǎng)絡，然后訓練所有這些網(wǎng)絡，然后平均它們的輸出。另外對他們的輸出 $y^\hat{y}$ 進行平均計算是很重要的，不要平均他們的權重，這是行不通的。看看你的7個神經網(wǎng)絡，它們有7個不同的預測，然后平均他們，這可能會讓你在基準上提高1%，2%或者更好。這會讓你做得更好，也許有時會達到1%或2%，這真的能幫助你贏得比賽。但因為集成意味著要對每張圖片進行測試，你可能需要在從3到15個不同的網(wǎng)絡中運行一個圖像，這是很典型的，因為這3到15個網(wǎng)絡可能會讓你的運行時間變慢，甚至更多時間，所以技巧之一的集成是人們在基準測試中表現(xiàn)出色和贏得比賽的利器，但我認為這幾乎不用于生產服務于客戶的，我想除非你有一個巨大的計算預算而且不介意在每個用戶圖像數(shù)據(jù)上花費大量的計算。

你在論文中可以看到在測試時，對進準測試有幫助的另一個技巧就是Multi-crop at test time，我的意思是你已經看到了如何進行數(shù)據(jù)擴充，Multi-crop是一種將數(shù)據(jù)擴充應用到你的測試圖像中的一種形式。

舉個例子，讓我們看看貓的圖片，然后把它復制四遍，包括它的兩個鏡像版本。有一種叫作10-crop的技術（crop理解為裁剪的意思），它基本上說，假設你取這個中心區(qū)域，裁剪，然后通過你的分類器去運行它，然后取左上角區(qū)域，運行你的分類器，右上角用綠色表示，左下方用黃色表示，右下方用橙色表示，通過你的分類器來運行它，然后對鏡像圖像做同樣的事情對吧？所以取中心的crop，然后取四個角落的crop。

這是這里（編號1）和這里（編號3）就是中心crop，這里（編號2）和這里（編號4）就是四個角落的crop。如果把這些加起來，就會有10種不同的圖像的crop，因此命名為10-crop。所以你要做的就是，通過你的分類器來運行這十張圖片，然后對結果進行平均。如果你有足夠的計算預算，你可以這么做，也許他們需要10個crops，你可以使用更多，這可能會讓你在生產系統(tǒng)中獲得更好的性能。如果是生產的話，我的意思還是實際部署用戶的系統(tǒng)。但這是另一種技術，它在基準測試上的應用，要比實際生產系統(tǒng)中好得多。

集成的一個大問題是你需要保持所有這些不同的神經網(wǎng)絡，這就占用了更多的計算機內存。對于multi-crop，我想你只保留一個網(wǎng)絡，所以它不會占用太多的內存，但它仍然會讓你的運行時間變慢。

這些是你看到的小技巧，研究論文也可以參考這些，但我個人并不傾向于在構建生產系統(tǒng)時使用這些方法，盡管它們在基準測試和競賽上做得很好。

由于計算機視覺問題建立在小數(shù)據(jù)集之上，其他人已經完成了大量的網(wǎng)絡架構的手工工程。一個神經網(wǎng)絡在某個計算機視覺問題上很有效，但令人驚訝的是它通常也會解決其他計算機視覺問題。

所以，要想建立一個實用的系統(tǒng)，你最好先從其他人的神經網(wǎng)絡架構入手。如果可能的話，你可以使用開源的一些應用，因為開放的源碼實現(xiàn)可能已經找到了所有繁瑣的細節(jié)，比如學習率衰減方式或者超參數(shù)。

最后，其他人可能已經在幾路GPU上花了幾個星期的時間來訓練一個模型，訓練超過一百萬張圖片，所以通過使用其他人的預先訓練得模型，然后在數(shù)據(jù)集上進行微調，你可以在應用程序上運行得更快。當然如果你有電腦資源并且有意愿，我不會阻止你從頭開始訓練你自己的網(wǎng)絡。事實上，如果你想發(fā)明你自己的計算機視覺算法，這可能是你必須要做的。

這就是本周的學習，我希望看到大量的計算機視覺架構能夠幫助你理解什么是有效的。在本周的編程練習中，你實際上會學習另一種編程框架，并使用它來實現(xiàn)ResNets。所以我希望你們喜歡這個編程練習，我期待下周還能見到你們。

參考文獻：

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun - Deep Residual Learning for Image Recognition (2015)

Francois Chollet’s github repository: https://github.com/fchollet/deep-learning-models/blob/master/resnet50.py

課程板書

2.10 數(shù)據(jù)擴充

回到目錄

2.12 總結

《新程序員》：云原生和全面數(shù)字化實踐50位技術專家共同創(chuàng)作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的2.11 计算机视觉现状-深度学习第四课《卷积神经网络》-Stanford吴恩达教授的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2.10 数据增强-深度学习第四课《卷积
下一篇： 2.12 总结-深度学习第四课《卷积神经