日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > 卷积神经网络 >内容正文

卷积神经网络

2.11 计算机视觉现状-深度学习第四课《卷积神经网络》-Stanford吴恩达教授

發(fā)布時間:2025/4/5 卷积神经网络 69 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2.11 计算机视觉现状-深度学习第四课《卷积神经网络》-Stanford吴恩达教授 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

←上一篇↓↑下一篇→
2.10 數(shù)據(jù)擴充回到目錄2.12 總結

計算機視覺現(xiàn)狀 (The State of Computer Vision)

深度學習已經成功地應用于計算機視覺、自然語言處理、語音識別、在線廣告、物流還有其他許多問題。在計算機視覺的現(xiàn)狀下,深度學習應用于計算機視覺應用有一些獨特之處。在這個視頻中,我將和你們分享一些我對深度學習在計算機視覺方面應用的認識,希望能幫助你們更好地理解計算機視覺作品(此處指計算機視覺或者數(shù)據(jù)競賽中的模型)以及其中的想法,以及如何自己構建這些計算機視覺系統(tǒng)。

你可以認為大部分機器學習問題是介于少量數(shù)據(jù)和大量數(shù)據(jù)范圍之間的。舉個例子,我認為今天我們有相當數(shù)量的語音識別數(shù)據(jù),至少相對于這個問題的復雜性而言。雖然現(xiàn)在圖像識別或圖像分類方面有相當大的數(shù)據(jù)集,因為圖像識別是一個復雜的問題,通過分析像素并識別出它是什么,感覺即使在線數(shù)據(jù)集非常大,如超過一百萬張圖片,我們仍然希望我們能有更多的數(shù)據(jù)。還有一些問題,比如物體檢測,我們擁有的數(shù)據(jù)更少。提醒一下,圖像識別其實是如何看圖片的問題,并且告訴你這張圖是不是貓,而對象檢測則是看一幅圖,你畫一個框,告訴你圖片里的物體,比如汽車等等。因為獲取邊框的成本比標記對象的成本更高,所以我們進行對象檢測的數(shù)據(jù)往往比圖像識別數(shù)據(jù)要少,對象檢測是我們下周要討論的內容。

所以,觀察一下機器學習數(shù)據(jù)范圍圖譜,你會發(fā)現(xiàn)當你有很多數(shù)據(jù)時,人們傾向于使用更簡單的算法和更少的手工工程,因為我們不需要為這個問題精心設計特征。當你有大量的數(shù)據(jù)時,只要有一個大型的神經網(wǎng)絡,甚至一個更簡單的架構,可以是一個神經網(wǎng)絡,就可以去學習它想學習的東西。

相反當你沒有那么多的數(shù)據(jù)時,那時你會看到人們從事更多的是手工工程,低調點說就是你有很多小技巧可用(整理者注:在機器學習或者深度學習中,一般更崇尚更少的人工處理,而手工工程更多依賴人工處理,注意領會Andrew NG的意思)。但我認為每你沒有太多數(shù)據(jù)時,手工工程實際上是獲得良好表現(xiàn)的最佳方式。

所以當我看機器學習應用時,我們認為通常我們的學習算法有兩種知識來源,一個來源是被標記的數(shù)據(jù),就像( x,yx,yx,y )應用在監(jiān)督學習。第二個知識來源是手工工程,有很多方法去建立一個手工工程系統(tǒng),它可以是源于精心設計的特征,手工精心設計的網(wǎng)絡體系結構或者是系統(tǒng)的其他組件。所以當你沒有太多標簽數(shù)據(jù)時,你只需要更多地考慮手工工程。

所以我認為計算機視覺是在試圖學習一個非常復雜的功能,我們經常感覺我們沒有足夠的數(shù)據(jù),即使獲得了更多數(shù)據(jù),我們還是經常覺得還是沒有足夠的數(shù)據(jù)來滿足需求。這就是為什么計算機視覺,從過去甚至到現(xiàn)在都更多地依賴于手工工程。我認為這也是計算機視覺領域發(fā)展相當復雜網(wǎng)絡架構地原因,因為在缺乏更多數(shù)據(jù)的情況下,獲得良好表現(xiàn)的方式還是花更多時間進行架構設計,或者說在網(wǎng)絡架構設計上浪費(貶義褒用,即需要花費更多時間的意思)更多時間。

如果你認為我是在貶低手工工程,那并不是我的意思,當你沒有足夠的數(shù)據(jù)時,手工工程是一項非常困難,非常需要技巧的任務,它需要很好的洞察力,那些對手工工程有深刻見解的人將會得到更好的表現(xiàn)。當你沒有足夠的數(shù)據(jù)時,手工工程對一個項目來說貢獻就很大。當你有很多數(shù)據(jù)的時候我就不會花時間去做手工工程,我會花時間去建立學習系統(tǒng)。但我認為從歷史而言,計算機視覺領域還只是使用了非常小的數(shù)據(jù)集,因此從歷史上來看計算機視覺還是依賴于大量的手工工程。甚至在過去的幾年里,計算機視覺任務的數(shù)據(jù)量急劇增加,我認為這導致了手工工程量大幅減少,但是在計算機視覺上仍然有很多的網(wǎng)絡架構使用手工工程,這就是為什么你會在計算機視覺中看到非常復雜的超參數(shù)選擇,比你在其他領域中要復雜的多。實際上,因為你通常有比圖像識別數(shù)據(jù)集更小的對象檢測數(shù)據(jù)集,當我們談論對象檢測時,其實這是下周的任務,你會看到算法變得更加復雜,而且有更多特殊的組件。

幸運的是,當你有少量的數(shù)據(jù)時,有一件事對你很有幫助,那就是遷移學習。我想說的是,在之前的幻燈片中,TiggerMisty或者二者都不是的檢測問題中,我們有這么少的數(shù)據(jù),遷移學習會有很大幫助。這是另一套技術,當你有相對較少的數(shù)據(jù)時就可以用很多相似的數(shù)據(jù)。

如果你看一下計算機視覺方面的作品,看看那里的創(chuàng)意,你會發(fā)現(xiàn)人們真的是躊躇滿志,他們在基準測試中和競賽中表現(xiàn)出色。對計算機視覺研究者來說,如果你在基準上做得很好了,那就更容易發(fā)表論文了,所以有許多人致力于這些基準上,把它做得很好。積極的一面是,它有助于整個社區(qū)找出最有效得算法。但是你在論文上也看到,人們所做的事情讓你在數(shù)據(jù)基準上表現(xiàn)出色,但你不會真正部署在一個實際得應用程序用在生產或一個系統(tǒng)上。

(整理著注:Benchmark 基準測試,Benchmark是一個評價方式,在整個計算機領域有著長期的應用。維基百科上解釋:“As computer architecture advanced, it became more difficult to compare the performance of various computer systems simply by looking at their specifications.Therefore, tests were developed that allowed comparison of different architectures.”Benchmark在計算機領域應用最成功的就是性能測試,主要測試負載的執(zhí)行時間、傳輸速度、吞吐量、資源占用率等。)

下面是一些有助于在基準測試中表現(xiàn)出色的小技巧,這些都是我自己從來沒使用過的東西,如果我把一個系統(tǒng)投入生產,那就是為客戶服務。

其中一個是集成,這就意味著在你想好了你想要的神經網(wǎng)絡之后,可以獨立訓練幾個神經網(wǎng)絡,并平均它們的輸出。比如說隨機初始化三個、五個或者七個神經網(wǎng)絡,然后訓練所有這些網(wǎng)絡,然后平均它們的輸出。另外對他們的輸出 y^\hat{y}y^? 進行平均計算是很重要的,不要平均他們的權重,這是行不通的。看看你的7個神經網(wǎng)絡,它們有7個不同的預測,然后平均他們,這可能會讓你在基準上提高1%,2%或者更好。這會讓你做得更好,也許有時會達到1%或2%,這真的能幫助你贏得比賽。但因為集成意味著要對每張圖片進行測試,你可能需要在從3到15個不同的網(wǎng)絡中運行一個圖像,這是很典型的,因為這3到15個網(wǎng)絡可能會讓你的運行時間變慢,甚至更多時間,所以技巧之一的集成是人們在基準測試中表現(xiàn)出色和贏得比賽的利器,但我認為這幾乎不用于生產服務于客戶的,我想除非你有一個巨大的計算預算而且不介意在每個用戶圖像數(shù)據(jù)上花費大量的計算。

你在論文中可以看到在測試時,對進準測試有幫助的另一個技巧就是Multi-crop at test time,我的意思是你已經看到了如何進行數(shù)據(jù)擴充,Multi-crop是一種將數(shù)據(jù)擴充應用到你的測試圖像中的一種形式。

舉個例子,讓我們看看貓的圖片,然后把它復制四遍,包括它的兩個鏡像版本。有一種叫作10-crop的技術(crop理解為裁剪的意思),它基本上說,假設你取這個中心區(qū)域,裁剪,然后通過你的分類器去運行它,然后取左上角區(qū)域,運行你的分類器,右上角用綠色表示,左下方用黃色表示,右下方用橙色表示,通過你的分類器來運行它,然后對鏡像圖像做同樣的事情對吧?所以取中心的crop,然后取四個角落的crop

這是這里(編號1)和這里(編號3)就是中心crop,這里(編號2)和這里(編號4)就是四個角落的crop。如果把這些加起來,就會有10種不同的圖像的crop,因此命名為10-crop。所以你要做的就是,通過你的分類器來運行這十張圖片,然后對結果進行平均。如果你有足夠的計算預算,你可以這么做,也許他們需要10個crops,你可以使用更多,這可能會讓你在生產系統(tǒng)中獲得更好的性能。如果是生產的話,我的意思還是實際部署用戶的系統(tǒng)。但這是另一種技術,它在基準測試上的應用,要比實際生產系統(tǒng)中好得多。

集成的一個大問題是你需要保持所有這些不同的神經網(wǎng)絡,這就占用了更多的計算機內存。對于multi-crop,我想你只保留一個網(wǎng)絡,所以它不會占用太多的內存,但它仍然會讓你的運行時間變慢。

這些是你看到的小技巧,研究論文也可以參考這些,但我個人并不傾向于在構建生產系統(tǒng)時使用這些方法,盡管它們在基準測試和競賽上做得很好。

由于計算機視覺問題建立在小數(shù)據(jù)集之上,其他人已經完成了大量的網(wǎng)絡架構的手工工程。一個神經網(wǎng)絡在某個計算機視覺問題上很有效,但令人驚訝的是它通常也會解決其他計算機視覺問題。

所以,要想建立一個實用的系統(tǒng),你最好先從其他人的神經網(wǎng)絡架構入手。如果可能的話,你可以使用開源的一些應用,因為開放的源碼實現(xiàn)可能已經找到了所有繁瑣的細節(jié),比如學習率衰減方式或者超參數(shù)。

最后,其他人可能已經在幾路GPU上花了幾個星期的時間來訓練一個模型,訓練超過一百萬張圖片,所以通過使用其他人的預先訓練得模型,然后在數(shù)據(jù)集上進行微調,你可以在應用程序上運行得更快。當然如果你有電腦資源并且有意愿,我不會阻止你從頭開始訓練你自己的網(wǎng)絡。事實上,如果你想發(fā)明你自己的計算機視覺算法,這可能是你必須要做的。

這就是本周的學習,我希望看到大量的計算機視覺架構能夠幫助你理解什么是有效的。在本周的編程練習中,你實際上會學習另一種編程框架,并使用它來實現(xiàn)ResNets。所以我希望你們喜歡這個編程練習,我期待下周還能見到你們。

參考文獻:

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun - Deep Residual Learning for Image Recognition (2015)

Francois Chollet’s github repository: https://github.com/fchollet/deep-learning-models/blob/master/resnet50.py

課程板書





←上一篇↓↑下一篇→
2.10 數(shù)據(jù)擴充回到目錄2.12 總結

《新程序員》:云原生和全面數(shù)字化實踐50位技術專家共同創(chuàng)作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的2.11 计算机视觉现状-深度学习第四课《卷积神经网络》-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。