日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

【深度学习】你心目中 idea 最惊艳的深度学习领域论文是哪篇?

發布時間:2025/3/12 pytorch 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【深度学习】你心目中 idea 最惊艳的深度学习领域论文是哪篇? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

科研路上我們往往會讀到讓自己覺得想法很驚艷的論文,心中對不同的論文也會有一個排名。

我們來看看各路大神是怎么評價的。

  • 論文鏈接 https://arxiv.org/abs/1410.3916

關于計算機視覺領域,@taokongcn分享了幾個重要的工作。

1. Fully Convolutional Networks for Semantic Segmentation

論文鏈接 https://arxiv.org/abs/1411.4038

全卷積神經網絡FCN:相信做物體識別檢測分割的同學都非常熟悉這個工作,可以看作是開啟和奠定了用FCN做實例和像素級別理解的一系列方法的先河,思想非常簡單:直接端到端利用全卷積網絡預測每個位置的標簽。后續非常多的方法,包括Mask R-CNN、各種單階段檢測器、包括3D、video的諸多方法均或多或少受此簡單想法的啟發。

2. Faster R-CNN

論文鏈接?https://arxiv.org/abs/1506.01497

Faster R-CNN:現在回想起來,能在2015年想到Anchor這個想法真的是一個跨時代的,這個思想雖然簡單但影響到了幾乎所有的實例級別的理解任務。不多說,懂得都懂。

3. Deformable Convolutional Networks

https://openaccess.thecvf.com/content_iccv_2017/html/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.html

可形變卷積DCN:通過簡單的offset學習和變換,賦予了卷積神經網絡更加可形變的能力,想法很簡單很work,目前已經成為各種打比賽的漲點神器。

復旦大學碩士生@陀飛輪:當年看Deformable Convolutional Networks(DCN)的時候最為驚艷,可能看過的文章少,這種打破固定尺寸和位置的卷積方式,讓我感覺非常驚嘆,網絡怎么能夠在沒有直接監督的情況下,學習到不同位置的offset的,然后可視化出來,能夠使得offset后的位置能夠剛好捕捉到不同尺寸的物體,太精彩了!

4. CAM: Learning Deep Features for Discriminative Localization

論文鏈接?https://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Zhou_Learning_Deep_Features_CVPR_2016_paper.html

CAM@周博磊老師代表工作之一,如何用已有的分類網絡去做定位?思想極為簡單但有效:將最后一層的權重與對應特征層加權。目前幾乎所有做圖像弱監督定位分割的工作均或多或少吸收此思想,影響深遠。

?????對你沒有看錯,圖像關注的部分就是將該類的fc層中的權重和feature maps對應加權求和就行了。。。說實話我覺得這個真的是經過很多實驗才發現的idea。因此通過這個CAM我們便可知這個網絡到底在學什么東西。

至于后面CAM變體例如grad-cam等大家可以去查閱了解。通過這個驚艷的CAM,我覺得是開了基于弱監督圖像分割領域的先河,簡直是祖先級別的神工作。

為什么這么說呢,基于image-level的弱監督分割旨在僅通過分類標簽而生成對應的分割標簽圖,(畢竟手工標記分割圖上的像素太燒錢了呀哈哈哈 )你看看CAM,如果通過閾值一下的話,那些熱點處的不就可以作為置信度高的前景像素標簽了嘛!!!

于是你便可以看到大量的弱監督領域分割之作都是在這個CAM之上完成的。不僅如此,CAM也在可解釋領域中被作為一種基本的工具。這篇五年前的文章至今仍在視覺領域中放光發熱,讓很多的學者以此為基石展開研究。

我也是很感謝這篇工作讓我接觸到弱監督領域。畢竟是我轉做計算機視覺讀的第一篇文章hhhh,所以,thank you, CAM!

5. CLIP: Learning Transferable Visual Models From Natural Language Supervision

論文鏈接?https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf

跨語言-圖像的預訓練是很多人都能想到的idea,但是一直效果不夠。這個工作體現出了作者們極度的自信和能力,竟然收集了大量大量大量的paired數據真正做work了!感覺自己做的工作就是渣渣,,,

知乎上@王峰提出了一個非常好的圖示:

人臉識別方面,ECCV16的Center Loss和ICML16的Large Margin Softmax(是同一波人做的)。

個人認為這兩篇文章最驚艷的地方并不在于方法,而在于分析問題的方式,尤其是這張圖:

之前人們并不是沒有研究過特征分布,但是用的方法都還是傳統的一些降維手段如t-SNE,但t-SNE畢竟是個非線性降維方法,并不能真實地表現出原始特征分布。

實際上神經網絡自己就是一個非常好的降維工具,直接將fc層的輸出維度設置為2,那么每個樣本的特征就只有兩維,可以直接畫在一個平面上,得到的可視化圖像就是真正的特征分布。

有了這個可視化手段,人們發現原來softmax loss訓練出來的特征是這樣一個放射型分布,類與類之間是按角度分隔開的,于是才有了后續一系列工作關于角度的分析。

時至今日,這兩個算法已經被更好的算法取代了,但分析問題的方式一直延續至今都還在被廣泛使用。

@rainy分享了一篇小眾方向(視頻增穩/Video Stabilization)的論文,可能不是那種推動領域進步的爆炸性工作,這篇論文我認為是一篇比較不錯的把傳統方法deep化的工作。

論文鏈接 https://arxiv.org/pdf/2011.14574.pdf

看樣子應該是投稿CVPR21,已開源。

論文鏈接?https://github.com/Annbless/DUTCode

首先介紹一下視頻增穩的定義,如名稱所示,視頻增穩即為輸入一系列連續的,非平穩(抖動較大)的視頻幀,輸出一系列連續的,平穩的視頻幀。

由于方向有點略微小眾,因此該領域之前的工作(基于深度學習)可以簡單分為基于GAN的直接生成,基于光流的warp,基于插幀(其實也是基于光流的warp)這么幾類。這些論文將視頻增穩看做了“視頻幀生成問題”,但是理想的視頻增穩工作應該看做“軌跡平滑”問題更為合適。

而在深度學習之前劉帥成大神做了一系列的視頻增穩的工作,其中work的即為meshflow。這里貼一個meshflow解讀的鏈接。(論文鏈接https://www.yuque.com/u452427/ling/qs0inc)

總結一下,meshflow主要的流程為“估計光流-->估計關鍵點并篩選出關鍵點的光流-->基于關鍵點光流得到mesh中每一個格點的motion/軌跡-->進行軌跡平滑并得到平滑后的軌跡/每一個格點的motion-->基于motion得到滿足平滑軌跡的視頻幀”。

總結了meshflow之后,這篇DUT主要進行的工作其實很簡單,在meshflow的框架下,將其中所有的模塊都deep化:

  • LK光流---->PWCNet

  • SIFT關鍵點----->RFNet

基于Median Filters的軌跡平滑------>可學習的1D卷積

除此之外,由于原始的meshflow是基于優化的方法,因此DUT在替換了模塊之后依舊保留了原始的約束項,并且可以使用無監督的方式完成訓練,效果也好于一票supervised的方法。

邁微推薦

看了很多大牛的推薦,經過個人思考后,邁微也整理了詳細的論文推薦名單。

  • 免費下載鏈接:https://github.com/Charmve/PaperWeeklyAI

之前分享的這幾篇也給出了必讀論文篇目及下載鏈接。

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯 本站qq群704220115,加入微信群請掃碼:

總結

以上是生活随笔為你收集整理的【深度学习】你心目中 idea 最惊艳的深度学习领域论文是哪篇?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。