當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

RACV2022观点集锦 | 视觉基础模型

發布時間：2024/1/8 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 RACV2022观点集锦 | 视觉基础模型小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

來源：https://mp.weixin.qq.com/s/pAbMI-qwdCY7-9SeMxDlFw

“本文得到CCF-CV專委會（公眾號: CCF計算機視覺專委會）授權發布”

視覺基礎模型（Vision Foundation Model）是當前計算機視覺領域最為火熱的研究方向之一。在視覺領域，獲取大量標注數據是非常昂貴的。我們可以通過借助無標注數據、圖文數據或者多模態數據等，采用對比學習、掩碼重建等學習方式預訓練得到視覺基礎模型，用于許多視覺下游任務，如物體檢測、語義分割等。雖然現有方法已經表現不俗，但視覺基礎模型仍有許多共同關注的問題值得進一步探索，包括如何更好地利用圖文數據、未來視覺基礎模型會如何發展等。我們在RACV 2022組織了“視覺基礎模型”專題論壇，邀請到王井東、王興剛、謝凌曦以及黃高四位專家做了專題進展報告，同與會的40余位國內專家一道就多個相關話題進行了深入研討。

**專題組織者：**王井東（百度）、程明明（南開大學）、侯淇彬（南開大學）

**討論時間：**2022年8月10日

**發言嘉賓：**王井東、王興剛、謝凌曦、黃高

參與討論嘉賓【按發言順序】：王井東、謝凌曦、程明明、武智融、金連文、沈春華、虞晶怡、鄭偉詩、吳小俊、張磊、毋立芳、王興剛、夏勇、高陽、賈旭、王鶴、王濤、馬占宇、盧湖川、魯繼文、于劍、査紅彬、丁凱、弋力

**文字整理：**侯淇彬

各位老師好，非常高興來參加今年的RACV。本次的專題是視覺基礎模型，英文叫Vision Foundation Model，咱們有時候也叫大模型。

很多視覺任務，從應用的角度來講，是需要視覺基礎模型的。為什么這么講？大家一直苦惱的問題是說能不能給我更多的標注數據，尤其是識別。傳統上我們通常認為（標注）數據越多識別效果越好，但事實上我們很難去獲得非常大量的標注數據，主要原因不在于技術上，而是很高代價去獲得這些標注數據。

最近一兩年，大家覺得從預訓練模型角度來講，是不是可以幫助這些下游任務。預訓練最近幾年在NLP里面提的非常的多。很多人覺得視覺里面這個基礎模型不如NLP發展的顯著。其實這個事情要換個角度看看，視覺里從13年的RCNN開始，實際上已經在應用預訓練模型。要在這個基礎上進一步提高，實際上是具有挑戰的事情?，F在，我們希望通過大量數據，不管是有標注的或者圖文數據，訓練一個網絡，能夠非常容易地應用在一些下游任務里面，通過非常簡單的方法，這是我們希望看到的事情。

我自己也有一些簡單的認識，也希望大家能給我一些建議。關于視覺基礎模型，包含了很多維度，這里面列了5個具有代表性的。第一個需要有大量的數據，沒有數據，我們的模型再漂亮再強，其實很難體現它的效果。第二個，大模型的參數量大，可以用能力來挖掘數據里面的知識。第三點，就是我們希望有一個所謂的大一統的方案出來去解決各種各樣的任務。另外就是大算法，其實不是說簡單的大數據，大模型就可以了，其實算法還是非常重要，如果僅僅靠大量數據，那這個事情就純變成一個依賴算力的事情了。最后一點就是大算力。

我們談到視覺基礎模型，其實需要學的東西非常多，那最近大家關注更多的是表征訓練。其實談到這個視覺表征訓練，目前主要有兩大類。一個是圖文相關的，比如說OpenAI的CLIP，張磊老師原來在微軟的團隊做的Florence等等，這些數據都是互聯網上非常容易獲得的。另外一大類是自監督學習。其實這里面我一直在思考，視覺語言訓練出來的表征其實是比較強的，那些語言可能是有一點noise甚至可能是錯誤的或者不全的，但他確實能夠訓練出來強的模型。在大量的數據下，跟有監督的很類似，表征學的很好。自監督，除了圖像其實啥都沒給，怎么能夠學到很好表征。因為沒有給這個所謂的這個語言監督，也沒有給標簽，這個時候所謂的語義表征實際上是說在表征空間里面的不同語義的物體表征能夠聚集在一起。

視覺語言看上去非常好，確實它的表征會比之前的會好一些，但是我們還需不需要自監督學習？其實我們真正去應用這樣一個視覺基礎模型和預訓練模型的時候，在很多領域里面可能沒有圖文里的文本信息。這里面舉一個例子，比如OCR，大家可以想象OCR圖像所給的文字語言信息可能會是什么？可能說這個圖關于文檔的，它不會具體到說里面的文字究竟是什么，對吧？

之前的自監督方法主要是基于對比學習的。從去年開始掩碼圖像建模在視覺里受到大家的關注越來越多，今年上半年已經有非常多的相關工作。就是說它給同樣一個View，然后把一些patch的給mask掉，希望用剩余的patch預測masked的patch。關于對比學習，我目前一直沒看到它為什么會work。我大概一兩個月之前跟一位同行討論這個問題，他有個文章里面做了這么一件事情，就把encoder的表征跟projector的表征去做相似patch的搜索。他發現encoder拿出來特征的part信息非常好，比如說我們查詢一個狗的腦袋，用encoder特征去搜索，出來的基本都是狗的腦袋，但是projector出來的結果就比較亂，但基本上還是狗。對比學習里預訓練的任務是什么？其實不是很明確，或許是通過projector實現part-to-whole任務。

關于掩碼建模，我也在思考它究竟怎么work的。對比預訓練主要學了中間物體的信息，相比較，掩碼圖像建模學到了圖像里目標和背景信息。我猜想，掩碼圖像建模是part-to-part的任務。

這里我也簡單介紹一下我們的工作以及它跟幾個相關的MIM的方法的對比。我們方法首先去抽取可見patch的特征，抽取的時候只把可見patch數據輸入到encoder里面去，這意味著我們看到的是沒有mask部分的信息，然后我們的目的是用可見的patch猜測mask的部分，但這還是不夠的，我們下面加了一個alignment分支，使得MIM任務在表征空間里完成。最近我們發現在深度學習里面，其實很多方法都是在表征空間里面做，比如DALL·E 2我認為在表征空間里面，如果說我們把任務解決得很好的話，那有可能學到的表征都非常好，所以希望regressor出來的表征也是在encoder的表征空間里的。

BEiT在干什么？masked圖像經過一個ViT網絡結構，然后經過linear層直接得到最后的重建圖像。這個ViT既要學習表征，同時也能解決預訓練任務。解決預訓練任務本身學到的知識，對我們下游任務不見得有多大幫助，但是BEiT里面是混合在一起的，所以我認為這個方案學到的表征不見得那么好。

下面這個MAE的工作，只看decoder那部分跟BEiT很像，只不過前面加了一個encoder。實驗證明了它結果非常好。從我的角度來看，MAE也是要把預訓練任務跟encoder分離開，這個情況下其實不能保證decoder是只做重建任務。這個所謂的decoder可能也會學可見patch的表征，前面encoder的能力就會被削弱。我認為，預訓練任務一定要和encoder分開，不能混在一起，希望就剛才講的要在表征空間里去做預測。下圖是比較的總結。

與MIM對比，對比學習一般把中間的物體學得很好，它highlight的基本是中間的物體。然后MIM的方法會把整個區域都highlight出來，換句話講整個圖像的信息都會學得非常的不錯。

各位老師早上好，非常榮幸有這個機會來匯報一下關于視覺基礎模型的一些理解。

在NLP里面，像Bert這種被認為是基礎模型，但視覺里面什么是基礎模型，其實至今我覺得是沒有一個很明確的定義。所以我這里引用了一個斯坦福學者在去年的時候寫了一個綜述，On the opportunities and risks of foundation models里面的一個定義。在這個定義中，我們希望能夠把所有多模態數據匯聚起來一起來學習，然后能夠適應到很多的下游任務。

它有兩個很重要的特性，一個叫Emergence，另外一個叫homogenization。這兩個詞我覺得我們可能需要去理解一下，它有兩個中文的翻譯，我也是參考其他的翻譯但不一定準確。第一個就是涌現。涌現就是說我們希望學習形式是隱式的，而不是非常直接去顯示學習。比如我們需要去做目標檢測，我們希望學了一部分類別，然后對其他所有的物體都能夠去檢測。再比如，現在的一些視覺模型，訓練階段是一個分類的模型，最后能夠做分割，能夠對定位很有作用，這就是一種隱式學習，這樣的話才能夠去為更多的任務提供支撐。另外一個就是同質化，同質化主要意思是一種牽一發而動全身的特性，基礎模型改變了，其實對所有的下游任務都會有影響?，F在來講，大部分的基礎模型學習的技術手段基本上都是非常大規模的自監督學習。

同樣在斯坦福HAI的技術報告里面，我們可以看到它對視覺的基礎模型也做了一個描述，左邊是多模態數據，經過訓練，得到一個基礎模型能夠用于檢測分割、三維重建、常識推理等各種下游任務中，因此我們對視覺基礎模型的期待是非常大的。其中核心要做的事是希望能夠把多模態的數據通過學習之后能夠變成視覺knowledge，當然這是個非常困難的遠景。

這我個人有一點點理解，我做了一個不是特別準確的公式，我認為視覺基礎模型它包括第一個就是做大規模的數據，這個數據可以包括圖像視頻、語言，也可以加上其他模態的數據。如果說我們數據變得更多，結果應該會變得更好。第二個就是建模，其實主要指的是網絡框架。第三個就是表征學習。最后第四點是adaptation，就是說能夠去適應到下游。

就建模而言，其實我們有很多很多的探索以及成功的經驗，比如說去年得馬爾獎的Swin Transformer，RepLKNet和HorNet。

在數據限定、計算限定情況下，他們表現非常好，相對于樸素ViT，他們具有更好的數據效率和計算效率。然而，最樸素的ViT這個架構其實也是非常好的。

我看可以參照推特上的一個圖。ViT這種最樸素的模型其實也有非常好的可擴展性，這里我引用了一個Google最近寫的Survey，它做了很多的實驗。第一個結論就是不能在樸素的ViT上面加太多inductive bias。加上inductive bias可能在特定數據上表現非常好，但是它的可擴展性是有傷害的。第二個就是說不同模型架構可擴展性不一樣。第三點base模型可能表現很好，如果我們把它變到large或者huge上面，它這個提升并沒有（base、large、huge對應的是模型的參數量）。總的來說，樸素ViT其實是一個很好的選擇。

在這個task layer層面上，最近也有很好的工作，比如說mask2former以及Unicorn。他們核心點在于query加self-attention，目的是把一些任務做到統一。所以我們可以總結樸素的注意力機制在backbone和task layer上的表現都是非常好的。

對于表征，現在主要有兩大核心的思路，第一個對比學習，另外一個是MIM（視覺掩碼建模）。最近有一些工作表明這兩大表征其實可以同時用，發現兩個表征其實是有很好的互補性。二者結合的好處可能是對比學習具有可區分性，MIM可以得到很好的泛化性能，二者的好處能夠得到結合。

那Vision理解其實我們不應該局限于圖像的分類，更多的其實我們希望能夠走向檢測分割甚至三維理解，甚至是更高級的任務。

最近微軟有一個工作叫GLIP，它其實做box-level的對比學習。說對于每個box它都有一個文本表示，然后用CLIP的形式去對每一個box學習。通過收集很多有具有box-text的標注數據能夠訓練得到一個很好的模型，它能夠去做開放環境中的檢測。我個人認為這其實是對視覺基礎模型的一個很好的探索。希望它能夠去識別出一些新的類別——這些新的物體沒有被學過，但能夠被檢測出來。

還有一個工作叫Detic，它其實是用傳統檢測器把box supervision和class supervision做一個結合，對于很多沒有box訓練過的類別，也能夠得到非常準確的檢測。這是一種通過這種混合的監督來擴大數據規模，同時能夠檢測出一些新的類別的有效的技術手段。

最后講一下關于adaptation的進展，比如最近一個工作做開放場景目標檢測，它是把左邊這個標準clip加了一個檢測的頭（類似我們的NeurIPS 2021工作YOLOS方法的檢測頭），用檢測頭輸出的box與對應的文本做對比學習，它能夠將clip做很小的改動，從而實現開放場景的目標檢測，所以這也體現了adaptation的優勢。

那關于MIM的adaptation，何凱明他們自己也做了一些工作，ViTDet，它的一個核心思路其實說在一個樸素ViT上面加一些window和global的attention，然后在這個backbone基礎上拉出4層feature，這樣的檢測結果也是非常好的。

我這里講一點點我們在adaptation上面的一個工作，MiMDet。不同于ViTDet，我們不采用window attention，而是下游檢測分割任務中只取一部分patch輸入到ViT重，得到的是一個可以高效計算的架構，并且能夠縮小上游預訓練和下游adaption之間的距離。這樣一個架構在底層加一點點conv可以得到多尺度的表征，最終可以得到很好的檢測分割結果。

最后簡單總結一下，視覺基礎模型最重要其實還是它是可擴展的。如果說它只在一個有限的數據集上表現很好而沒有去驗證它在大規模數據上的可擴展性，其實還是不夠的。另外就是下游任務應該也是可以擴展的，應該不局限于分類這樣一個下游任務。第二點是說樸素的ViT其實都是非常好的，它能夠非常靈活去unify很多任務。然后表征學習層面上，對比學習和MIM某種程度上可能是互補的。最后就是adaptation層面上，其實是可以做得很高效，去解決一些當前的任務。

個人認為未來可能有一些挑戰，第一個就是對MIM的理解，現在有一些文章表現說MIM可能沒有數據擴展性，但是這個可能還是存疑的。另外一個就是說當圖像復雜時，怎么去做區域和文本描述的對齊，所以弱監督的表征學習非常重要。另外一個就是跨模態的表征學習，當前的對比學習和MIM如何適應跨模態數據，或者說在跨模態框架下有何種更好的表征學習形式。我認為視覺基礎模型的發展其實是一個大工程，也是希望國內計算機領域共同努力去突破包括計算瓶頸在內的一系列問題，謝謝。

各位老師大家上午好，非常高興今天能夠有這個機會向大家分享我們最新的一些研究以及心得體會，我今天報告的題目是《走向無線細粒度的按需視覺識別》。

我的報告主要分為兩個部分。第一部分我會介紹什么是視覺識別中的無限細粒度問題，以及為什么現有的視覺識別算法無法做到無限細粒度。第二部分，我會講講我們自己最近的一個研究提議，也就是按需視覺識別，以及為什么我們這個提議能夠走向無限細粒度。我講的內容跟前面兩位老師可能是互補的，因為比起預訓練和模型設計，我更關注當前的視覺識別算法在下游任務上能不能達到完整識別的目標。

先從背景說起。視覺識別是計算機視覺中最本質的問題之一，我今天要討論的問題，是當前的視覺識別算法能不能做到“完整”的視覺識別。“完整”的意思就是我們能夠從一段視頻或一張圖像中識別出所有能夠識別的東西。我們這里引出一個“無限細粒度”的概念：人類只要愿意，他就可以從圖像或者視頻當中識別出任意精細程度的語義。顯然，當前計算機視覺的標注系統和算法都做不到這一點。

比如我們看一張普通的街景圖片，它來源于ADE20K數據集。雖然數據集的作者在街景圖片中標注了很多東西，如人、車、道路、建筑物、天空等，對于人、車、建筑物，它還力所能及地標注了一些part，但是很顯然還有很多沒標出來的視覺信息。我分類列舉未標注信息的例子。第一類是一些細粒度的分類，比如這個人的性別是什么、這個車的型號是什么，等等。第二類是將某些part劃分為更精細的part，比如說他們雖然把人分成了頭、軀干、四肢，但是我們顯然可以對頭進行更進一步的分割，成為眼睛、鼻子、嘴巴，甚至在分出眼睛以后還能繼續分出眼球、睫毛和瞳孔。第三，可以往這個數據庫里面加入一些它沒有學過的概念，比如說這個人身上有個手提包，它沒有標出來。第四，我們還可以標注一些屬性類的信息，比如說這個人的衣服是什么顏色、這輛車是什么顏色、馬路上有沒有積水，等等。能夠標注的語義信息幾乎是無窮無盡的。

既然如此，為什么已有數據集沒有標注這些信息呢？主要原因是，隨著標注粒度的不斷上升，會產生很多新的問題。我們把這些問題歸納為兩點。第一點叫做缺乏一致性。比如在這個街景圖上有很多行人。如果這個人分辨率很大，我們可以看得很清楚，進而去標注他的頭、軀干、四肢；但是對于大部分分辨率很小的人，我們甚至無法把他的整體輪廓準確地標注出來。也就是說，不同個體的可標注粒度可能有很大不同，但是當前的系統都不能支持這一點。第二個是可擴展性。系統必須能夠支持我們方便地引入新的語義概念，不管是新的part還是新的類別，但是現有的方法都多少有些困難：要么在加入新概念以后，必須把整個數據集再掃一遍，看看以前有沒有漏標這個東西；要么必須引入諸如增量學習這樣的方法——總的來講引入新概念的代價還是比較大的。

為了強化上述概念，我們調研已有方法如何增加視覺識別的粒度。我們主要把已有的方法分成兩大類。第一類，我把它稱之為基于分類的識別方法，它包含傳統意義上的分類、檢測、分割等一系列的問題，它們的共同特點就是要給圖像中的每個視覺單元分配一個類別標簽。這類方法比較容易定義，學習方法也很好設計，但它有一個非常明確的缺點，就是隨著標注粒度的上升，它的確定性會不可避免地下降。這個沖突很好理解：舉例說，我們很容易識別車這個概念，但是如果我要把它進一步細化成跑車這個概念，就會遇到很多情況，我們很難說清楚一輛車到底是不是跑車。這就意味著，當我們走向無限細粒度的時候，標注的確定性會成為很大的問題。那么人是怎么解決這個問題的？其實人并不需要非常顯式或者說非常確定的分類能力，比如我去商店里面買輛車，我不會糾結于這輛車到底是不是跑車，只要這輛車的性能滿足我的要求就可以了。這說明，人類不會永遠追求最細的粒度，而是可以根據需求靈活地調整識別的粒度。這是我們得到的一個啟發，后面會用到。

關于分割，情況也是很類似的。當我們通過分割instance和part等信息，把空間上的標注粒度不斷加細，那么標注的確定性也一定會下降。典型的例子是，如果我們一定要把分辨率很小的個體劃分出來，那么有可能一兩個像素就會對分割精度造成很大的影響。這就是在空間上的不確定性，而剛才講的分類問題對應于在語義上的不確定性。

第二類，我把它稱為語言驅動的識別方法。這是一種用自然語言引導視覺識別的模式，在去年CLIP模型出現以后，這類方法有了長足的進步。它的基本思路很簡單：通過語言的指代，將圖像中的相應語義識別出來。這類方法確實增加了視覺識別的靈活性，也引入了重要的開放域能力，但是語言的指代粒度很有限，想要描述細粒度的識別任務很困難。以當前流行的視覺prompt為例，雖然我們可以通過a photo of something對于簡單圖像做分類，但是要通過類似的方法在復雜圖像中指代一個特定的個體并對其進行分析，就非常困難。這說明，簡單引入語言并不能解決問題，還需要將語言與視覺結合起來。

總結報告的前半部分，我們可以得出結論：當前的視覺識別算法還沒有辦法去實現無限細粒度的識別。但是這個問題非常重要，因為人類是有這種能力的，我們也希望算法能有這樣的能力。根據上面的分析，我將走向無限細粒度的三個要點列舉出來。第一是算法必須有開放域識別能力，而這種能力很可能由自然語言提供。第二點是識別任務需要指代明確，不能因為引入了自然語言，就把語言的不確定性和模糊性引入進來。第三點，也是今天最希望強調的一點，是識別算法必須具有可變的粒度，能夠根據需求調整識別粒度。只有這三點都實現了，我們才能走向一個無限細粒度或者說任意細粒度的視覺識別。

結合這三點，尤其是最后一點，我就提出了按需視覺識別的概念。按需視覺識別是跟傳統意義上的一次性視覺識別或者統一視覺識別相對應的一個概念。什么叫統一視覺識別？就是標注者或者算法會事先拿到一個字典，字典中規定了所有要識別的視覺概念；每當他看到一張圖片的時候，他就必須按照字典把其中規定的所有概念一個一個地識別出來。比如說這個字典當中規定了人和人的頭部這兩個概念，那么當他看到一張街景圖片的時候，他就必須把這張街景當中所有人的頭部都給識別出來。即使街景中有100個人，少識別1個人或者1個人的頭部，都會被認為是不準確的識別。這樣做，就會導致前面所說的問題。

而按需視覺識別不再要求這個識別要一次性完成，而是把識別任務分解成若干個request的形式。當前，我們定義的request有兩類。第一類request，輸入是一個instance，而輸出是這個instance的所有part的semantic分割。一個instance具有的part，通過一個層次化的字典來定義，我把這個字典稱為知識庫。比如，字典里有車的概念，當我們需要將一輛車分成part的時候，就會去查這個字典，然后得知這個車要分成車門、車輪、車架子等part，并根據這些信息完成分割任務。第二類request，輸入是一個semantic區域（可能包含很多instance）和這個區域里的一個像素位置，輸出是這個pixel所對應的那一個instance，將它從semantic區域中分離出來。也就是說，第一類request是從instance到semantic的分割問題，而第二類request是從semantic到instance的分割問題。它們是互補的，我們只要將它們反復組合、反復迭代，就可以以任意的粒度去分割這張圖。這里要強調的是，第一類request的輸出必須是semantic而不是instance，因為instance可能有很多，如果直接要求把每個instance都識別出來，就違背了按需識別的思想。為了得到instance，必須再次調用第二類request，把那些感興趣的instance識別出來。

這是一個典型的標注過程。和傳統的setting相比，按需識別的最大優勢在于，我們可以在任何一個步驟上停下來，而不影響標注的準確性。也就是說，對于每張圖來說，標注可能不完整，但是標注永遠保證精確。例如一張街景圖片上有100個人，我只用標注其中一兩個人，也完全不影響后續的識別和評估算法，因為標注、識別和評估都是以request為基本單位進行的。雖然每張圖標注的信息都不完整，但是算法總可以從不同的圖像中學習各種信息并且把它們整合起來。換句話說，我們追求從整體數據集中學習到無限細粒度的語義，但是并不要求在所有的instance上都去實現無限細粒度。這是一個非常重要的性質，只有這樣才能解決粒度和不確定性之間的沖突。

如果大家能接受上述想法，包括我們的setting，那么我今天最重要的內容就已經講完了。至于后面怎么去實現這個 setting，反倒是一些細節性的事情，其實并不是非常重要。簡單地說，任何一個能夠結合語言和視覺的算法，都可以做到這件事情。我們的示意圖也很直觀：算法抽取視覺特征和文本特征，然后把兩組特征結合在一起，就可以了。

我們在兩個數據集上進行了實驗。第一個數據集叫做CPP，它是一個標注相對完整的數據集。另一個是ADE20K，這個數據集有很多語義概念和很多part，但是它的part標注非常稀疏、非常不完整，所以之前從來沒有任何方法能夠在這個數據集上量化地對part分割結果進行評估。而我們提出的setting，因為天生適應不完整的標注，所以也第一次在ADE20K數據集上報告了帶有part的量化分割精度。

為了計算按需識別的精度，我們擴展了全景分割的PQ指標，使得它能夠評估層次化、不斷細分的分割結果。這個新的指標稱為Hierarchical PQ。

在CPP數據集上，我們用合理的baseline，得到的HPQ大約是50-60%。然而在ADE20K數據集上，相同的方法只能做到30%左右的HPQ。可以想象，如果把ADE20K標注得更完整，特別是把比較困難的語義都標注出來，這個HPQ值還會繼續下降。也就是說，相比于傳統的語義分割和實例分割，按需識別的提升空間更大。這也說明，在追求無限細粒度識別的過程中，我們會遇到很多之前沒有遇到的困難。

最后展示一些可視化的分割結果。可以看出，我們的方法能夠學會一些標注得很少的part的概念，而并不需要用到任何復雜的學習技巧。

作為最后的總結，我今天的報告提出了計算機視覺中的無限細粒度問題，以及為了達到這個目標，必須滿足的三個條件：開放性、特異性和可變粒度。而基于可變粒度的思想，我們提出了按需視覺識別的方法。在未來，我們提出的按需視覺識別還有很多工作要做，由于時間關系我沒法仔細講。我覺得這個方向是非常重要的，期待與各位共同探討這個問題。

非常高興也很榮幸能夠再一次來到RACV作引導發言。今天我將從視覺基礎模型的結構和學習方法兩方面分享自己的一點思考。拋出的觀點不一定很成熟，希望能跟各位老師探討和交流。

關于模型結構，我認為可以分為微觀結構和宏觀結構分別來討論。

首先在微觀結構方面，這兩年探討得比較多的就是attention。到底要不要用attention，目前在NLP領域基本上是形成共識了，在視覺領域，我認為attention也是一個非?？扇〉奈⒂^設計。

它的優勢主要體現在三個方面：第一是關系建模能力，即能夠有效建模圖像不同區域之間、視頻不同時間節點之間的關系，尤其是對全局關系的學習和長程建模能力優于常用的卷積算子；第二是高階學習能力。神經網絡本質上是一個關于輸入x的函數，它關于x始終是一個一階函數。但是引入attention之后，由于Q和K之間的乘法運算，關于輸入x就至少是一個二階函數。高階計算在表征能力上更強，因此我們可以看到基于attention的結構在大數據集上有更強的scalability。第三是動態計算的能力。由于attention值是基于每個輸入樣本計算的，即data dependent，因此attention可以理解成一種動態計算。從這個角度，基于attention的網絡在表征能力和計算效率方面也有突出的優勢。

因此，從以上多個角度來看，attention所具備的優勢都是視覺領域所需要的。

接下來，Transformer和CNN兩種網絡結構的對比是這兩年討論得非常激烈的一個話題。需要注意的是，Transformer與CNN的對比，并不等同于有attention和無attention的對比。因為Transformer和CNN通常是指一個完整的網絡結構，它們之間的差異不僅體現在有無attention，還包括很多其他的宏觀和微觀上設計的不同，這些因素都會影響模型的性能。目前視覺Transformer系列包括ViT、Swin Transformer、PVT等，最新的CNN結構包括ConvNeXt、Large Kernel CNN等。

從當前已公開論文的結果來看，在ImageNet及以下規模的數據集上，這兩個模型孰強孰弱的爭論還在繼續。但是在更大的數據集上，我們看到的是具有attention機制的Transformer結構似乎有更好的scalability。

當然，我們在對比Transformer、CNN這兩大類模型的時候需要特別的謹慎，因為雖然從名字上看迥然不同，但兩者實際上有許多相通和可以相互借鑒之處。許多結構設計并不一定專屬于Transformer或者CNN。簡單的根據幾個實驗結果就斷言這個結構好、那個結構不好并不是很嚴謹。今年公開的ConvNeXt論文就揭示了通過合理選取卷積網絡的kernel size、normalization layer、activation layer等，就可以將一個標準的CNN改造成與Swin Transformer性能相當的網絡。與其去爭論Transformer和CNN到底誰好，不如多去考慮如何各取所長，實現互補。CNN固有的inductive bias對圖像低層特性學習是合理而且自然的，而Transformer在關系建模上有突出的優勢。實際上，基于融合CNN與Transformer優點的思想，產生了很多不錯的工作，如CoAtNet、Container、TransCNN等。

今年我們組在CVPR上發表的工作ACmix，就是在微觀結構上去融合CNN和Transformer兩種結構。我們發現，從計算的角度，兩者實際上共享相同的“主干”，只是實現特征聚合的“頭”不一樣?；谶@個觀察，我們可以在已有CNN或者Transformer基礎上，通過引入少量額外的計算量，就可以比較優雅地實現兩者的融合，使網絡具備彼此的優點。

這兩年微觀結構設計方面的進展還包括對大kernel卷積的重新審視。大kernel在下游任務上優勢非常明顯，而通過與depth-wise conv相結合，計算量并不會增加太多。

在宏觀結構方面，我們還需要繼續討論 Transformer和CNN，因為宏觀結構設計對兩者性能的影響也十分重要，比如說每個stage配置多少層，對結果影響非常顯著。

此外，關于plain ViT和hierarchical ViT的討論和比較也在繼續。最早的plain ViT和DEiT都是保持主干網絡特征圖尺寸不變，而Swin Transformer和PVT則采用的是特征金字塔結構，從而使得以前為CNN設計的結構可以直接進行借鑒，尤其是更加容易適配下游任務，因此在最近受到廣泛關注和使用。不過最近研究發現其實plain ViT的結構即便在主干網絡使用統一尺寸的特征圖，也能通過后期對特征圖進行下采樣構造特征金字塔，并且在檢測等下游任務上取得不錯的效果。由于Plain ViT在設計上更為簡潔，因此也具有較好的發展前景。關于到底哪一種結構更好，目前還未形成定論。

在宏觀結構方面，DeepMind提出的Perceiver是這兩年讓人眼前一亮的網絡結構。它和常見的CNN、Transformer結構很不一樣，其主干的輸入是一組latent array，不同模態的數據（圖像、文本、語音）向量化之后與主干網絡的latent array去做cross attention。因為Perceiver沒有采用self attention，所以它的計算量不會隨輸入的維度平方增長。我認為這是一種很有創新性的結構，在一定程度上實現了記憶和計算的解耦。實際上，不管是CNN還是Transformer，網絡所謂的記憶都是分布式的存在于模型參數中。網絡參數同時承擔計算的任務，也具有記憶的功能，兩者是融合在一起的。而Perceiver的很多記憶是存在于latent array中，由于latent array是獨立且顯式存在的，這對于提升神經網絡可解釋性和遷移性是有幫助的。網絡學習的過程可以理解為根據外界的輸入信號，從網絡的記憶中去做匹配或檢索，整個過程變得容易被理解。Perceiver結構在一些特定的任務上取得很好的性能，雖然目前并沒有跟CNN和Transformer在ImageNet等主流的數據上做直接對比，但我認為Perceiver為網絡結構設計提供了一種新的、有價值的思路。

宏觀結構方面另一個值得一提的是視覺大模型。目前最大的視覺模型之一是Vision MoE，有150億參數。其核心思想是采用混合專家模型（mixture of expert），這本質上是一種動態模型，可以讓模型參數量很大而不至于計算量太多。Vision MoE在達到已有模型相近的準確率時，計算量能夠縮減一半。我認為動態推理在大模型上有非常好的前景。在小模型上，動態計算可能會面臨稀疏計算在GPU上實際計算低效的問題。但往大模型上走，碎片化的問題被大大緩解，動態訓練和動態推理會有更大的潛力。

在深度模型的學習方法方面，不得不提的是自監督學習。剛才幾位老師也都提到了，目前主要是兩條路線。一類是對比學習，利用圖像的不變性去構造contrastive loss;?另一類是基于掩碼重構的方式。我個人認為這兩類方法更多的是在學習低層的特征，由此得到的模型的淺層特征遷移性很好。但由于缺乏類別、物體整體性等信息，僅僅給模型喂大量的圖像讓它去做重構和對比學習，可能很難形成真正高層語義的理解。

上面提到的自監督學習是在只有圖像的封閉集合上做訓練，在整體性和高層語義的學習方面比較受限。最近兩年關于多模態數據的自監督訓練是我個人更感興趣的一個方向。其中，視覺-語言預訓練模型CLIP是一個非常重要的進展。我認為多模態預訓練中最重要的要素是“互監督”，即利用不同模態數據的對應關系構造對齊損失。當文本信息與圖像形成互監督時，語言就能夠為圖像識別任務提供豐富的語義信息，從而適應相對開放的場景。例如考慮分類任務，人工標注的類別始終是一個有限的集合，我們標識了1000類的數據，模型就只能識別1000類。當有了語言模型提供的豐富語義，視覺學習就能擺脫類別數量的局限。所以像CLIP這樣的模型能夠做非常好的零樣本學習，碾壓之前所有的方法。

但是原始的CLIP模型還有很多局限，仍然缺乏對視覺輸入中物體結構的學習，并且依賴大量的圖文對。但它證明了互監督學習的強大，極大地推動了多模態學習的研究。

最近一年來，多模態大模型發展十分迅速，例如Florence、女媧和悟道模型都是優秀的代表。其中，Florence是一個非常ambitious的模型，同時探究了多模態學習的三個維度：模態、時間和空間。Florence模型不止能做分類，同時可以做目標檢測和分割等任務。不過美中不足的地方在于檢測、分割等任務還依賴監督式訓練。

我認為互監督多模態學習的未來，一方面會如Florence模型一樣，統一更多的視覺任務；另一方面會像自監督學習那樣，在預訓練階段擺脫對數據標注的依賴。正如Jitendra Malik所說的，標注數據是計算機視覺的鴉片。如果仍然依賴大量的人工數據標注，是很難訓練出視覺通用基礎模型的。

因此，我認為視覺基礎模型研究中一個非常重要的方向是如何在多模態數據之間構造互監督學習損失，以一種不需要（或者只需要少量）人工標注的方式，實現大規模的預訓練。人類的學習過程能夠很好地綜合圖像、視頻、文本、知識等諸多模態的信息，而當前基于深度學習的AI基礎模型仍處在起步階段，對多模態數據之間的互監督關系挖掘尚不充分，我們能做的事情還很多，機會也很多。

我們第一個議題是對比學習和掩碼圖像建模兩種方法究竟學到的是什么？后者在下游任務上的性能會比對比學習好很多，對比學習是否會被代替？

這個問題的范圍很大，首先我來簡單地談一談我的理解。我認為對比學習是不會被替代的，因為對比學習有很多獨有的優勢，其中一點就是它允許我們把一張圖像放在一堆圖像的context里去學習如何才算是找到自己的另一個view，這是非常重要的。這也是掩碼圖像學習最大的一個缺點，其只針對單張圖像進行學習。此外，往大了說，我認為現在的自監督學習應該是去學習視覺信號的一個高效的表征。所謂高效的表征，即把它壓縮了非常多倍之后，它還能重建出自己，或者認出自己到底是誰。從這點來說，對比學習天生的適應能力應該更強一些，它的context能力也更重要，而MIM則具有一定局限性，所以我認為對比學習不會被替代。

我也補充幾點，我覺得對比學習是不會被替代的。另外，我也在思考為什么我們會有這樣的疑惑？或者說為什么有人會認為對比學習會被替代？我認為主要是因為現在自監督學習的好壞大多是通過一些底層的任務來進行評價的。例如，我們會用ImageNet做一個分類任務來評價自監督學習表征的好壞。然而，像分類任務這樣的底層任務需要的信息特別少，可能導致一些方案看起來不錯，但做一些其他任務（如高層語義任務）時，就會出現一些問題。我們前段時間也在做一個1000類的無監督語義分割任務。我們發現很多自監督學習模型在分類任務上表現得很好，但其學到的表征無法直接應用于這種語義分割任務中。此外，對于規模特別大的無監督任務，它無法去做Finetuning，這個時候直接使用就會遇到很多的困難。因此，我認為我們在評價自監督學習模型好壞的時候，不光得看在ImageNet訓練得到的Performance，還得看其對更高層語義任務的適應性，這些任務才是我們通常要直接使用的，謝謝大家！

謝謝各位老師！我先簡單說一下在我的理解中這兩種學習有什么不一樣的地方。我認為對比學習學習的是不變性，但掩碼圖像建?？坍嫷氖撬械淖兓?#xff08;例如，當你需要預測一張圖片的其余部分，就必須要預測該圖片的其他部分，即圖片的尺寸、物體的大小、物體的不同以及顏色等）。因此這兩個方法之間有著很大的不同，學習到的知識也不同。至于說對比學習是否會替代掩碼圖像建模，我的觀點和前面兩位老師不太一樣，我對掩碼圖像建模持更加樂觀的態度，因為其學習到的知識是非常豐富的，不僅學到了語義的信息，還可能學到了別的東西。如果你把這些信息在預訓練階段丟掉的話，那么對于下游任務是非常不利的，因為你不知道下游任務遇到的問題可能會用到哪種信息，保留的信息越全面可能對下游任務越有幫助。此外，我在單位和我的老板Steve討論的時候，他的觀點更加明確，他甚至認為掩碼圖像建?？梢詫W習到一些三維的結構信息，因為如果不知道三維信息的話，將很難準確地對物體進行重構。在這個觀點下，我認為掩碼圖像建模學到的信息顯然比對比學習更加豐富，我也更看好它，謝謝。

今天主要是來學習的，聽了前面幾位老師的觀點很受啟發。從我比較粗淺的理解來看，對比學習是屬于判別式自監督學習的范疇，而圖像掩碼建模例如MAE等這樣的框架，是屬于生成式自監督學習的范疇。舉個例子來說，一個會造車的人，他肯定會比一個只會開車的人對汽車的理解要深刻的多，因此從這個角度上來講，我很看好圖像掩碼自監督學習這種生成式框架，因為如果你能夠通過生成的辦法把你要理解的任務給描述出來，那你一定是對這個任務本身有更深刻、更好的理解；因為你只有對一個任務理解好了，你才能夠把它給生成得好；而一旦你能夠把它生成的好，再去解決這個任務相關的問題，例如去解決感知識別問題、或者做推理、預測等任務，那可能也相對容易很多。

我非常同意金老師剛才提到的。我個人認為掩碼圖像建模的訓練方式跟生成式模型存在一些潛在的聯系。無論是MAE還是MIM，二者都是在做重建。如果拋開網絡框架的不同，根據它們的Loss Function可以看出這兩個任務和之前機器學習中的Denoising AutoEncoder沒有本質的區別。比如，最近兩年比較熱的Diffusion Model，在訓練的時候可以選擇兩種不同的Object Function，它們的效果都不錯，而其中一種的本質為Denoising AutoEncoder，只不過其在訓練過程中相較于MAE和MIM更加復雜，需要不斷地進行迭代。因此，我覺得MAE和MIM這種學習的方式肯定和生成式模型存在一個對應的關系。雖然現在還沒有相應的論文去嚴格地證明二者間在理論和數據上的關系，但從訓練使用的Loss Function可以看出這兩者是存在一致性的。

我簡要地談一談我為什么覺得對比學習不會被替代。剛剛兩位老師說對比學習是判別式，而掩碼圖像建模是生成式，這個我完全同意。但從另一個角度看，我認為它們都是基于退化的學習。什么是退化呢？退化的意思是把原來圖像中已經有的信息給丟掉。比如，預處理通過crop把圖像中的部分信息給丟掉，那么對比學習就需要去判斷我丟掉的信息是什么，或者說丟掉信息以后的圖像跟原來的圖像是否具有相似的語義。當然，掩碼圖像建模也是一樣的，丟掉一些patch后，把這些patch再重建起來。所以它們雖然一個更像判別，一個更像生成，但從本質上來說，它們都是預測退化的信息是什么的一種學習方式，因此我們不需要把這兩者嚴格地割裂開來看待。

為什么我認為對比學習不可替代呢？掩碼圖像建模的目標是重建像素，但是否真的需要把所有的像素都重建出來呢？好像并不需要。我認為只需要重建到能夠認出這個圖像到底是什么，或者說確定圖像中的大部分信息被保留下來，就可以了。如果重建每一個像素的話，就容易出現過擬合的問題。那該如何去判斷重建是否達標了呢？對比學習就是一個很好的方法。它相當于把目標圖像放到一個大池子里，如果它能找到自己，或者找到自己相應的變化，就可以認為其已經成功地重建出其中的大部分信息。因此我覺得對比學習，至少它的核心思想即InfoNCE loss，是不會被替代的。這是我要補充的觀點，謝謝。

我有一個問題，因為我們主要在做圖像的生成（包括三維的生成），剛剛沈春華老師專門提到它和生成任務的相似性，所以我們如果從另一個角度去看掩碼圖像建模的話，有沒有人考慮過從Inversion的角度去思考呢？因為在生成任務的過程中，一般來說我們需要先做PPI之類的Inversion，但我們的領域還沒有相應的工作使用缺失的地方去做Inversion。我不太清楚這兩者的co-relation是什么樣的？

各位老師，我在這里分享一下自己在自監督學習方面的經驗。針對圖像而言，MAE在ImageNet上確實挺成功的，畢竟因為ImageNet有1000類，每個類之間并不是非常Fine-Grained的。對于一些比較Fine-Grained的識別任務，無論掩碼的尺寸是大還是小，其結果并不是很好。比如，我們把圖像中的人的好多部分都遮蓋掉，重建的時候很難知道這個人是不是背著包，或者是不是戴著帽子。但如果只是用在ImageNet中比較宏觀的物體上時，可能就很容易地被重構出來。雖然把重構的圖片放大，可能有很多缺失和錯誤的信息，但總體而言，車子還是那個車子，Airplane也還是那個Airplane。相反的，對于一些比較Fine-Grained的物體，這些Patch是完全被摧毀掉的，重構出來的也和原來的Image不一樣。這一點可能會使一些Fine-Grained的識別任務出現識別率不高的問題。

我補充一下關于下游任務的討論。首先，我剛才提到MAE和MIM本質都是Denoising AutoEncoder，其中移除Patch的操作就可以理解為在圖像中添加噪聲的過程。實際上，這種類型的噪聲并不是必須的。我們初步的實驗結果表示，添加High Level的噪聲，訓練出來的結果也還是不錯的，Fine Tuning后在ImageNet測試出的結果相差在0.5個百分點以內。MAE之所以采用移除Patch來添加噪聲只不過是因為和ViT中通過Split生成Patch的操作結合得比較好，但這并不是必須的做法。此外，MIM的那篇論文還涉及一些卷積網絡的實驗，證明即使不用ViT這種結構，也能訓練出比較好的模型。Anyway，如果說扔掉Patch不是唯一的加噪聲的方式，那我們還可以探究添加不同種類的噪聲，可能最后訓出的模型也是差不多的。

關于虞老師剛剛提出的Inverse過程。Diffusion Model是生成式模型，Forward是訓練過程，而Inverse就是生成圖像的過程，但對于MAE或MIM，并沒有Inverse這個過程。目前為止我也沒有看到相關的論文去探討MAE或MIM和生成式模型到底有什么潛在的聯系？以及MAE或MIM該如何去Inverse從而得到一些好的結果？Diffusion Model最早的Paper中就有一個實驗，是將Diffusion Model訓練好后，將其中的UNet結構用來做一些下游任務，也非常有效。我也更看好這種成果，有非常漂亮的數學模型在里面。但現在的MAE等工作，大部分都是在跑實驗，并沒有解釋為什么，我們也不知道其中學習到了什么。

很高興來到RACV。我首先支持一下沈老師的觀點，我感覺MAE和MIM是一回事，只是兩個不同的名字，但解決的問題可能是完全一模一樣的。這是我個人的一個觀點。然后我回應一下王井東老師剛才提到的“對比學習為什么work“這樣一個問題。其中的一個核心觀點是對比學習可以學到Semantics。

此外，南京理工大學的楊健教授在這個方面做過研究。他在ICML 2021發表的工作從理論上證明了對比學習能夠明顯地提升分類任務的Discrimination，可以看出其至少對于分類問題是非常有效的。謝謝！

我剛才主要是想聽聽各位老師的一些觀點，我有一些想法和大家不太一樣。我覺得掩碼圖像建模實際上在做重構的任務，剛才凌曦提到這種方法中圖像沒有跟其他的圖像做交互，但我覺得它的交互實際上是體現在模型參數上的。在NLP中，其中一種經典方法是學習 Contextualized Representation，這指的是一句話里有若干個單詞，同樣語義的單詞表示會更接近一些并且被group到一起，比如一些表示指代的詞it或者he。我認為掩碼圖像建模也會起到相同的作用。在學到最后的表示層時，比較相近的語義會融合在一起。因此我認為其在某種程度上是可以學習到語義上的一些特征，比如同樣物體上面不同部位的語義特征。這也是我認為掩碼建模圖像能在分類任務以及很多跟語義相關的一些問題上取得更好結果的一個原因。

此外，在圖像領域我覺得還是存在一些比較難解決的問題，比如物體尺度的問題。在Language里，Token是沒有這個概念的，所以不需要考慮這個問題；但在視覺領域，處理的物體是有大有小的，而固定尺寸的掩碼可能會蓋住一些細粒度的物體，從而很難學習。我覺得在這方面還有很多比較細的工作可以繼續去做。

總體而言，很難說一個方向是否會替代另一個方向，兩個方向肯定都會往前繼續探索的。謝謝！

剛剛春華老師提到在ImageNet上做Finetuning的evaluation。這就牽扯到另外一個問題，應該怎么去evaluate？之前有觀點認為Linear Probing是一個很重要的指標，后來又有觀點認為Finetuning也很重要，但很多人又發現方法差別很大的情況下，Finetuning之后可能沒什么difference。此外，我們可能要多花一些時間再探討一下Encoder究竟學到了什么？大家還有什么需要補充的嗎？

剛才聽興剛老師說：并不是模型越大，性能越好，然后我就在思考這樣一個問題：在自然語言處理中，大模型一般能起到一個很好的作用，但是在視覺里面會不會也是這個樣子呢？或者說對于視覺而言，是不是適度大的模型比較好，模型過大之后反而不好了呢？我覺得自然語言處理的處理對象是人說出來的話，其中的語義性比較強一些，但視覺的很多數據的語義性不是那么強，對于有些任務是信號的區域可能對其他任務就是噪聲。如果模型的規模變大以數據擴充為前提的話，是不是對于某些特定任務來講，意味著引入了更多的噪聲，從而影響模型完成該任務的性能？導致最后訓練得到的大模型對任何任務都不是最優？

我回答一下毋老師剛才那個問題，因為跟我的工作有點相關。現在有一些觀點認為，人腦的容量比現在模型的容量要高很多，現在的很多模型都是不夠大的。我們需要得到一個像人腦一樣的Foundation Model，這就要求它有越大越好的特性，這樣才能夠有一個繼續往下發展的一個趨勢。當然大了之后呢我們還有很多辦法可以把它變小讓它能夠被應用，但這都是一些工程問題，而不是一個科學的問題。從科學上來講，可能就是希望要不斷地擴展模型，吃更多的數據，變得更好；但從應用的角度來講，我們可能并不需要用到。

然后，關于MIM呢，我覺得還需要更多對它進行理解，甚至可以做得更大膽一點，就像黃高老師說的這個多模態，我們是否能夠做多模態的MIM呢？現在只做圖像的話，我覺得可能還不夠，可以把更多的模態引入，然后一起去做這個掩碼圖像建模。

我接著興剛的話說。我認為視覺和語言是不一樣的東西，我們應該區分來看待。對于文本來說，模型確實越大越好，但視覺上并不一定是這樣。因為視覺處理的信號和文本信號有本質上的區別。文本信號是人類創造出來存儲知識和表達知識的，他一定要注重高效性，所以文本的信息密度非常大；而視覺信號是人類從傳感器中獲得的，注重真實性，所以它信息密度比較低。因此，對于這兩種信號，我們所使用的學習方法和模型必然是很不一樣的。在語言任務上，模型越大越好是因為語言多多少少有種死記硬背的感覺，記住那么多語料，就能進行泛化；但視覺信號對真實世界的采樣密度還是非常低的，無法通過一些死記硬背或者預訓練的方式去達到非常高的通用程度。所以說在當下，對于視覺任務來說，比起做大模型，我們更多地還要去做一些其他的事情，比如對視覺信號進行高效地抽取，創造一個良好的環境使得視覺上的scaling law能夠顯現出來?，F在視覺領域暫時的情況是，把遷移學習做好、把各類的任務分開來做好，會更有用一些?；蛟S在未來的某一天，當我們把視覺的基礎建設提上來后，達到了和文本同一起跑線，那么scaling law可能就會出現了。這是我對毋老師的問題的回答。謝謝！

雖然有點跑題了，但我還是想回應一下剛才兩個老師說的這個問題。我在網上看到Tesla的Andrej Karpathy（現在已離職）說過，10年前視覺、語音和自然語言是分離的，圖像也是分為Static和Video，同時在Static圖像里做分割、分類和檢測也是使用不同的方法，但這幾年的趨勢是AI Consolidation。我們可以看到BERT、Transformer等Language里的模型在Vision里取得很好的成果，也看到更多的證據表明同一個模型也可以做不同的任務。因此，我覺得我們可能需要一個可以學習到一些更本質東西的大模型，需要學到一些非常Fundamental的東西。這和我們今天討論的MIM到底該學什么東西是相似的？

謝謝夏老師把我的問題拉回來。我們想探討MIM學到什么？現在這個方案在這個目的上能學到什么？

首先我想回應一下凌曦，目前并沒有明顯的證據表明MIM中使用Pixel作為監督信息會出現過擬合的現象。根據MAE的Paper里匯報的實驗，即使訓練周期非常長（達到1600個Epoch），其在小數量的數據集上也并沒有表現出過擬合的現象，其性能還是會持續地增長。此外，我認為掩碼圖像建模的預訓練任務是非常豐富的，豐富到在小數據集上也可以定義很多任務讓網絡去學習。

還有一個很重要的實驗和毋老師的問題相關，MAE嘗試過很大的模型，比如ViT Huge，但用在ImageNet的100萬張圖片上也沒有出現過擬合的問題。相比之下，對比學習即使用在ViT Large模型上也會出現非常嚴重的過擬合現象。此外，對于之前的一些對比學習框架，它們都很難進行ViT Large模型的訓練。因此，我認為掩碼圖像建模定義了更加廣闊的問題空間。

我也有一些跟武老師相似的一些想法，我覺得對比學習、Masked Image Modeling和最近正?；鸬腄alleV2這種的Full Image Generation，這三者都是Special的自監督任務。什么意思呢？對比學習相當于一個Classification，輸出的number of bits為；對于Masked Image Modeling，輸出的number of bits為恢復多少的像素，比如在MAE中大概是75%的像素個數；而對于DalleV2這種的Full Image Generation的話，不僅需要恢復圖像的每一個像素，每個像素恢復的精度也需要特別高。我認為我們希望自監督的任務越來越難，信息恢復得越來越多，這樣學到的Information才越來越多。此外，從實驗效果來看，DalleV2的結果非常驚艷，隨便寫一句話，它都能生成非常符合這個語意的圖像。這讓我覺得DalleV2的Encoder學習到的信息量是更大的。

然后從另外一個角度來說呢，為什么大家認為對比學習很好？是因為它的Linear Probing很強，甚至對于DINO，它用在Nearest Neighbor Classifier也很強，現在能達到70到80左右。

此外，我們還需要關注視覺標準到底有多么容易去Readout。對于對比學習，它是非常容易Readout的，因為預訓練任務和下游任務是一樣的，都是在做Classification；對于MAE，其并沒有做InfoNCE，Paper中的Linear probing效果不好；對于DalleV2這類的任務，雖然Paper中沒有提到Classification的效果，但我估計效果并不好?？偟膩碚f，我認為視覺表征如何“easy to readout to your downstream task”可能是未來可能比較多關注的問題。

下面我們看一下語言能為視覺基礎模型帶來什么，視覺基礎模型是不是一定需要語言？

我先接上一個問題說一下，然后再說一下王老師所說問題。我也覺得對比學習更像是一種判別性的學習，然后MIM更像一種生成式的學習，這個可能跟前面的老師基本上是一樣的，我想說就是對于MIM這種偏生成式的學習，我覺得它可以學到的知識和能力其實是更廣泛的。對比學習可能更偏向判別性，學到的知識區分能力較強，但可能泛化到其他任務時，他的能力可能相對來說就會弱一些。還有關于MIM，我覺得它比較好一點可能是我們不一定非得去重構像素，去做像素級的重構，其實我們可以去做不同的粒度的重構，而且非像素的特征其實也可以去重構，比如說我們在做傳統CV方法的時候，那時候有很多的特征是根據先驗人工設計出來的，也可以去試著去重構這些特征，這樣的話其實它會學到一些相應的先驗知識，所以我個人認為MIM可能也會更靈活一些。

然后關于語言這個問題，其實我也做過一些簡單的思考，比較像剛才王興剛老師也提到的混合多模態的模型，比如利用語言時，把一句話中的一些詞摳掉，然后換成一些圖像區域的表示，做這種context的學習，反過來，可以把一幅圖的一些區域扣掉，換成其對應的物體的語言的表示，這樣將image embedding和word embedding混合在一起去學，會更加促進視覺與語言兩種表示空間的連接，這就是我比較簡單的一些看法。謝謝。

我再補充一點，其實第一個問題，我可能問得不是很好，其實應該說我們解決這個對比學習的任務和解決掩碼圖像的任務能給我們帶來什么，而不是這個任務本身，

我覺得語言對于視覺基礎模型是非常重要的，因為視覺的理解還是要跟語義聯系起來，我們希望不光是做一些low level的任務，更要理解圖像里面有什么東西，然后這個東西它有什么部件，這個物體跟其他物體之間怎么去交互。從這個任務目的來說，視覺數據的開發是遠遠滯后于自然語言領域的。在自然語言理解領域，大家可以想象現在訓練語言大模型的數據，對語言的覆蓋是接近完備的，用它訓練完大模型之后，可以覆蓋語言里面的各種問題。然而視覺方面的數據還遠遠達不到，把web上所有的圖像數據都抓下來，仍然還有很多問題，無法覆蓋視覺領域的所有問題。在視覺數據有限的情況下，語言是可以幫助我們去做語義上的擴展，這非常重要。從我們最近的一些視覺基礎模型上的工作來看，訓練數據實際上還是比較有限的，但是仍然能看到它有一定的泛化能力。我覺得語言帶過來的一些知識，與視覺信息是相關聯的，視覺的表示跟語言結合后，隨著語言的擴展，視覺的表示也會擴展自己的表征能力。

我說一下我的觀點，就是視覺基礎模型一定是需要語言的，未來一定是視覺跟語言相融合的一個態勢，比如說過了幾年以后，業界最好的模型中，可能就不存在純粹的視覺基礎模型，最好的模型都是視覺和語言融合的。順便也回應一下這個問題：圖文弱監督和視覺自監督兩個是不是都需要？我的觀點是非常明確，兩個都需要。因為圖文弱監督就像剛才黃高老師說的，它是包含有一種互監督的概念，可以幫助我們去克服純視覺預訓練存在的問題，即你很難抽出有效的語義信息。一旦有了文本的輔助，這件事情就變得好做很多。那么自監督為什么也需要呢？是因為自監督它本身更加適應視覺任務，對圖像的性質捕捉得更好。進一步說，這兩個方法不僅都需要，而且我們在研究和落地的過程中，發現它們是有先后順序的：先做圖文弱監督的預訓練，然后以它作為基礎模型，再做視覺預訓練，相當于把視覺預訓練作為一個圖文預訓練的fine-tuning。更明確地說，我們現在的方法分為三步走：先用圖文弱監督去做預訓練，再用視覺自監督去做二次預訓練，最后才去下游任務上做微調。我們最近在ECCV發表了一個叫做MVP文章，也確定了這樣做是有益的，包括對于檢測分割這種下游任務，都有明顯的性能提升。

關于各種自監督弱監督方法，我個人的看法就是語言涵蓋了大量的語義信息，但是語言它不可能是無限精確地描述圖片的信息。那么互聯網上的圖片和文字描述，文字以泛泛描述為主，精確描述很少。所以我覺得我們依賴圖文弱監督的話，主要是理解大概上的事情，那么對這個MAE和MIM這種方法，剛剛虞老師也談到了，我個人覺得它是在隱式地思考圖片里的幾何信息。但很可惜我覺得現有的MAE的方式，它的loss是一個MSE loss，這種loss其實它并不能夠發現看不見的部分， MIM mse這種loss對SSL來說是不利的，所以我也在想這幾種方式，他們其實是互補的。如果我們關心的是物體的low level的幾何，特別是我們做智能，我們要感興趣怎么跟它接觸，那么幾何是很重要的，在這個問題上可能語義并沒有什么作用。我們做弱監督，其實真的缺乏能用的視覺數據。所以說我們變換一個視角，我們可以reconstruct它，但是目前的弱監督，很難去真正反映其中的幾何，那么目前的這個mae的這種監督也只能說是在這種先天條件缺失的情況下，去給他找一個方式去學看不見的地方是什么,我感覺對于數據模態的類型的補充和 loss方式,還有很多可以探討的地方。

在圖像檢索和視頻理解中，我們經常提到結構化、語義化。這就是說，計算機視覺領域主要解決兩個問題：（一）語義化，圖片中含有什么實體，它的語義概念是什么？例如：圖中有一架飛機，一個人。（二）結構化，實體間的關系是什么？例如: 人從飛機走下舷梯。當實體和關系都描述清楚了，我們就理解圖片包含的語義是乘客下飛機，而不是上飛機，坐飛機，駕駛飛機或站在拖拉機旁。計算機視覺的根本目標是視覺信息的結構化和語義化，對應到自然語言就是命名實體、實體關系（空間關系，交互關系）。對于視頻，結構化還要考慮持續時間的上下文關系。

關于視覺基礎模型學習方法，今天大家探討了很多。對比學習（CL）是通過比較兩個對象是否相似來解決區分力問題（實體識別）；大量標注樣本對模型訓練肯定是很有幫助的。但實際上，我們在做模型訓練時，經常缺少大量的標注樣本，所以就產生了解決樣本自標注，自監督學習問題的掩碼學習方法（MAE），即通過掩碼抹掉子圖，然后由自編碼器填空生成缺失的已知部分（實體關系）來實現學習的一種方式。

我記得悟道大模型的研制者唐杰老師，他在一篇論文的標題中提到：“所有的一切都是生成“。我當時在想，難道不是所有的一切是分類？但他卻說一切都是生成，生成是識別的基礎，其實就是類似于掩碼學習，生成的思想如出一轍。就是你缺少一個東西，你去生成它的時候（原始照片本來就有，挖掉一塊區域，通過生成把它填充好），在反復的生成過程中就學習到了這個東西?，F實中，我們訓練樣本實在是太缺乏了，基于MAE的生成學習為我們提供了一種新的學習方式。

我就說這些。另外我提一個問題，去年RACV2021，我們討論過視覺大模型。正好這次華為盤古視覺大模型的謝曦凌來了，百度視覺的專家王井東也在，能否介紹一下您們視覺大模型的最新進展、經驗和問題？

這個問題很好，那么第一個就是其實興剛提到的那個大模型，不過是個150億參數，我們前段時間發布了一個更大的、170億參數多任務大模型。

我簡單說一下，非常感謝王濤老師給我這樣一個說一下自己落地工作的機會。其實我剛才回答毋老師問題的時候已經講過了：視覺跟文本是不一樣的。就語言來說，現在我們收集到語料庫已經是現實世界的一個非常好的采樣，它覆蓋的范圍足夠大，于是我們用預訓練去死記硬背，甚至過擬合語料庫，依然能夠取得明顯的收益。但是，視覺還遠遠達不到這個程度。在落地的過程當中，如果我們拿一個在通用數據集上訓練好的模型直接用于實際業務，比如說你把ImageNet訓練好的模型用到醫療影像上去、用到礦井圖像當中去、用到工業質檢的電路板圖像上面去，效果不一定會好。這是因為視覺的預訓練數據集沒有覆蓋這么多復雜的場景，那么過擬合的副作用就顯現出來。這是大模型在視覺上沒有全面鋪開的第一個原因。

第二個原因其實也是一個非?，F實的原因：視覺大模型太慢了。文本大模型，即使有千億參數，它推理一句話還是很快的。但是視覺大模型，如果做到十幾億的參數量，那么在一張圖片上做檢測，可能要20秒鐘的時間。一張圖片20秒，誰能忍受？那不可能的。所以說我們在實際業務當中必須把這個東西給調整過來，比如說有一個預訓練大模型作為基礎，在微調的過程中，通過蒸餾剪枝或者說別的方法，你把它弄成一個稍微小一點的業務上能用的模型，用到業務上去。而且我們發現在這個過程當中，微調的收益比起模型規模的收益要大得多。這也是我前面說過的，因為視覺信號太復雜了，你沒有辦法通過預訓練去覆蓋所有的數據分布。所以在視覺領域做落地的思路，跟語言肯定不一樣。我們現在做視覺大模型的思路也不是像在文本那樣，一定要往大的去走；在視覺上我們就是做到10億左右參數，基本上就可以了，不用再做大了，而是把精力放在模型的下游微調上。這是我對于我們業務的一些解釋，謝謝。

我就第五個問題談一談我自己的觀點。語言能給視覺模型帶來什么，我覺得大家都比較認可語言是有幫助的，但現在我們關注更多的是怎么帶來或者怎么做性能提升。我在想我們是不是應該思考現在語言的使用方式是不是合理，或者有沒有更合理更優的方式。

大模型的發展目前有四個維度，第一個是空間的維度，空間的維度主要體現在粒度上，由圖片分類這樣的粗粒度向中層粒度（object level）及細粒度（pixel level）不斷深入，第二個是時間上的維度，由靜態圖像向動態視頻方向擴展，第三個是模態的維度，由RGB模態、向紅外、深度、語言等多模態發展。第四個是多任務的維度，大模型需要向下游不同的任務擴展，從而實現一網多能，一網通吃。

當前語言和圖像融合的大模型，如Clip對視覺理解的發展有很好的促進，語言的描述相比圖像來說，實際上是非常精煉的，通常是人類的對圖像的一個總結，可能眼前這個圖什么都有，但是你通過語言描述后，人會對圖像的注意力更精準，理解更到位。其實語言它還有一些明確的描述，它其實是表征了一些結構信息，很多是知識性的信息，這些知識在圖譜中又有上下文的關聯關系，這些其實都是對視覺的有指導意義，通過知識圖譜的方式來指導視覺模型，那么會使得我們會對視覺理解的更充分，在很多任務上面都提升明顯。

所以說我覺得其實語言為視覺帶來了很多，但是另外一個問題呢，我其實也不太了解，就是NLP方面是不是需要視覺的一些知識和模型？相比圖像的粒度來說，語言描述的粒度較粗，而且圖像本身變化是多種多樣的，它的空間表征更更大一些，有些其實超出了語言描述的內容，所以說這樣翻過來，為了對語言的理解更深刻，NLP究竟會不會用視覺大模型，我想拋出這個問題。

各位老師上午好，剛才聽了各位老師的報告和發言，很受啟發，我談一下對視覺基礎模型的一些理解。過去這兩年我也一直從事視覺基礎模型方向的研究，在國內很多地方也匯報了我們課題組在這方面的一些工作。我們可以簡單回顧一下近10年來這一波的計算機視覺發展歷程，從2012年到2022這10年其實可以分兩個階段：從2012年到2017年，計算機視覺應該說能夠成功其實也是受到語言的啟發，大家可以看一下深度學習最開始成功的其實并不是在圖像識別任務上，那個時候我在新加坡工作，深度學習在語音識別任務上成功了很久，在2012年才在視覺任務開始成功，所以說那個時間節點上其實也多少受到一些語言的啟發。這一波從2017年到2022，我們都看清楚，實際上計算機視覺是在跟著NLP在走，如果說早些年我們可以比較驕傲地說計算機視覺推動了人工智能的發展，現在很多時候我們沒有辦法。剛才盧老師講的很對，就我們把模型用在圖像視頻上，根本解釋不清楚為什么需要Transformer這樣的東西。所以我的觀點就是說語言跟視覺一個本質的區別，那就算語言是有非常清晰的語法，而視覺是比較缺失的。今天上午討論了很多對比學習，我感覺我們更需要關注語法這種東西在視覺數據里面如何挖掘，這是一個很難的問題。因為現在視覺沒有語法，而語言是有很強的語法，十幾年前美國一個知名教授跟我講一句話，我至今印象非常深刻。他講的一個觀點就是computer vision is language。他說計算機視覺也是一門語言，語言的本質就是語法，視覺現在沒有語法，所以我希望或者說各位同行一起就在這個方向能夠研究，一起用語法來指導視覺基礎模型的構建，謝謝。

這個問題很有意思。語言有語法，那么圖像或者識別有沒有語法呢？因為語言是我們自己發明創造的，所以我們認為它有語法；但是圖像雖然不是人創造的，可能是自然界某種規律創造的，是不是也有自然界的語法呢？

因為我對計算機視覺不是很熟悉，之前有做過一點，但沒有繼續做了，后來主要是做機器學習和人工智能理論。所以呢，我就說一下第三、第五這兩點吧。機器學習早年的時候也曾經有一個夢想，這個夢想和第三個問題差不多是一樣的。當時是想這種學習任務會有一個統一的學習算法。但這是不可能的，因為95年的時候就有人證明了沒有免費午餐定理，97年這個觀點就進了教科書，從此機器學習就不再夢想去構建一個統一的機器學習模型了。如果說在一些條件下這種模型是可能的，那么就意味著這些任務要么是存在投影（同態）關系，要么是可以互相重構的。如果不是這種關系的話，那我認為這是一個很困難的事情。從機器學習上來說，對于不同的學習任務，利用沒有免費午餐定理，每種任務都應存在更適合的算法。當然這是我的理解，也不一定完全正確，萬一日后證明了在機器視覺領域各類任務之間居然存在同構或同態關系，那確實會是很大的成就。但是，如果證明不了這件事情，那么這些任務本質上就是不同的應用。這就是我的觀點，從機器學習的角度對第三個問題進行了一點補充。

接著說一下第五個問題。語言和視覺的實現是非常不一樣的。從符號的角度來說，視覺屬于相似符號，語言屬于象征符號，它們是完全不同的。雖然像相似符號之間會存在一些相互關系，比如說照相和漫畫之間可以存在映射的關系；但是不同的符號之間，比如相似符號到象征符號，這種映射是極其復雜的。對語言來講，從漢語到漢語是可以同構的，英語到漢語不見得是同構，但可以說是近似同構。因為如果不近似同構的話，翻譯就是不可能的，所以可以說是近似同構。但是對視覺而言，我們計算機的圖像到語言是同構嗎？從我的觀點上來說，可能是差得很遠，從自然符號到相似符號就差很遠了，再從相似符號到我們所謂的象征符號，那就更加天差地別。實際上我們象征符號的單位是有限的，已經有人證明實際上每種語言的常用詞也就5萬個左右。對于每個人來說就更少了，與圖像的數量有很顯著的差異。

于老師講的挺底層和哲學，我也來談一點觀點。實際上，語言和視覺在逐漸的統一，從NLP的角度上來講，語言可以向量化，從而轉變成一個傳統的統計學習的問題；而圖像可以Token化，也可以轉換成NLP處理范式的問題，這兩者當中的差距是越來越小的。視覺和語言之間也有很多的互相受益的地方。我特別同意謝老師講的觀點，在自然語言方面我們有比較全面的數據，但直到今天，我們還是很缺乏大規模多任務的視覺數據?，F在NLP里面有像SuperBLUE、Big-Bench等多任務benchmarks，但是視覺領域像ImageNet這種任務太簡單了，哪怕加上segmentation和detection任務，總體來說還是單一的。如果我們能構建一個大規模數據集，增加更加豐富的任務例如視覺推理、問答、細粒度的CV任務如人臉識別、ReID、OCR等等，將來有一天先把一個超大規模的多任務圖像視覺數據集構造和定義出來，再去研究面向視覺的大模型，可能會更加更加有價值和有意義。

從我們實驗室的一些經驗來講，語言對于我們視覺的理解是很有大幫助的。比如說對于跨模態的多模態文檔圖像理解。在文檔圖像理解中，中文或英文的數據有很多，但是對于小語種而言，不管是無標注的數據還是有標注的數據都很難獲取。如果把視覺模型和語言模型解耦出的訓練，利用某種方式再把它們耦合在一起時會有很好的效果。比如說利用跨幾十種語言的大規模語言模型，把它遷移到視覺里面，就可以幫助我們解決一些few-shot或者zero-shot場景下文檔圖像的分類、識別、信息抽取等視覺上的問題。我們今年在ACL2022年就有一篇文章在做這個工作，我們發現即使是zero-shot情況下，如果有語言知識幫助我們建模，是可以更好的去解決視覺問題的。

從這個意義上來講，我很看好將來視覺和語言可以走到一起。剛才繼文老師提到，回顧過去10年AI領域的發展，前5年可能是CV領域在引領主流，從17年到現在是以Transformer為代表的這種NLP領域中的方法在引領主流。展望未來5年或10年，這兩個領域可能會走得越來越近，我們也希望這兩個領域中還能夠產生讓人眼前一亮的或者具有革命性的一些工作，比如說像MAE，還有Hinton教授去年提出的Pix2Seq，今年也出了Pix2Seq v2，把視覺檢測、實例分割、關鍵點檢測、圖像描述等任務統一到了一個基于Transformer的框架，方法簡潔，效果驚艷。我覺得這些方法還是能夠給我們帶來一些新的啟發。

我剛剛聽了金老師和于老師的發言，我覺得很有啟發，忍不住想要問張磊老師和井東老師一個問題。其實前面已經提到，現在已經出現了很多根據語言做圖像生成的工作，至少從視覺來看，這個任務已經做的非常的好了。那么根據語言生成的大規模的圖像，對于視覺基礎模型到底有沒有幫助呢？對這個問題，我的看法是，有幫助或沒有幫助都很重要。假如說沒有幫助，即這些圖像對于機器視覺不會有任何幫助，這表明我們已經cover了所有的information，不可能再生成additional information了，所以即使這個問題的答案是no，也是很有意義的。如果答案是yes，也就是有幫助的話，那么舉例來說，如果我能夠生成在原始圖像里面不可能存在的，比如剛才講到的熊貓在沙灘上一類的本不可能在你的數據里產生的圖像，但也許有一天真的會出現這樣的數據，這種明顯是基于語言生成的高質量圖像，對視覺基礎模型會不會帶來幫助呢？我很想聽聽兩位的觀點。

虞老師的問題是一個比較新穎的角度。在我看來，現在做的生成模型，并不是在解決representation learning的問題，主要是把大量圖像映射到空間里，對它的分布做采樣的過程。很少用生成模型這種方式去做表示學習，表示學習還是用弱監督或者自監督的方法比較多。我認為從生成的角度來說，某種程度上仍然是一個類似于重構的任務。當它重構了數據之后，可以做更好的采樣。我覺得至少目前這個研究領域里還不是在探討使用生成模型去解表示學習的問題，所以我對這個問題還沒有一個特別好的答案。

我來補充一點點。我沒記錯的話，DALL·E 2中使用的是CLIP模型，它的表征是從CLIP出來的。DALL·E 2可以認為在語義空間中做diffusion sampling，然后使用diffusion decoder完成圖像的生成。其實這個地方就是剛剛提到的，怎么樣才能生成的漂亮，怎么能把隱含空間里面的表征變成真實的東西。像Google做的Imagen，也是融合了這些過程的。我覺得在那個隱含空間里面sampling還是需要一個好的表征空間的。

尤其是語言特征空間，需要有一個好的表示。DALL·E 2實際上也是利用了CLIP來幫它解決問題，而不是它去幫CLIP解決問題。我認為在DALL·E 2中沒有加入增強CLIP表征能力的地方。因為generation的問題比表征學習更難，所以它實際上是在借助于表征學習的一些工作的進展來進一步解決問題，而不是反過來幫助解決表征學習的問題，當然后者也是一個很好的方向。

其實DALL·E 1生成的東西也不錯，只是quality沒那么高。主要的差異在diffusion decoder，使得DALL·E 2的quality非常高，也就是生成地更漂亮，單從語義的角度來說，差異并沒有那么顯著。

我也想提一個問題，這個問題可能有一定的爭論。今天上午我們這個專題講的是大模型，大模型是數據驅動的機器學習方式?，F在，除了各大公司以外，很多學校也在做，是個很流行的研究方向。我擔心的是，這樣下去是不是會對我們計算機視覺的研究產生一些負面的影響呢？

這話是什么意思呢？我們在做大模型研究的時候，基本上都把數據獲取這個過程給忽略掉了。我們知道計算機視覺是應該包含數據獲取、數據選擇等環節的。生物也好人也好，像很久之前生態心理學所主張的那樣，視覺系統是要把感知、認知及其決策這些功能融合到一起去的。但現在如果使這些功能處于一種分離狀態的話，這是不是會對我們這個領域產生影響？

當然，從另外一個角度來看，我們也看到這種數據驅動的方式在一些視覺任務中能夠發揮作用，能夠提升系統在一些特定問題上的視覺認知質量。但我還想問一下，從本質上講，除了刷榜之外，大模型能解決哪些我們以前解決不了的問題，或者說它在哪些方面可能會引起計算機視覺研究方法論上的突破呢？

正好我們也在做大模型，所以我就先回答一下查老師的問題。其實大模型在我自己看來，在預訓練算法部分，跟小模型其實沒有太大區別，它更多是一個工程問題，所以業界也很少有學者針對大模型去專門發表論文。那么大模型它能帶來什么改變呢？從落地上來講，大模型帶來的規范，會讓我們落地會更快更便捷。比如說，當我們有一個基礎模型以后，就可以比較方便、規范地把它遷移到不同的下游場景里面去；而且由于預訓練的原因，在小樣本任務上，它的能力確實是有所提升的，因為它share了一些公共的feature。這是我們在大模型上能夠得到的一個比較明確的好處。

關于前面虞老師提到的，生成圖像輔助識別的問題，剛才張磊老師說沒有這方面經驗，但正好我有這方面的一個失敗的經驗。我們曾經用生成圖像嘗試去提升識別精度，但是最終失敗了。背景是這樣的。我們知道在圖像分類里有一個工作叫mixup，它的想法非常簡單：假如有兩張圖像，圖像A是狗，圖像B是貓，我們把A的像素乘以0.8，B的像素乘以0.2，兩者相加創造出一個重疊的圖像，然后強行讓分類器得出這張圖像0.8概率是狗、0.2概率是貓的結論。這種做法可以提升分類精度。我們就進一步想，這樣做是不是太弱了，能不能用圖像生成技術來改進這件事情。我們知道GAN inversion出來以后，很多工作都會展示一個被稱為image warping的實驗。比如說一張圖像是貓，一張圖像是狗，warping就可以創造一個序列，使得貓漸變成狗，相信大家也有都有見過這樣的圖片。具體做法，是把兩張圖像分別逆映射到特征空間，在特征空間中插值，然后再映射回來，就可以做到這樣漸變的效果。于是我就想，能不能用它來替代mixup呢？這是一個很自然的想法，但它最終失敗了，而且是很徹底的失敗，沒有任何提升性能的跡象。這是為什么呢？后來，我們發現一個很明確的點。在warping時，我們一般都假設它在語義空間上是連續變化的，但是實際上不是這樣。我再舉個例子，比如說有一只頭朝左的狗和一只頭朝右的狗，我們理想中的warping，應該是這個狗逐漸地從左邊轉到右邊，但實際產生的效果是，左邊的狗頭逐漸消失，而右邊逐漸長出一個狗頭來。這種warping效果，跟我們想要的就不一樣，無法幫助我們在圖像分類或者識別這個任務上做得更好。

所以我可以回答剛才的問題?？偨Y我在這方面的失敗經驗就是，當前的生成模型還沒有真正根據語義去生成，而是根據統計學習直接去生成的，這就導致它生成出來東西很不確定，可能還沒有辦法很穩定地去幫助分類或識別的任務。但是，在某些情況下，生成數據還是有用的。比如說我生成了一些熊貓在池子里游泳的圖片，而我下游要做的檢測任務，目標恰好就是熊貓在池子里游泳。這個時候你沒有真實的數據，那么生成一些數據總比沒有要強。但是在一般的情況下，因為生成模型對語義的把握還沒有那么強，它就很難輔助識別任務。這是我的失敗的經驗和教訓。

這個我來說一下，我覺得前面講得很有道理，就是說在語義中是沒有考慮到三維的，這種情況下，是會存在geometric constraints的。

我快速回應一下。我們確實沒有考慮三維信息。但就算考慮了，這個過程也是不可控的。

我是覺得現在深度學習這種數據驅動基本上沒有考慮到三維，把圖像恢復出來，我們都想象不到背后在做什么，我認為這還是一個pattern的重現過程。因為我們的算法里面沒有為三維重建專門設計任何東西，雖然我們不能排除它沒有學，但我覺得確實是沒有看到這個東西?，F在的圖文相關的、尤其是大規模的工作，基本上就是分類。

就像凌曦剛才講，對于大模型而言，90%都是工程問題，因為要把這么多GPU一起去訓練，然后把數據加載保證不出問題，它基本上就可以看做是一個工程問題了。我在微軟也是在做這個方向，這個方向確實有大量的工程。不過確實可以看到它的結果在逐漸地變好，數據量不斷增多，模型不斷變大，效果也在不斷變好。所以我是覺得這個趨勢是沒有問題的，但它的工程會越來越復雜，它就變得不太像是一個典型的研究方式得到的成果了。

我也想補充一下，我是北京大學王鶴。我覺得像CLIP這種大的圖文的弱監督模型，也是有很多問題的。我們會發現在互聯網上的一些語言中，會經常性的出現信息丟失，或者是大家不在意的一些信息。對于這些我們不在意的東西，通過Visual language pretraining就學不到，比如說有一張大合影，其實很難注意到這個 image里面有多少個人。像這些信息不一定有，即使有，模型也學不到，所以我們現在用clip的pretrain model的時候，如果想把它knowledge distill 出來，我們會發現比較common的一些東西是可以distill出來的，但一些detail的東西則distill不出來。這個時候再聯想到DALL·E模型，因為我們能夠使用語言來控制它的生成，那么我們給出一些特殊的語句，它也能夠給我們一些想要的輸出，以此形成這樣的image和text的pair。

但由此會出現兩個困擾著我的問題。第一個問題是就連我們這些大學的researcher都沒有辦法access到這些非常好的image生成模型。即使申請獲批了，可能一天也就生成10張圖片左右，不可能允許進行大規模的生成，之后再用來做訓練。今天咱們有很多國內公司的代表，能不能咱們中國搞一個open access的模型讓我們researcher也來玩一玩生成，我覺得這個能很快boost相關方面的一些進展。第二個問題就是我們發現在他們的training data里有很多missing area。我個人本身就比較喜歡關注的是圖像里面part的結構，比如說拿clip去做表征，它能不能知道椅子的背上有幾條橫幅這樣的信息？我們發現這些模型根本不知道，更精細的來講，比如說一個遙控器上哪個按鈕是關機鍵，哪個按鈕是調聲音的，這些事情是完全沒有任何信息的，因為這些東西本身在互聯網上就是處于一個信息缺失的狀態。所以我們也在想是不是對某種特殊task，我們也需要用一些data來distill或者是enrich vision和language model，build一個小范圍的specific的vision-language的pair。我覺得這些都是可能推動vision language model在具體task應用上的一些方向。

各位老師好，我是來自于合合信息的丁凱，關于視覺大模型，我這邊想提兩個問題，請教一下各位老師。第一個問題是關于視覺和語言融合的，目前大家提到的視覺跟語言的融合中的語言一般來說都是自然語言，同時語言還有一種表述的方式，也就是經過人類這么多年抽象之后形成的知識。在業界中也有很多知識的表示方式，比如知識圖譜等等，那么這些知識如何和我們的視覺模型融合起來，更好的去指導我們模型的訓練，并且去避免一些人類的常識問題呢？舉個例子，之前在NLP領域里面比較火熱的大模型GPT-3，它生成出來的有些語言也會缺乏甚至違背常識。所以視覺大模型與知識的融合這個方向有沒有可能是未來的一個發展方向呢？

第二個問題，就是剛剛查老師提到一點，大模型的發展會不會有什么負面作用？現在的大模型有幾個特點：數據量非常大，參數非常多，訓練成本非常高，變成了只有一些大的公司或者機構才能做的工作，像一般的科研工作者只能去用這個模型，這樣的好處是大幅度降低了下游任務的難度和門檻，同時也會出現同質化的情況。即大家都是用同一個預訓練模型，然后再去做下游任務，做到后面會發現這個任務的瓶頸就是這個預訓練模型了，導致大家做出來的結果都差不多，缺乏新的東西出來。所以我再想，未來在大模型蓬勃發展的同時，有沒有一個可能得方向就是讓我們的視覺大模型具備數據選擇能力的，在大量數據中可以去選擇有價值的數據。這樣好處是通過對數據的選擇，同時持續的對新數據不斷地進行迭代訓練，那是否可能會在一些場景里面產生非常多樣性的大模型或者預訓練模型。例如，在同一個場景里面，因為每個大模型預訓練任務的數據選擇的方式不同，迭代的數據不同，使得在具體任務上的模型是具有多樣性的，從而避免出現一個大模型統一天下的情況。這就是我的兩個問題，謝謝各位。

謝謝丁凱老師，下面我們看看除了丁凱老師的問題，我們看看未來1~2年什么樣的一個方向是值得我們往下做的。

我想首先回應一下剛才查老師的問題，就是大模型到底對我們有什么幫助，是否有什么負面的影響。這實際上是一個視覺研究中的路線之爭的問題。肯定有人擁抱它，有人懷疑它，這都是正常的。我個人的觀點是非常支持它的。我這里跟各位老師匯報一下，大概就是去年這個時候，北京智源人工智能研究院黃鐵軍老師帶著我們一起，探索視覺大模型的構建，就是希望將來有一天視覺基礎模型能夠像今天的電力一樣服務于千家萬戶。我們知道在信息域有一個鏈條，有基礎軟件，工業軟件，那么將來視覺模型可能會類似于我們手機的操作系統。國家也特別支持，今年的2030新一代人工智能重大研究計劃里面就支持了這個方向，并且希望將來能夠開放共享，讓大家去用，這還是非常有意義的。第二點查老師剛才已經講了，就是目前還沒有看到有大模型和沒有大模型的本質變化。我認為確實也是這樣的，現在除了在精度上有一些幫助之外在其他方面沒有看到，但是不排除未來通過我們的努力，比如說5年或8年后，可能會出現一種解釋性比較強、通用性比較好的基礎模型。所謂通用性主要有兩點，第一點是對視覺數據的通用性，不管是對可見光、紅外、射頻、雷達等等數據都有通用性；第二個是任務的通用性，包括檢測、分割、識別等，所有任務都有通用性。如果真的能做出這個東西，我們傳統的計算機視覺方法是做不了的。

大家好，我是清華大學的弋力。聽到各位老師討論之后有很多自己的想法和思考，可能也跟最后的這些問題有一些掛鉤。我本身是做三維視覺的，三維點云的數據量是非常有限的，根本考慮不到大模型這個事情。因為很多時候我們都是要三維借助于二維的大模型，或者是借助語言的大模型去做一些事情。有的時候我也在想到底我們能從這個大模型中benefit到什么。我覺得今天講的 language對我而言其實還挺有啟發的，因為我覺得其實language對于這個場景的描述其實是包含了很多維度的東西，可能現階段大模型更多的還是在研究有什么東西或者是什么東西的層面。也就是 language里面的concept可能影響我們對圖片中concept的形成，但其實language里也會有很多關于為什么或者怎么樣的一些描述，這是和認知推理相關的東西。那么我們可以思考一下，借助 language的信息去從 visual的feature中提取出一些有助于reasoning相關的一些特征，或者來幫助我們結合一些spatial的信息來更好的去預測物體的變化等等。這些可能可以真正能服務到下游的一些機器人視覺或者是機器人交互的一些層面上，對這個問題我還是非常感興趣的。

再有一個就是黃高老師提到的多模態，盧老師剛剛也說要做既有3D又有2D的universal的模型。現在的2D大模型中對于視角的信息做得不好，3D在這個方面有天然的優勢，但是缺少很匹配的文本數據。那是不是在整個交叉的領域里，我們可以搞一個更加universal的model。可能并不是每個領域都必須得有大的數據的支持，因為如果說需要3D的大的數據的支持，那恐怕現在可能只有車廠有雷達數據一類的信息?，F在的深度圖的數據也還是比較小體量的，所以最好是大模型能夠benefit或者help其他的domain，我覺得這個會非常有價值，謝謝。

我覺得未來1~2年視覺基礎模型最有前景發展方向既不是架構設計，也不是模型訓練，而是定義一種更加通用的評價指標?，F在天下苦ImageNet久矣，包括分類、檢測、分割任務的定義，都已經是很久之前提出來的，不能適應現在的需求。那么我們怎么樣定義一個新的指標，讓這些任務都能統一起來，從而更好地往前推進視覺識別的一些本質問題，這是未來發展方向。我今天做的報告，就是希望往這個方向去走，謝謝大家。

RACV2022 | 計算機視覺前沿進展研討會成功召開

RACV2022觀點集錦 | 三維重建和沉浸式渲染

總結

以上是生活随笔為你收集整理的RACV2022观点集锦 | 视觉基础模型的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： idea 断点debug没有勾勾，导致调
下一篇： ML Collections的介绍（一）