日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

多模态中的Prompt范式:从CLIP、CoOp到CLIP-adapter

發(fā)布時(shí)間:2024/10/8 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 多模态中的Prompt范式:从CLIP、CoOp到CLIP-adapter 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?作者 |?吉雅太

單位?|?清華大學(xué)

研究方向?|?多模態(tài)研究

CLIP

最近 NLP 中第四范式 prompt 比較火,就是不再是生硬地從預(yù)訓(xùn)練直接過(guò)渡到微調(diào)任務(wù),而是用 prompt(提示)的方式,把微調(diào)任務(wù)做一個(gè)轉(zhuǎn)換,接近預(yù)訓(xùn)練任務(wù)。比如用 MLM 預(yù)訓(xùn)練一個(gè)語(yǔ)言模型,后續(xù)要做一個(gè)文本情感分類,不再是提取出全句的表征后做分類,而是在這段文本后面加一個(gè) prompt(提示),比如說(shuō) it is __,然后要補(bǔ)全空缺,相當(dāng)于還是 MLM。看著很麻煩,但在預(yù)訓(xùn)練數(shù)據(jù)充足、微調(diào)數(shù)據(jù)不足情況下,是比較有效的。

多模態(tài)作為一個(gè)大雜燴的領(lǐng)域,NLP、CV 中的創(chuàng)新都可以用進(jìn)來(lái),所以多模態(tài)的 prompt 文章就也出現(xiàn)了。本文先介紹 clip: Learning Transferable Visual Models From Natural Language Supervision。

論文標(biāo)題:

Learning Transferable Visual Models From Natural Language Supervision

論文鏈接:

https://arxiv.org/pdf/2103.00020.pdf

代碼鏈接:

https://github.com/OpenAI/CLIP

作者先指明 motivation,現(xiàn)在的視覺(jué)模型只能在預(yù)定義好的物體類別范圍內(nèi)進(jìn)行預(yù)測(cè),而在推理時(shí)遇到未標(biāo)注過(guò)的數(shù)據(jù),泛化性能較弱。而從帶有描述的圖片進(jìn)行訓(xùn)練可以讓模型有更廣泛的監(jiān)督,從而在下游的小樣本學(xué)習(xí)、零樣本學(xué)習(xí)中獲得好的表現(xiàn)。作者提出 CLIP:Contrastive Language-Image Pre-training。通過(guò)對(duì)比學(xué)習(xí)用文本監(jiān)督圖片表征,在零樣本學(xué)習(xí)上的表現(xiàn)可以與有監(jiān)督的模型相媲美。

1.1 具體方法

將語(yǔ)言作為監(jiān)督信息訓(xùn)練圖片的表征,與用于圖像分類的眾包生成標(biāo)簽相比,擴(kuò)展自然語(yǔ)言監(jiān)督要容易得多,可以方便從互聯(lián)網(wǎng)上的大量文本中學(xué)習(xí)。從自然語(yǔ)言中學(xué)習(xí)還有一個(gè)重要的優(yōu)勢(shì),因?yàn)樗粌H學(xué)習(xí)表征,而且還將表征與語(yǔ)言連接起來(lái),從而實(shí)現(xiàn)靈活的零樣本遷移。

創(chuàng)建一個(gè)有效的大數(shù)據(jù)集,結(jié)合 MSCOCO、VG、YFCC100M,清理,生成大量圖片-文本對(duì),并從網(wǎng)上也抓取了大量數(shù)據(jù),生成一個(gè)數(shù)據(jù)集 webimagetext。

預(yù)訓(xùn)練方法的選擇:先使用一種類似 image caption 的預(yù)訓(xùn)練任務(wù),如藍(lán)線,學(xué)習(xí)效率很低,達(dá)到同樣精度要使用很多圖片數(shù)據(jù)。黃線是基本的訓(xùn)練方法,即預(yù)測(cè)圖片的描述文本的單詞。這兩種方法試圖預(yù)測(cè)每幅圖片所附文字的準(zhǔn)確單詞,但由于種類繁多,這么做是很困難的。而對(duì)比學(xué)習(xí)能較好地學(xué)習(xí)表征,以文本整體和圖片的配對(duì)作為一個(gè)目標(biāo),進(jìn)一步提高了效率。

對(duì)比學(xué)習(xí):一個(gè) batch 有 N 個(gè)圖片文本對(duì),計(jì)算相似度矩陣,對(duì)角線上的 N 對(duì)為正樣本,另外 對(duì)為負(fù)樣本。最大化正樣本相似度,最小化負(fù)樣本相似度,使用一個(gè)對(duì)稱交叉熵?fù)p失優(yōu)化。

▲ 偽代碼,值得注意的是在計(jì)算交叉熵時(shí)傳入的是 label 數(shù)值,在函數(shù)里變成 one-hot 向量

模型選擇和訓(xùn)練:圖像編碼器使用了兩種:resnet(用帶有注意力的池化得到整張圖的全局表征),ViT。文本編碼器使用 transformer,在文本編碼器中使用了掩蔽自我注意,以保留使用預(yù)訓(xùn)練的語(yǔ)言模型進(jìn)行初始化的能力。

在零樣本學(xué)習(xí)中,以分類任務(wù)為例,使用 prompt 的方法,將分類任務(wù)轉(zhuǎn)換為圖片、文本的匹配問(wèn)題。即將標(biāo)簽單詞和提示語(yǔ)構(gòu)成候選句子,再把圖片編碼成特征向量,分別計(jì)算相似度,找到可能性最高的類別。

1.2 實(shí)驗(yàn)

實(shí)驗(yàn)先和其他的零樣本學(xué)習(xí)模型對(duì)比,在 Visual N-Grams 相比,CLIP 在三個(gè)圖片分類數(shù)據(jù)集上的準(zhǔn)確率都有很大提升。

作者用實(shí)驗(yàn)證明 prompt 的必要性,一個(gè)詞經(jīng)常會(huì)具有多義性,而將詞帶入到特定的上下文提示語(yǔ)中,就可以有更清晰的意義,有助于分類。另一方面可以減小和預(yù)訓(xùn)練任務(wù)之間的 gap。實(shí)驗(yàn)證明使用 prompt 要更有效。

▲ 藍(lán)線是在(微調(diào)和)測(cè)試時(shí)只使用 label 的文本,綠線是使用了 prompt 和 ensemble,prompt 即給 label 加一段提示語(yǔ),ensemble 指同時(shí)用多個(gè)不同的上下文 prompt 語(yǔ)句,對(duì)于一個(gè) label 生成多個(gè)句子 embedding 再集成

▲ 在 27 個(gè)分類數(shù)據(jù)集上零樣本學(xué)習(xí) clip 與全監(jiān)督訓(xùn)練的 resnet50 效果對(duì)比

實(shí)驗(yàn)部分這些是比較好懂的,arxiv上原文光實(shí)驗(yàn)部分就有大概二十頁(yè),不過(guò) dblp 上有簡(jiǎn)約版的。


CoOp

模型 CoOp,主要的思想是自動(dòng)設(shè)計(jì)提示文本,先保持預(yù)訓(xùn)練參數(shù)不變,然后利用少量數(shù)據(jù)去學(xué)習(xí)合適的 prompt,這樣的 prompt 比人工設(shè)計(jì)的提示文本在測(cè)試時(shí)更有效。值得注意的是,學(xué)習(xí)合適的 prompt,只是學(xué)到適合這個(gè)任務(wù)的一組詞向量,并不一定是找到了一組真實(shí)的詞(意思是說(shuō)學(xué)到的詞向量可能映射到亂七八糟的詞上去,但就是這些詞最適合做這個(gè)任務(wù)的提示語(yǔ),這和語(yǔ)義空間的連續(xù)性有關(guān))。

論文標(biāo)題:

Learning to Prompt for Vision-Language Models

論文鏈接:

https://arxiv.org/pdf/2109.01134.pdf

代碼鏈接:

https://github.com/KaiyangZhou/CoOp

作者的 motivation 在于觀察到 prompt 的選擇對(duì)測(cè)試結(jié)果影響很大。

2.1 主要方法

預(yù)訓(xùn)練過(guò)程和 CLIP 相同,也是使用對(duì)比學(xué)習(xí)。CLIP 在預(yù)訓(xùn)練之后,會(huì)直接進(jìn)行 zero-shot inference(零樣本推理),使用 prompt 的方法,把 K 個(gè) label 分別結(jié)合到提示語(yǔ)句,然后得到對(duì)應(yīng)的 K 個(gè)表征,分別和圖像計(jì)算相似度。

本文的方法 CoOp(context optimization),可以避免人為地設(shè)計(jì)提示語(yǔ),把輸入 prompt 設(shè)計(jì)成如下格式:

其中 是隨機(jī)初始化的詞向量,也是 512 維。注意這里上下文詞向量對(duì)于不同類別是共享的。在訓(xùn)練階段,把 t 前向傳播,和圖像特征計(jì)算相似度,計(jì)算出對(duì)應(yīng)每一類的概率 ,再用交叉熵優(yōu)化,學(xué)到合適的 (這個(gè)上下文提示是 task-relevant)。

prompt 有一些其他的變種,一種是改變 CLASS 的位置,把 [CLASS] 放在句子中間,這樣可以學(xué)習(xí)到更靈活的上下文;另一種是每種 CLASS 學(xué)習(xí)一組上下文提示語(yǔ)句,即不同類別對(duì)應(yīng)的語(yǔ)句不同,作者發(fā)現(xiàn)這樣的方法對(duì)一些細(xì)粒度的分類很有效。

2.2 實(shí)驗(yàn)

使用 11 個(gè)分類數(shù)據(jù)集做小樣本學(xué)習(xí),涉及到的分類有物體、動(dòng)作、場(chǎng)景等。

▲ 圖中的星點(diǎn)是 zero-shot clip,即 clip 直接推理的結(jié)果,對(duì)于實(shí)線,M 是? prompt 長(zhǎng)度,end、mid 表示 CLASS 位置,CSC 表示 class-specific 的提示,虛線是 clip 也做了微調(diào),用一個(gè)隨機(jī)初始化的線性層計(jì)算相似度(?不知道這里 linear probe 啥意思),橫坐標(biāo)是訓(xùn)練的每類小樣本數(shù)目

從平均結(jié)果看,coop 在小樣本學(xué)習(xí)中效果更好,并且當(dāng)增加用 16 個(gè)樣本訓(xùn)練時(shí),準(zhǔn)確率可以提高 17 個(gè)點(diǎn)。

對(duì)于數(shù)據(jù)分布變化的魯棒性,如表 1,target 數(shù)據(jù)集是一些 imagenet 數(shù)據(jù)集變體,在 source 上做小樣本訓(xùn)練,在 target 測(cè)試,發(fā)現(xiàn) M 越小魯棒性、泛化性能越好。表 2 表示 coop 比 clip 里 prompt ensemble 效果還要好。表 3 對(duì)比了隨機(jī)初始化和人為設(shè)定 prompt 兩種情況直接測(cè)試的準(zhǔn)確率,表明即便隨機(jī)初始化一個(gè) prompt,測(cè)試效果與人為設(shè)定也差不多,當(dāng)然,如果再使用小樣本微調(diào)一下隨機(jī)的 prompt,效果就更好了。

上圖,左邊是 prompt 長(zhǎng)度 M 和 class 位置的消融實(shí)驗(yàn);右邊是不同視覺(jué) backbone 的影響。

下表就是把學(xué)到的詞向量通過(guò)歐氏距離找到的詞表中最近的詞,可以看到可解釋性很差,但對(duì)于模型來(lái)說(shuō)就是有效。這就是“隱式學(xué)習(xí)”吧,不知道模型學(xué)了個(gè)啥。

2.3?總結(jié)

雖然效果上看 coop 使用自動(dòng)生成 prompt 要好過(guò) clip,但一個(gè)主要的區(qū)別在于 coop 也需要少量的數(shù)據(jù)學(xué)習(xí) prompt,即少樣本學(xué)習(xí),而 clip 由于直接使用人為設(shè)計(jì)的提示語(yǔ)句,可以進(jìn)行零樣本學(xué)習(xí)(不過(guò)實(shí)驗(yàn)部分也看到 coop 直接用隨機(jī)的 prompt 也能做零樣本學(xué)習(xí),就是差點(diǎn))。


CLIP-adapter

CLIP 和 COOP 分別在今年 3 月份、9 月份掛載 arxiv 上,十月份又掛了一篇:CLIP-adapter。coop 和?CLIP-adapter?都是在 clip 基礎(chǔ)上增量式的工作,clip 使用一個(gè)人為設(shè)定好的 prompt 直接進(jìn)行零樣本推理,而?coop 和?CLIP-adapter 都是使用小樣本學(xué)習(xí),coop 是初始化一個(gè)隨機(jī)的 prompt,在小樣本中學(xué)習(xí)合適的 prompt,從而更適應(yīng)這個(gè)任務(wù);adapter 是在模型中間插入一個(gè)隨機(jī)的可學(xué)習(xí)的模塊,通過(guò)更新這個(gè)模塊來(lái)更適應(yīng)下游任務(wù)。

論文標(biāo)題:

CLIP-Adapter: Better Vision-Language Models with Feature Adapters

論文鏈接:

https://arxiv.org/abs/2110.04544

代碼鏈接:

https://github.com/gaopengcuhk/clip-adapter

3.1 模型

最下面就是 adapter 的結(jié)構(gòu),在小樣本學(xué)習(xí)時(shí),在兩個(gè)分支上各加入一個(gè)可學(xué)習(xí)的層。小樣本訓(xùn)練時(shí),其他部分凍結(jié)參數(shù)(如果更新整個(gè)大模型,由于數(shù)據(jù)太少很容易過(guò)擬合)。并且為了更好地結(jié)合微調(diào)的知識(shí)和原始的知識(shí),又加入一個(gè)殘差連接結(jié)構(gòu),見(jiàn)圖。

3.2 實(shí)驗(yàn)

在?11 個(gè)數(shù)據(jù)集上進(jìn)行小樣本學(xué)習(xí),可以看到 clip?零樣本推理的結(jié)果,clip?小樣本微調(diào)的結(jié)果,coop?小樣本學(xué)習(xí)的結(jié)果,adapter?小樣本學(xué)習(xí)的結(jié)果。

從左上角平均結(jié)果的圖可以看出,adpater 小樣本學(xué)習(xí)的效果最好。對(duì)于 clip,小樣本學(xué)習(xí)的初始階段甚至弱于零樣本學(xué)習(xí),所以人為設(shè)定的 prompt 只是我們看上去合理的提示語(yǔ)句,對(duì)于模型來(lái)說(shuō)可能并不是一個(gè)好的初始化。

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

📝?稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的多模态中的Prompt范式:从CLIP、CoOp到CLIP-adapter的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。