日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > MAC >内容正文

MAC

CogVLM:智谱AI 新一代多模态大模型

發(fā)布時間:2023/11/23 MAC 34 博士
生活随笔 收集整理的這篇文章主要介紹了 CogVLM:智谱AI 新一代多模态大模型 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

自5月18日發(fā)布并開源 VisualGLM-6B 以來,智譜AI&清華KEG潛心打磨,致力于開發(fā)更加強大的多模態(tài)大模型。

 

基于對視覺和語言信息之間融合的理解,我們提出了一種新的視覺語言基礎(chǔ)模型 CogVLM。CogVLM 可以在不犧牲任何 NLP 任務性能的情況下,實現(xiàn)視覺語言特征的深度融合。

我們訓練的 CogVLM-17B 是目前多模態(tài)權(quán)威學術(shù)榜單上綜合成績第一的模型,在14個數(shù)據(jù)集上取得了state-of-the-art或者第二名的成績。

我們可以初步體驗 CogVLM 的效果:

在上圖中,CogVLM 能夠準確識別出 4 個房子(3個完整可見,1個只有放大才能看到);作為對比,GPT-4V 僅能識別出其中的 3 個。

為促進多模態(tài)基礎(chǔ)模型領(lǐng)域的研究和工業(yè)應用,我們將 CogVLM-17B 開源出來,且提供了單臺 3090 服務器即可運行的微調(diào)代碼,供大家研究和使用。

Github:https://github.com/THUDM/CogVLM

Huggingface:https://huggingface.co/THUDM/CogVLM

魔搭社區(qū):https://www.modelscope.cn/models/ZhipuAI/CogVLM

Paper:https://github.com/THUDM/CogVLM/blob/main/assets/cogvlm-paper.pdf

一、模型架構(gòu)

CogVLM 之所以能取得效果的提升,最核心的思想是“視覺優(yōu)先”。

之前的多模態(tài)模型通常都是將圖像特征直接對齊到文本特征的輸入空間去,并且圖像特征的編碼器通常規(guī)模較小,這種情況下圖像可以看成是文本的“附庸”,效果自然有限。

而CogVLM在多模態(tài)模型中將視覺理解放在更優(yōu)先的位置,使用5B參數(shù)的視覺編碼器和6B參數(shù)的視覺專家模塊,總共11B參數(shù)建模圖像特征,甚至多于文本的7B參數(shù)量。

CogVLM 的結(jié)構(gòu)如下所示:

模型共包含四個基本組件:ViT 編碼器,MLP 適配器,預訓練大語言模型(GPT-style)和視覺專家模塊。

ViT編碼器:在 CogVLM-17B 中,我們采用預訓練的 EVA2-CLIP-E。

MLP 適配器:MLP 適配器是一個兩層的 MLP(SwiGLU),用于將 ViT 的輸出映射到與詞嵌入的文本特征相同的空間。

預訓練大語言模型:CogVLM 的模型設(shè)計與任何現(xiàn)有的 GPT-style的預訓練大語言模型兼容。具體來說,CogVLM-17B 采用 Vicuna-7B-v1.5 進行進一步訓練;我們也選擇了 GLM 系列模型和 Llama 系列模型做了相應的訓練。

視覺專家模塊:我們在每層添加一個視覺專家模塊,以實現(xiàn)深度的視覺 - 語言特征對齊。具體來說,每層視覺專家模塊由一個 QKV 矩陣和一個 MLP 組成。

模型在15億張圖文對上預訓練了4096個A100*days,并在構(gòu)造的視覺定位(visual grounding)數(shù)據(jù)集上進行二階段預訓練。在對齊階段,CogVLM使用了各類公開的問答對和私有數(shù)據(jù)集進行監(jiān)督微調(diào),使得模型能回答各種不同類型的提問。

二、模型效果

為了更為嚴格地驗證CogVLM的性能和泛化能力,我們在一系列多模態(tài)基準上進行了定量評估。這些基準大致分為三類(共 14 個),包括圖像字幕(Image Captioning)、視覺問答(Visual QA)、視覺定位(Visual Grounding)。

在這些基準當中,CogVLM-17B 在 10 項基準中取得 SOTA性能,而在另外四項(包括 VQAv2, OKVQA, TextVQA, COCO captioning等)取得第二的成績。整體性能超越或匹配谷歌的PaLI-X 55B。

CogVLM 在 10 項評測中取得SOTA效果,4項評測僅次于SOTA。第二張圖為 TDIUC 基準評測效果。

此外,我們可以通過幾個簡單的示例,對比最近比較受關(guān)注的 MiniGPT-4、LLaVA-v1.5,可以看出,CogVLM-17B在圖像理解、模型幻覺以及文本識別方面都具有不錯的效果。

———— 示例 1 ————

GPT-4 vsion中的一個著名例子。目前主流的開源的模型包,括知名的MniGPT-4和最近發(fā)布的 LLAVA 1.5,均不能理解該視覺場景的有趣之處,而CogVLM則精準地說出VGA接口充電不合常理。

———— 示例 2 ————

這張圖片內(nèi)容較為復雜,是日常生活的場景。CogVLM精準地說出來所有的菜肴和餐具的種類,并且判斷出了鏡子(“許多動物甚至不能理解鏡子”)是反射而并非真實,且注意到了角落的人的腿。整個復雜的描述中未出現(xiàn)錯誤與幻覺。相對地,MiniGPT-4和LLaVA-1.5都出現(xiàn)了幻覺現(xiàn)象且不夠全面。

———— 示例 3 ————

帶文字的圖片。CogVLM忠實地描述了場景和相應的文字,而其他模型沒有輸出文字且有大量幻覺。

三、研究者說

問:CogVLM和VisualGLM之間有什么關(guān)聯(lián)和不同?

答:CogVLM延續(xù)了VisualGLM的研究,但進行了較大尺度的改進。首先體現(xiàn)在多模態(tài)融合的技術(shù)上,CogVLM采用了最新的圖像和文本信息融合的方案,在我們文章中已經(jīng)有相關(guān)的說明。其次,VisualGLM 是一個依賴于具體語言模型的多模態(tài)模型,而CogVLM則是一個更廣闊的系列,不僅有基于GLM的雙語模型,也有基于Llama2系列的英文模型。這次開源的 17B 模型就是基于Vicuna-7B 的英文模型。其實我們內(nèi)部也訓練完成了更大的英文模型和基于GLM的雙語模型,后面可能也會開源出來。

問:VisualGLM-6B 模型中視覺相關(guān)的參數(shù)僅為 1.6B,而作為對比,CogVLM-17B 的視覺相關(guān)參數(shù)達到了 11 B(甚至超過了語言模型的 7B 參數(shù))。為什么要采用更大視覺參數(shù)的方式?

答:首先,通過大量的實驗,我們得出一個結(jié)論,即更大的參數(shù)量對視覺多模態(tài)模型很重要。

之前有觀點認為視覺不需要大模型。因為人們在一些傳統(tǒng)的數(shù)據(jù)集(例如ImageNet-1k等)上做的驗證,發(fā)現(xiàn)模型變大對性能的提升似乎并不是很大。但之所以出現(xiàn)這個現(xiàn)象,原因在于傳統(tǒng)數(shù)據(jù)集大部分的測試樣例太簡單了,小的模型足以應對這樣的問題。

然而人類世界中視覺模型需要認識的事物遠遠不止幾千、幾萬類,例如各種品牌商標、名人相貌、地點、動植物品類、商品品類等,小模型不可能記住;同時在這種“開放詞典”的設(shè)定下,由于可能類別增加,出錯的概率也會上升。我們做了一些實驗,發(fā)現(xiàn)對于這些真實場景中的問題,模型變大往往會帶來非常明顯的效果提升。

當然,還有一個原因是,之前的視覺大模型往往都是閉源的,大部分很難真正地體驗模型大小所帶來的性能區(qū)別。也是基于此,雖然 CogVLM在性能上已經(jīng)超過一眾大公司的閉源模型(例如PaLI、PaLM-E、BEiT-3、GIT2等),但我們依然選擇像 VisualGLM一樣,把它開源出來。我們希望能通過開源來進一步地促進多模態(tài)模型在研究和工業(yè)應用方面的發(fā)展。

問:我們在使用圖文理解模型的時候,模型經(jīng)常會給出一些圖片中并沒有包含的信息。請問該如何減少模型的這種幻覺呢?

答:模型有幻覺,根源還是在于模型能力不足。

之前的多模態(tài)模型,無論是MiniGPT-4、VisualGLM-6B還是LLaVA,經(jīng)常會在描述時說一些明顯不存在于圖像中的物體或者錯誤的顏色。本質(zhì)還是模型無法識別某些特別的視覺表示,從而遵循先驗輸出在該場景中的常見物體。

在這方面,我們通過特定的微調(diào),對不確定的物體,模型會輸出“不清楚”,以此來減少幻覺現(xiàn)象,從而提高用戶體驗。當然這并不能徹底消除幻覺,但可以大大降低幻覺出現(xiàn)的頻次。另外一個有效的解決幻覺的方法,就是用更大的參數(shù),以及更多的訓練量。經(jīng)過這兩種方案,CogVLM 的幻覺已經(jīng)降到一個比較低的水平。

問:從CogView、CogVideo到VisualGLM、RDM、CogVLM等,你的工作一直推動圖片理解、視頻理解,圖片生成,視頻生成。你為什么要堅持做多模態(tài)的基座模型呢?

答:無論是現(xiàn)實還是虛擬的界面的感知、交互,主要以視覺等為媒介。現(xiàn)在的大語言模型雖然有智能的涌現(xiàn),但是仍然被關(guān)在“籠子”里,它與這個世界是割裂的。一個完整的智能agent,必然是多模態(tài)的理解。多模態(tài)理解是智能發(fā)展和應用的必由之路。也正是基于同樣的理解,智譜AI,希望能夠在這個方向上趟出一條路來

 

總結(jié)

以上是生活随笔為你收集整理的CogVLM:智谱AI 新一代多模态大模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 狠狠ri | 茄子视频A | 日日爱886| 操人在线观看 | 成人在线观看黄色 | 免费成人深夜夜国外 | 六月婷婷激情 | 综合色小说 | 精品欧美一区二区三区免费观看 | 欧美日韩小视频 | 成年女人18级毛片毛片免费 | 国产精品视频免费观看 | 欧美三级网站在线观看 | 在线免费小电影 | 免费成人深夜夜 | 日韩精品xxxx | 精品亚洲aⅴ无码一区二区三区 | 久久av一区二区三区漫画 | 特大黑人巨交吊性xxxx视频 | 婷婷亚洲综合五月天小说 | 亚洲最大成人av | 成人激情视频在线播放 | 欧美一级淫片免费视频魅影视频 | 欧美特黄一级视频 | 国产亚洲欧美精品久久久久久 | 亚洲二区视频 | av官网| 综合久久网 | 色七七视频 | 国产精品一二三四区 | 欧美一区二区三区成人 | 两个人看的www视频免费完整版 | 亚洲精品v | 97精品超碰一区二区三区 | 亚洲熟妇一区二区三区 | 久久深夜视频 | 亚洲国产日韩a在线播放性色 | 美女无遮挡免费网站 | 在线精品国产 | 国产精品久久久久久久专区 | 告诉我真相俄剧在线观看 | 午夜激情一区二区 | www日本com | 成人免费无码大片a毛片 | 久草福利在线观看 | 人妻丰满熟妇av无码久久洗澡 | 狠狠干男人的天堂 | 特级特黄aaaa免费看 | 不良视频在线观看 | 免费成人蒂法网站 | 免费观看污视频 | 欧美一区二区三区在线观看 | 男人天堂a在线 | 日本暧暧视频 | 欧美极品一区二区 | 人人人超碰 | 性生活一区 | 男女做的视频 | 校霸被c到爽夹震蛋上课高潮 | 激情小说激情视频 | 国产免费av片在线 | 婷婷丁香色 | 黄色片子免费看 | 清冷男神被c的合不拢腿男男 | 96福利视频| 思思久久精品 | 中文字幕码精品视频网站 | 一本久| 国产在线视频福利 | 国产精品815.cc红桃 | 少妇高潮一69aⅹ | 麻豆视频网址 | 亚洲自拍小视频 | 蜜桃视频久久一区免费观看入口 | 喷水了…太爽了高h | 熟妇五十路六十路息与子 | 天天综合天天色 | 欧美午夜视频 | 日韩v| 秋霞福利片| 国产欧美不卡 | www.97色 | 日韩操 | 天堂资源中文 | 综合久久久 | 国产又粗又硬视频 | 性爱动漫 | 五月天国产精品 | 国产精品无码久久久久久电影 | 国产成人精品av久久 | 国精产品一区二区 | 国模私拍视频在线 | 一女二男一黄一片 | 久久最新免费视频 | 美女啪啪免费视频 | 麻豆传媒一区二区 | 91色多多 | 中文字幕乱码中文乱码b站 国产一区二区三区在线观看视频 | 久久久久www |