日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

介绍一个被称为十一边形战士的强大模型

發(fā)布時間:2024/8/1 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 介绍一个被称为十一边形战士的强大模型 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文檔智能(DI, Document Intelligence)主要指對于網(wǎng)頁、數(shù)字文檔或掃描文檔所包含的文本以及豐富的排版格式等信息,通過人工智能技術(shù)進行理解、分類、提取以及信息歸納的過程。文檔智能技術(shù)廣泛應(yīng)用于金融、保險、能源、物流、醫(yī)療等行業(yè),常見的應(yīng)用場景包括財務(wù)報銷單、招聘簡歷、企業(yè)財報、合同文書、動產(chǎn)登記證、法律判決書、物流單據(jù)等多模態(tài)文檔的關(guān)鍵信息抽取、文檔解析、文檔比對等。隨著企業(yè)數(shù)字化、信息化進程不斷加速,這類需求越來越強烈,工業(yè)界急需前沿技術(shù)與易用工具來解決這些問題。百度開源的文心ERNIE-Layout以及自然語言處理開發(fā)工具PaddleNLP來得很及時,強烈安利!

文心ERNIE-Layout

重磅開源

近期,百度文檔智能團隊基于多語言跨模態(tài)布局增強的文檔智能大模型文心ERNIE-Layout,刷新了五類11項文檔智能任務(wù)效果。


▲ 百度文檔智能技術(shù)指標

繼文心ERNIE-Layout1.0后,文心ERNIE-Layout再次登頂DocVQA榜單,并成為榜單首個突破90分大關(guān)技術(shù)方案[1]。同時,基于文心ERNIE-Layout的開放文檔抽取問答模型DocPrompt, 首次以文檔智能模型登頂網(wǎng)頁問答榜單WebSRC[2]

▲ DocVQA、WebSRC榜單

飛槳自然語言處理模型庫PaddleNLP第一時間為大家開源了文檔智能十一邊形戰(zhàn)士系列模型。

文心ERNIE-Layout多語言跨模態(tài)布局增強文檔智能大模型?

文心ERNIE-Layout依托文心ERNIE,基于布局知識增強技術(shù),融合文本、圖像、布局等信息進行聯(lián)合建模,能夠?qū)Χ嗄B(tài)文檔(如文檔圖片、PDF文件、掃描件等)進行深度理解與分析,為各類上層應(yīng)用提供SOTA模型底座。

  • 前往GitHub獲取詳情:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout

歡迎STAR收藏,跟蹤最新開源工作

DocPrompt開放文檔抽取問答模型(基于ERNIE-Layout)

文檔智能技術(shù)廣泛應(yīng)用于金融、保險、能源、物流、醫(yī)療等行業(yè),常見的應(yīng)用場景包括各類多模態(tài)文檔的關(guān)鍵信息抽取、文檔解析、文檔比對等。基于前沿的文檔智能技術(shù),PaddleNLP正持續(xù)開源一系列產(chǎn)業(yè)實踐范例,解決開發(fā)者們實際應(yīng)用難題。

  • 前往GitHub獲取詳情:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/document_intelligence

本次重磅開源的DocPrompt開放文檔抽取問答模型,以文心ERNIE-Layout為底座,可精準理解圖文信息,推理學(xué)習(xí)附加知識,準確捕捉圖片、PDF等多模態(tài)文檔中的每個細節(jié)。通過PaddleNLP Taskflow,僅用三行Python代碼即可快速體驗DocPrompt功能。

from?paddlenlp?import?Taskflow docprompt?=?Taskflow("document_intelligence",?model='docprompt') docprompt({"doc":?"./invoice.jpg",?"prompts":?["發(fā)票金額",?"左側(cè)抬頭日期是什么?"]})

DocPrompt零樣本問答效果非常強悍!能夠推理學(xué)習(xí)空間位置語義,準確捕捉跨模態(tài)文檔信息,輕松應(yīng)對各類復(fù)雜文檔。

▲ 可支持空間位置語義理解

▲ 可準確捕捉圖文混排多模態(tài)語義

針對網(wǎng)頁、表格和試卷等復(fù)雜布局文檔,DocPrompt也能結(jié)合上下文及表頭信息,給出精準答案。

▲ 網(wǎng)頁理解優(yōu)于半結(jié)構(gòu)化抽取方案

▲ 支持多維度無框線表格問答

▲ 試卷解析問答

以文心ERNIE-Layout為底座的DocPrompt,還具備跨語言多語種的抽取亮點!

▲ 支持10+語種的多語言提問

推薦大家訪問Huggingface 文心ERNIE-Layout空間,快速體驗DocPrompt帶來的驚喜!

https://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout

▲ Huggingface 文心ERNIE-Layout空間

直播課預(yù)告

10月25日,文心ERNIE-Layout論文作者,百度高工將帶來直播講解,介紹文檔智能的前沿技術(shù),深度解讀多語言跨模態(tài)布局增強文檔智能大模型文心ERNIE-Layout與開放文檔抽取問答模型DocPrompt,并帶來基于PaddleNLP的實踐范例。歡迎掃碼入群,獲取直播課程鏈接。入群還有更多福利:

  • 與百度飛槳官方技術(shù)團隊深度交流

  • 官方團隊整理的10GB NLP學(xué)習(xí)大禮包

  • TextMind智能文檔分析平臺合作咨詢

核心技術(shù)方案

文心ERNIE-Layout以文心ERNIE為底座,融合文本、圖像、布局等信息進行跨模態(tài)聯(lián)合建模,創(chuàng)新性引入布局知識增強,提出閱讀順序預(yù)測、細粒度圖文匹配等自監(jiān)督預(yù)訓(xùn)練任務(wù),升級空間解耦注意力機制。輸入基于VIMER-StrucTexT大模型[3]提供的OCR結(jié)果,在各數(shù)據(jù)集上效果取得大幅度提升,相關(guān)工作已被EMNLP 2022 Findings 會議收錄[4]。

▲ 文心ERNIE-Layout 技術(shù)框架

文心ERNIE-mmLayout為進一步探索不同粒度元素關(guān)系對文檔理解的價值,在文心ERNIE-Layout的基礎(chǔ)上引入基于GNN的多粒度、多模態(tài)Transformer層,實現(xiàn)文檔圖聚合(Document Graph Aggregation)表示。最終,在多個信息抽取任務(wù)上以更少的模型參數(shù)量超過SOTA成績,相關(guān)論文被ACM MM 2022會議收錄[5]

▲ 文心ERNIE-mmLayout 技術(shù)框架

文檔智能技術(shù)體系

與應(yīng)用平臺

文檔智能(DI, Document Intelligence)主要指對于網(wǎng)頁、數(shù)字文檔或掃描文檔所包含的文本以及豐富的排版格式等信息,通過人工智能技術(shù)進行理解、分類、提取以及信息歸納的過程[6]。百度文檔智能技術(shù)體系立足于強大的NLP與OCR技術(shù)積累,以多語言跨模態(tài)布局增強文檔智能大模型文心ERNIE-Layout為核心底座,結(jié)合圖神經(jīng)網(wǎng)絡(luò)技術(shù),支撐文檔布局分析、抽取問答、表格理解、語義表示多個核心模塊,滿足上層應(yīng)用各類文檔智能分析功能需求。

▲ 文檔智能技術(shù)體系

百度TextMind智能文檔分析平臺[7]可提供包括文檔信息抽取、文本內(nèi)容審查、企業(yè)文檔管理、文檔格式解析、文檔內(nèi)容比對等全方位一站式的文檔智能服務(wù),已形成一套完整的企業(yè)文檔場景化解決方案,滿足銀行、券商、法律、能源、傳媒、通信、物流等不同行業(yè)和場景的文檔處理需求,以AI助力企業(yè)的辦公智能化升級和數(shù)字化轉(zhuǎn)型。

開源地址

https://github.com/PaddlePaddle/PaddleNLP

【更多精彩直播推薦】

*本文封面圖背景由文心ERNIE-ViLG大模型生成,歡迎點擊參考鏈接[8],體驗更多百度AI開放能力。

參考鏈接

[1]DocVQA榜單

https://rrc.cvc.uab.es/?ch=17&com=evaluation&task=1?

[2]網(wǎng)頁問答榜單WebSRC

https://x-lance.github.io/WebSRC/index.html

[3]VIMER-StrucTexT

https://github.com/PaddlePaddle/VIMER#structext

[4]文心ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-trainingfor Document Understanding?

https://arxiv.org/abs/2210.06155

[5]文心ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding

https://arxiv.org/abs/2209.08569

[6]崔磊,徐毅恒,呂騰超,韋福如. 文檔智能: 數(shù)據(jù)集、模型和應(yīng)用[J]. 中文信息學(xué)報, 2022, 36(6): 1-19.

[7]百度AI開放平臺——智能文檔分析平臺

https://ai.baidu.com/tech/nlp/Textanalysis

[8]文心ERNIE-ViLG

https://wenxin.baidu.com/moduleApi/ernieVilg

總結(jié)

以上是生活随笔為你收集整理的介绍一个被称为十一边形战士的强大模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。