天壤联合创始人韩定一:大模型+小样本数据,AI驱动金融数字化转型新范式|量子位·视点分享回顾...
視點 發自 凹非寺
量子位 | 公眾號 QbitAI
后疫情時代,現實世界企業面臨更多復雜、非線性的變化,數字化、自動化成為企業提高戰略競爭力的關鍵因素。
特別是業務規模巨大的金融機構,如何借助AI、大數據、自動化等技術工具構建數字化、精準化的營銷體系?如何通過更好地調度AI模型實現金融機構的決策智能,降低業務成本?
正是基于“復雜”而生的大模型,已成為機器智能學習的基礎。
“算法、數據、算力”三者協同,面對億級規模的金融復雜、碎片化場景,大模型只要經過少量微調即可滿足學習任務,AI能力一鍵即用,高效實現金融業務的數智化。
關于金融數字化領域,如何利用大模型和小樣本數據解決一些實際業務場景的問題,天壤聯合創始人韓定一在「量子位·視點」直播中分享了他的從業經驗和觀點。
以下根據分享內容進行整理:
金融數字化面臨的挑戰和趨勢
金融數字化的場景其實大家日常生活中經常遇到,例如銀行ATM機刷臉取款、手機銀行人臉識別核驗身份、疫情期間網點使用紅外技術檢測體溫等,還有通過手機APP直接來識別身份證、銀行卡,不必再手動輸入相應字段信息等各種場景。
金融機構應用AI一方面是為了合規,通過驗證身份來驗證每筆交易的真實性,另一方面是用機器代替了人工識別,既提升了效率,也降低了人為因素可能導致的錯誤率。
可以預見,AI技術是金融機構未來大幅提升效率、快速辦理業務的基礎。這樣的場景還有更多,例如銀行內部各種審核流程、單證流轉,傳統銀行業務用紙質完成,現在用數字世界的識別能力將它們電子化。比如銀行業務中涉及到的手寫簽名比對、密碼驗證、識別筆跡、印章的真偽性,以及系統將手寫單據錄入至系統中再將其作為指令發送出去,包括一些線下網點提供的遠程機器人業務辦理服務,背后涉及多個銀行業務系統的多套單元操作。今天的AI技術已經可以做到幾乎代替人工自動化地去完成單個的步驟和復雜的流程操作。
這些場景對AI能力要求越來越高。那么在金融這樣特殊的業務場景下,有哪些相較于一般應用場景的特殊需求?
首先,金融機構嚴格的監管以及數據的私有化決定了數據獲取成本很高,考驗AI能否用更少的數據解決同樣的問題;第二,基于少量數據樣本訓練的AI模型是否能達到非常高的準確率去很好地解決業務問題;第三,業務場景非常多,例如銀行、保險、證券等場景涉及不同業務規則、流程操作,金融機構往往希望模型快速上線,一年內開發100個流程應用涉及到的模型可能有1000多個,這些挑戰決定了需要不同AI模型和應用的組合能力來解決復雜業務問題。
能不能讓模型生產變成流水線?其實就是“大模型+小數據”最典型的場景。
接下來,我們回顧一下AI技術的發展趨勢。
1997年5月份,IBM的深藍電腦以3.5:2.5擊敗了當時的國際象棋世界冠軍卡斯巴羅夫。2016年,AlphaGO以4:1擊敗李世石,又是引起一陣軒然大波。跨越了將近20年的時間,AI雖然得到了長足的發展,但是應用也僅僅是剛剛開始。其中背后的技術到底發展了多少?
象棋和圍棋這兩個問題其實本身都比較難:國際象棋的棋盤有8x8個格子,圍棋有19x19個格子。從這個角度來說,圍棋比國際象棋要難很多。數學家大致推算,像國際象棋這樣的棋盤大概有10的47次方種可能性,而圍棋有10的170次方。這個數字大到雖然看上去有限,卻沒有辦法完全計算——物理學家估算整個宇宙中的原子數量是10的80次方,就算所有原子都參與計算,仍然有10的90次方的可能性需要靠時間來完成。
AI圍棋又是如何擊敗世界冠軍?當年在國際象棋中,AI使用的是搜索的方法:將圍棋的棋盤狀態和接下來可能發生的變化一一枚舉,然后判斷哪種情況結果更好。這樣的AI模型算法簡單,但是規模非常大,工程難度高,實現這樣的模型只需要現在計算機系大三學生的水平就足夠。IBM為了支持這樣的程序,專門研制了VLSI象棋芯片,每顆芯片每秒進行11.38億次浮點計算,意味著每秒可以計算2億步棋,對應到國際象棋棋盤中就是能夠估算當前棋面12步后的棋盤變化,而最厲害的人類國際象棋棋手大概只能估算到10步以內的局面變化。
但這個方法解決不了圍棋的問題。在AlphaGO出現前,2013、2014年時候,市面上最厲害的圍棋AI也就只能做到圍棋業余五段或專業三段、四段的水平。
AlphaGO的出現改變了計算的框架,采用了基于蒙特卡洛的數字搜索,同時提出了兩大神經網絡:是估值網絡和走棋網絡。所謂估值,是用來判斷棋譜局面的情況;走棋網絡是根據當前棋盤的情況判斷如何走棋,然后再用估值網絡評估走哪步棋的勝率是多少。這兩個網絡都需要事先訓練,通過自我博弈生成幾十億盤九段的棋譜,再通過總結這些棋譜提高估值網絡的精準度。
AlphaGO在實現這個模型時只使用了48顆TPU芯片,但實際計算力是8640 tera flops比之前的480顆VLSI芯片還要高8萬倍。預訓練得到的大模型,其中估值網絡和走棋網絡都被訓練得非常優秀,判斷力比專業九段棋手還要高。
過去的20年中,其一計算算力得到了極大的提升,其二所需要的芯片數量大幅降低,意味著耗電減少,其三是現在的模型可以離線訓練,用大量的數據支持它做到對棋面的判斷。基于此實現了人類國際象棋AI到圍棋AI的突破,也支持了后續自然語言處理、圖像識別等領域的進展。
這里列出了自然語言大模型的發展。2018年谷歌提出Bert模型,其中有3.4億的參數是通過13GB的文本數據訓練得到的。以前做自然語言的分類或是圖像實體的識別問題,需要成千上萬標注的文本和feature,再通過得到一個適用于之前標注的一萬多樣本的模型。但當有了Bert這樣的模型支撐,只需要100個對應topic的標注文件,模型就能快速適應問題,不再需要大量的數據。
2019年,出現GPT-2模型,參數量比Bert多五倍,達到15億,這里訓練數據又多了三倍,達到40GB。到了2020年,自然語言又有了大發展,提出了GPT-3模型,含有1750億個參數,數量多了100倍,訓練數據翻了1000倍到45TB。當再使用這些模型去解傳統的自然語言問題時,使用非常少的數據模型就能夠快速適應到問題所對應的具體場景。
這里列的是2021年的三個模型都是在圖像領域ImageNet公開、公認的標準數據集上面做圖像分類的準確率,參數量都是幾十億的規模,訓練數據也需要上億,訓練耗時、所需要的硬件資源都非常充足。將這樣的大模型運用到新的具體應用場景完成圖像分類或是物體檢測的問題,只需要小規模的樣本,也能快速得到好結果。
這就是“大模型”和“小樣本”的含義。
有了“大模型+小樣本”的解法思路后,我們再去做機器學習模型會是什么樣?
首先,標注少量訓練數據,形成一個小數據樣本,然后從我們的模型庫選擇一個合適的大模型,在大模型的基礎上使用小數據樣本進行訓練,再標注少量生產數據用于評測。評測后調整好模型中的問題再進行改進。比起傳統機器學習模型,節約了大量數據標注和模型訓練的時間。
但仍存在兩個難點:其一是很難找到可以用于改進的訓練數據,比如剛剛提到的金融機構很多數據有嚴格的訪問流程,且種類繁多,未必是所需數據;其二是大模型對于計算資源的要求較高,需要幾十上百的TPU來實現,具體的業務場景中未必存在這么多計算資源,所以大模型經過訓練后,還需要進行壓縮,只需要一塊甚至不到一塊的TPU或GPU就能實現。
算力的快速發展幫助了AI的快速普及,同時“大模型+小數據”的思路提升了模型的生產效率和效果,經過針對性調整后就能夠推廣至金融業務流程中的各個方面。
OCR訓練平臺高效連接物理世界和數字世界
金融領域中各種銀行卡、身份證的數字化大家早已經習以為常,這些數據對應的模型相對簡單。但涉及到各種進賬單、財報更復雜的證件或是國際結算單里面的提單,這一類模型要復雜和難很多,這是金融機構嘗試做數字化的主要項目內容。
這里列了一個比較完整版本的模型需求,包含各類證件照、銀行票證、企業票證以及各類財務報表、醫療票據等。這些文本不僅種類繁多,版式各異,甚至還有不同語言。上百種不同專業領域里面的各種單證,對應每一家金融機構具體場景的真實的業務數據,這樣的場景就比較適合用大模型和小訓練數據的方式去精調。
回顧數字化標準的三個痛點:一是模型參數多,需要非常多的訓練數據,可以通過預訓練大模型加小規模的數據去降低模型訓練對數據的要求;二是數據的標注成本非常高,每人每天標300張已經是極限,每次使用10000張圖片去訓練相應的模型需要三個人按照極限標準標注數據,對于上億個參數的大模型來說往往需要百萬或者千萬張這樣的圖片;三是模型實施周期非常短,不能以半年一年來計算,而要按照周、天來完成模型。
幾百個場景對應幾百個需求,對我們整個的模型生產和管理提出了詳細的架構上的要求。底層要管理足夠多的CPU、GPU甚至TPU的資源,上層要管理好各種問題的數據集,還需要有模型訓練的基礎組件、足夠多的大模型積累。基于這樣的框架再去管理模型的訓練和調優、評估及評估后的標準發布,再跟金融機構的各種業務進行鏈條整合,確保整個流程是非常順暢、自動、高效地運轉。
基于大模型、小數據訓練的AI能力調用
接下來具體看一下基于大模型和小數據,AI是如何訓練和生產的。
拿票證數字化的場景舉例,一張紙質的票證標準數字化的過程是:首先通過手機或者高分拍照儀把它變成圖像,轉化為數字化基礎的多媒體文件;在此基礎上,判斷圖像對應到之前我們表中的不同類型,再使用OCR的方法將需要的信息轉化為不同的字段、數字,通過語義識別判斷整個文檔中字段的關系,這其實是多任務的學習過程。
對應到大模型中,所需要調用的圖像類模型功能有旋轉方向、ROI檢測、文本區域檢測和文字識別,將文本區域內的信息轉化為具體的字符。文本類模型的功能包括實體識別和對應關系的抽取。
將不同功能的大模型組合去解決具體任務,需要看大模型在具體任務的每個步驟是否有足夠高的精度、是否需要做精調以及更多標注數據用于評測等,再看整體的效果是否會得到提升。
再舉一個具體步驟的例子,比如營業執照識別分為橫版和豎版,具體應用時,第一批拿到的數據可能全部都是豎版、沒有橫版。我們當時使用16張豎版數據訓練得到的模型,應用到橫版的數據集中,準確率只有76%,f1 score precision和recall這些綜合指標都不太理想。在補充標注了一些橫版的數據集后,只需要5張就能夠提升準確率到95.5%。
另外一個例子:進出口的發票的關鍵信息提取。對于這樣的票證,難點在于每一家國際企業公司的發票版式都不太一樣,客戶名字、數量、單價、總價可能都在不同位置去識別實體會比較困難。傳統的做法是要找大量的數據去做標注,基于大模型放幾張完全不同版式的發票給少量的標注,就可以快速提取關鍵信息。
例子左上角是客戶的名字和地址,表格中標明了具體的什么貨物、多少錢以及總價。模型通過實體抽取就可以將其變成單個字段,抽取具體的“值”。這張INVOICE里包含一些邏輯關系的表格的,這個關系也需要用大模型加小數據做訓練來提取。
另外一個發票的例子中,表格中嵌套著表格,每一行是每一類貨物的類別,這一類貨物里面還有細分表格項。這些場景都需要我們用大量預訓練模型加小規模的、精調的樣本數據。
回過來再看在票證數字化整個訓練流程,“大模型+小數據”到底如何改進了過程?
傳統的票證數字化的訓練的流程是:先收集數據,再做標注數據,模型訓練,模型評估,到模型發布。模型通常從0%的準確率開始,一步步迭代,先提升到50%,再逐步提升到70%、80%。
而有了預訓練大模型,直接從80%的準確率開始訓練,再迭代一次就可以做到90%。對于標注數據,每人每小時標30條數據,成本非常高,通過使用小樣本數據,可以使用非常少量的數據標注,讓整個模型訓練的過程更高效。當模型90%的準確率需要提升到95%時,會比較難,要靠數據生成的方法去解決數據樣本稀缺的問題。
這個方法在開場介紹圍棋的時候提到,AlphaGO模型訓練用了幾十億盤九段棋譜,中日韓三個棋院歷史上所有有記載的九段棋譜也就四五十萬盤,要達到上億的數據其實是靠機器跟機器自己下棋來解決很多數據稀缺的問題。
天壤借助數據生成的方法快速地迭代、提升模型精調效果。九張我們機器生成的銀行票據,模擬了各種效果的數據,比如字體偏移、復印效果帶噪點、拍照時閃光過曝、紙張折疊、透視的效果或者打印機漏幀的現象,都可以通過圖像處理的方法去模擬和精調,通常會得到很好的效果。
基于這樣的技術,用上億數據、極大算力的大模型,通過時間把它預訓練好,再結合具體問題的小數據,實現一個快速迭代的AI應用的場景就走通了。借助數據增強、圖像生成的方法去補充一些機器快速標注的數據,一天時間就可以得到上百萬上千萬的類似數據,可以快速地把具有上億、幾十億參數的神經網絡的精度調得非常高,。
AI+金融,數據驅動業務轉型和升級
再和大家分享一些我們實際做的案例。
第一個場景,是某銀行的確權審批流程。網上業務流程開展涉及以下幾個步驟:
檢測辦理業務的人和原來指定的人是否和銀行記錄的是同一個人、業務申請的簽名和原來留在銀行的簽名是否是同一個人、公司辦業務蓋的公章和原來留在銀行的公章是不是同一個。當三要素都匹配的時候,流程審核通過。
原來銀行業務花大量時間人工審核,幾分鐘才能審核一筆,現在結合各種AI能力和整個流程的自動化,可以非常快速地審核,基本上可以做到秒批,準確率也非常高,每一筆審核都不會漏檢。
疫情期間,銀行財務人員的UKey放在企業辦公室,但人被封在了自己家小區出不去,這時候銀行開始開通視頻授權進行打款業務,解決了大家的燃眉之急,背后都靠AI技術來提升整個流程效率和準確率。
第二個場景發生在國際結算部門,比如國內某公司向國外某公司發貨,對方未收到貨時不會打款,但對公司來說資金周轉非常重要,因此能否有裝箱單或者發貨單作為憑證,當打款風險很小的時候,銀行進行貸款支持。
銀行業務中原本的單證審核依賴人工效率非常低。天壤利用小規模的數據去快速訓練模型,再結合NLP的預訓練模型小數據樣本的調整,用一個模型快速識別3000種不同的表單,準確率超過95%,減少了90%以上人力工作。
第三個場景是在銀行風控部門。風控部門涉及各種業務審核,最大訴求是希望使用模型來解決上百類復雜單證的識別問題,基于大模型和小數據訓練我們可以快速地產出對應的上百種模型。幾天產出一個AI模型,30天產出10個符合要求的模型,100個模型也只需要半年到一年的時間就可以完成,且準確率都非常高,極大地提高了整個風控部門的業務效率。
“大模型+小數據”的技術框架,最大的亮點就是在能快速適配各種應用場景,通過非常好的預訓練大模型、結合場景的小數據去落地。
關于「量子位·視點」
量子位發起的CEO/CTO系列分享活動,不定期邀請AI創業公司CEO或CTO,分享企業最新戰略、最新技術、最新產品,與廣大AI從業者、愛好者探討人工智能的技術理論與產業實踐。歡迎大家多多關注 ~
需要觀看直播回放的小伙伴,請戳以下鏈接或“閱讀原文”吧~
https://www.bilibili.com/video/BV15t4y1x7YV
總結
以上是生活随笔為你收集整理的天壤联合创始人韩定一:大模型+小样本数据,AI驱动金融数字化转型新范式|量子位·视点分享回顾...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为交换机同一vlan不同网段的通信
- 下一篇: 科技的趋势!AI将进军了37%的企业