人工智能助力古彝文识别,推动传统文化传承
人工智能助力古彝文識別,推動傳統(tǒng)文化傳承
- 0. 前言
- 1. 古彝文
- 1.1 古彝文介紹
- 1.2 古彝文識別的重要意義
- 1.3 古彝文識別的挑戰(zhàn)
- 2. 古彝文識別國內(nèi)外研究進展
- 3. 基于深度學習的古彝文識別
- 3.1 深度學習簡介
- 3.2 基于深度學習的古彝文識別模型架構(gòu)
- 4. 古彝文識別進展與展望
- 小結(jié)
- 相關(guān)鏈接
0. 前言
古彝文作為世界上最古老的文字之一,記錄了人類幾千年來的發(fā)展歷史。古彝文識別研究能夠?qū)⒄滟F的古彝文文本文獻轉(zhuǎn)換為電子文件,更加便于其保存和傳承。但由于歷史發(fā)展、區(qū)域限制等諸多要素,針對古彝文識別的研究工作一直進展緩慢。本文介紹了如何將新穎的深度學習技術(shù)應用于古老文字的識別上,介紹了合合信息如何解決古彝文識別中的困難與挑戰(zhàn)。依托于合合信息在古文字識別領域的積累,相對于傳統(tǒng)古彝文識別模型,合合信息攜手上海大學提出的基于深度學習的古彝文識別模型能夠以更高的精度識別古彝文手寫體,極大的提高了古彝文識別的準確率。
1. 古彝文
1.1 古彝文介紹
彝族有著古老燦爛的文化,它記錄并保存了卷帙浩繁的典籍,是中華傳統(tǒng)文化寶庫中的重要組成部分。
據(jù) 1980 年發(fā)布的四川規(guī)范彝文共有 819 字,2012 年發(fā)布的滇川黔桂通用彝文共有 5598 字,而與這些演化到現(xiàn)代的規(guī)范彝文不同,古彝文是指民間流通使用的原生態(tài)彝文,據(jù)《滇川黔桂彝文字集》統(tǒng)計,這些古彝文多達 87046 字。由于古彝文典籍通常記錄于石刻、巖畫、木牘和紙書之上,由于年代久遠,通常較為模糊甚至有所殘缺,這為古彝文的識別帶來了極大的挑戰(zhàn)。
| 古埃及象形文字(約 3200 BC—AD 400) | |||||
| 象形文基礎上演化的古埃及僧侶體草書 | |||||
| 象形文基礎上演化的古埃及僧侶體草書 | |||||
| 古彝文字義 | 魚 | 鳥 | 月 | 馬 | 首 |
| 古彝文字 |
1.2 古彝文識別的重要意義
隨著時間的流逝,許多古文字都漸漸消失在歷史的長河中,而古彝文是少有仍在使用的文字。對古彝文高效的識別對于古彝文的整理和翻譯工作而言都有著重要意義,不僅能夠幫助理解尚未被翻譯為漢文或者并不規(guī)范的古籍,而且能夠更實際的保護傳統(tǒng)文化。目前,古彝文的相關(guān)整理工作仍然主要依靠手工進行,不僅會占用大量的人力成本,且效率較低、成果的重復利用存在困難,例如,對《西南彝志》的整理與漢譯,羅國義、王興友等人耗費了 10 年時間才完成,為了對初版譯本進行完善和修正,王運權(quán)、王仕舉等又耗時 17 年才完成再版。
隨著人工智能,特別是深度學習的發(fā)展,可以為古彝文識別提供更加高效工具,為其保存和傳播提供了強有力的支撐。古彝文識別不僅僅是人類知識的延續(xù)和傳承,同時也是推動知識發(fā)展的關(guān)鍵,合合信息攜手上海大學的“原生態(tài)古彝文”研究項目將成為搶救、整理、保存、傳播和利用彝文古籍的有效途徑。
1.3 古彝文識別的挑戰(zhàn)
相對于其他更具標準化的文字,古彝文的書寫更為隨意,并無通用的統(tǒng)一性規(guī)范標準,因此其識別難度也隨之增加。盡管目前文本識別技術(shù)已經(jīng)有了突破性進展,例如合合信息自研的文字識別技術(shù),覆蓋文字、文檔、表格、印章、二維碼、公式等多種通用場景,能夠進行快速、精準的檢測和識別,支持中文、英文等超過 50 種語言,同時支持印刷體、手寫體、傾斜、折疊、旋轉(zhuǎn)等,但由于版式的多樣性、字符集的龐大性和圖像質(zhì)量差等原因,當前對于古彝文識別的研究仍然寥寥無幾,并且現(xiàn)存的古彝文大多為手寫體,這進一步加深了古彝文識別的難度,總結(jié)而言,古彝文識別的挑戰(zhàn)性主要集中于以下幾個方面:
- 缺乏完善的手寫古彝文數(shù)據(jù)集:數(shù)據(jù)集通常是訓練神經(jīng)網(wǎng)絡最為關(guān)鍵的因素之一,數(shù)據(jù)集的質(zhì)量直接決定了模型的效果。當前對古彝文的研究多集中在文獻整理上,而尚未有完善的古彝文手寫數(shù)據(jù)集,并且在傳承過程中通曉古彝文文字的人越來越少,導致數(shù)據(jù)集標注工作量大而人手少,數(shù)據(jù)集樣本嚴重不足,這是古彝文識別最為關(guān)鍵的挑戰(zhàn)之一。合合信息研究人員通過與古彝文傳承人建立良好的關(guān)系,獲取大量典籍,彌補了古彝文識別項目訓練樣本不足的情況
- 版式多樣性:古彝文典籍排版風格具有多樣性,字符間距、行距等有較大差異,且存在加字、替字、整句倒置等現(xiàn)象,這種情況對文字定位與識別造成了諸多干擾。而依托合合信息在智能文字識別領域的領先技術(shù),包括圖像復雜版式識別、圖像扭曲矯正等優(yōu)秀成果,為古彝文識別奠定了技術(shù)基礎
- 圖像質(zhì)量較差:除了數(shù)據(jù)集在樣本上的不足外,在數(shù)據(jù)質(zhì)量上也存在諸多問題,多數(shù)古彝文典籍都因歷史保護的原因,出現(xiàn)了或多或少的缺失或污跡,嚴重影響了數(shù)據(jù)集的質(zhì)量,增加了文字識別的難度。得益于合合信息智能文字識別技術(shù),通過利用圖像增強技術(shù)可以顯著提高圖像質(zhì)量,進而提高古彝文文字識別的精度和效率
- 字符集龐大:古彝文擁有龐大的字符集,在上文中,我們已經(jīng)提到僅僅是 2004 年出版的《滇川黔桂彝文字集》就包含 87000 多個字。對如此龐大的字符集進行分類是一項十分艱巨的任務。借助合合信息在甲骨文、金文等古文中的研究經(jīng)驗,文字間的識別有相通之處,為古彝文識別打下了堅實基礎
- 字形變化較多:古彝文字體、字形的變化較多,沒有統(tǒng)一的手寫規(guī)范,且不同地區(qū)書寫規(guī)則不同,存在大量的變形字和異體字,例如,如下圖所示,表示“種類”的古彝文就有四種不同的寫法,并且存在大量字形相似,甚至在視覺上沒有太大差別的字,在意義上毫無聯(lián)系,這為古彝文的識別增加了難度。針對這一問題,上海大學的古彝文研究人員提出了四字節(jié)編碼方案,用于描述每個變體和形近字符之間的細微差別,根據(jù)這種編碼方案能夠更好的建立深度學習數(shù)據(jù)集
2. 古彝文識別國內(nèi)外研究進展
在古彝文識別領域,研究的主力仍然是民族類高校和研究所,且研究成果的應用和轉(zhuǎn)換率較低。王嘉梅等利用圖像分割技術(shù)實現(xiàn)古彝文識別,首先通過預處理對彝文字符應用細分、歸一化、二值化等經(jīng)典圖像處理技術(shù),然后對預處理后的圖像使用模板匹配方法進行識別。朱華龍等人提出了基于特征提取的分類方法,是經(jīng)典的傳統(tǒng)機器學習方法,利用人工對古彝文提取方向線素特征、筆畫密度特征和投影特征等然后利用多分類投票法確定文字的最終類別。
除此之外,也有許多其他國內(nèi)外學者對多種不同古文進行研究,例如北京大學的“識典古籍”項目利用文字識別、自動標點和命名實體識別等技術(shù)對古籍進行識別;阿里巴巴的“漢典重光”項目利用人工智能技術(shù)數(shù)字化了一批珍藏在加州大學伯克利分校的中文古籍。
3. 基于深度學習的古彝文識別
3.1 深度學習簡介
近年來,深度學習 (Deep Learning, DL) 在多個領域中都取得了突破性進展,尤其是在圖像識別、目標檢測以及自然語言處理等領域。神經(jīng)網(wǎng)絡由具有權(quán)重和偏置的人工神經(jīng)元組成,這些權(quán)重和偏置會在模型訓練過程中進行調(diào)整,以得到一個性能優(yōu)異的學習模型。每個神經(jīng)元可以接收一組輸入,以某種方式對其進行處理后,輸出一個或多個值。如果我們通過堆疊多層的神經(jīng)網(wǎng)絡,它就被稱為深度神經(jīng)網(wǎng)絡,處理這些深度神經(jīng)網(wǎng)絡的人工智能分支稱為深度學習。
傳統(tǒng)全連接神經(jīng)網(wǎng)絡的主要缺點之一是它們忽略了輸入數(shù)據(jù)的結(jié)構(gòu),所有數(shù)據(jù)在輸入網(wǎng)絡之前都被轉(zhuǎn)換為一維數(shù)組。這對于簡單的數(shù)字數(shù)據(jù)而言,可能并沒有什么問題,但當我們處理圖像數(shù)據(jù)時,全連接網(wǎng)絡就表現(xiàn)出不足之處。以灰度圖像為例,這些圖像是二維結(jié)構(gòu),同時像素的空間排列包含很多隱藏信息。如果我們忽略這些信息,而將圖片轉(zhuǎn)換為一維結(jié)構(gòu),我們將失去很多潛在信息。而這也正是卷積神經(jīng)網(wǎng)絡 (Convolutional Neural Network, CNN) 的優(yōu)勢所在,CNN 在處理圖像時會考慮圖像的 2D 結(jié)構(gòu)。
CNN 也是由權(quán)重和偏差組成的神經(jīng)元組成,這些神經(jīng)元接受輸入數(shù)據(jù),進行處理后,輸出處理后的值。網(wǎng)絡的目標是從輸入層的原始圖像數(shù)據(jù)到得到輸出層的正確結(jié)果,不同任務中,網(wǎng)絡的目標并不相同:在圖像分類中,網(wǎng)絡的目標是得到圖片類別;在目標檢測中,網(wǎng)絡的目標是定位目標的位置。普通全連接神經(jīng)網(wǎng)絡和 CNN 之間的區(qū)別在于使用的神經(jīng)網(wǎng)絡層類型以及我們?nèi)绾翁幚磔斎霐?shù)據(jù),假設 CNN 的輸入是圖像,那么可以使用 CNN 提取圖像的特征。除此之外,CNN 的輸入并不僅限于圖像,也可以為文本等數(shù)據(jù)。
CNN 是一種經(jīng)典的深度學習網(wǎng)絡,它通常用于圖像識別等任務。與任何其他神經(jīng)網(wǎng)絡一樣,為圖像中的元素分配權(quán)重和偏置,并能夠?qū)⑦@些元素彼此區(qū)分開來。與其他分類模型相比,CNN 中所需使用的數(shù)據(jù)預處理較少。
CNN 架構(gòu)的基本形式可以比作人腦中的神經(jīng)元和樹突,它的靈感來自視覺皮層。單個神經(jīng)元只對視野受限區(qū)域的刺激作出反應,這個視野區(qū)域被稱為感受野 (Receptive Field),這些感受野相互重疊后,覆蓋了整個視野范圍。
循環(huán)神經(jīng)網(wǎng)絡 (Recurrent Neural Network, RNN) 是另一種經(jīng)典的神經(jīng)網(wǎng)絡架構(gòu),可以將 RNN 視為一種內(nèi)存保存的機制,如果網(wǎng)絡能夠提供一個單獨的內(nèi)存變量,每次提取詞向量的特征并刷新內(nèi)存變量,直至最后一個輸入完成,此時的內(nèi)存變量即存儲了所有序列的語義特征,并且由于輸入序列之間的先后順序,使得內(nèi)存變量內(nèi)容與序列順序緊密關(guān)聯(lián)。RNN 架構(gòu)可視化如下:
右側(cè)的網(wǎng)絡是左側(cè)的網(wǎng)絡的展開后的結(jié)果。右側(cè)的網(wǎng)絡在每個時刻接受當前時刻輸入以及上一時刻網(wǎng)絡狀態(tài),并在每個時刻提取一個輸出。
在每個時刻 ttt,網(wǎng)絡層接受當前時刻的輸入 xtx_txt? 和上一個時刻的網(wǎng)絡狀態(tài)向量 ht?1h_{t?1}ht?1?,根據(jù)網(wǎng)絡內(nèi)部運算邏輯 ht=fθ(ht?1,xt)h_t=f_{\theta}(h_{t-1},x_t)ht?=fθ?(ht?1?,xt?) 計算得到當前時刻的新狀態(tài)向量 hth_tht?,并寫入內(nèi)存狀態(tài)中。在每個時刻,網(wǎng)絡層均有輸出 oto_tot?,ot=gΦ(t)o_t = g_{\Phi}(t)ot?=gΦ?(t),即根據(jù)網(wǎng)絡的當前時刻狀態(tài)向量計算后輸出。
網(wǎng)絡循環(huán)接受序列的每個特征向量 xtx_txt?,并刷新內(nèi)部狀態(tài)向量 hth_tht?,同時形成輸出 oto_tot?。這種網(wǎng)絡結(jié)構(gòu)就是循環(huán)神經(jīng)網(wǎng)絡 (Recurrent Neural Network, RNN) 結(jié)構(gòu)。
3.2 基于深度學習的古彝文識別模型架構(gòu)
手寫文字識別已經(jīng)成為人機交互最便捷的手段之一,擁有廣泛的應用前景。在識別圖像中手寫文字的問題中,我們需要同時處理圖像數(shù)據(jù)和順序數(shù)據(jù)。在傳統(tǒng)的古彝文字識別方法中,設計的解決方案通常需要人工參與。例如:在圖像上使用滑動窗口,窗口大小是字符的平均大小,以便可以檢測每個字符,然后輸出它檢測到的具有較高置信度的字符。然而,窗口的大小或滑動窗口數(shù)量需要進行人工確認。因此,這本質(zhì)上屬于一個特征工程問題。
為了降低人工時間成本,可以通過卷積神經(jīng)網(wǎng)絡 (Convolutional Neural Networks, CNN) 提取圖像特征,然后將這些特征作為輸入傳遞給循環(huán)神經(jīng)網(wǎng)絡 (Recurrent Neural Network, RNN) 的各個時間戳,以便在各個時間戳提取輸出。因此,我們將組合使用 CNN 和 RNN,通過這種方式解決手寫文字識別問題,我們不必人工構(gòu)建特征,只需要優(yōu)化模型得到 CNN 和 RNN 的最佳參數(shù)。經(jīng)典的文字識別架構(gòu)如下所示:
相對于傳統(tǒng)古彝文識別模型,基于深度學習的方法對古彝文手寫體的識別精度更高,且具有更高的效率。
4. 古彝文識別進展與展望
在 2022 年 12 月,合合信息與上海大學社會學院簽署了校企合作協(xié)議,其將以完成“貴州古彝文圖像識別及數(shù)字化校對項目”為目標,結(jié)合合合信息在智能文字識別領域的雄厚基礎與上海大學在古彝文研究的豐富經(jīng)驗,賦能海量古彝文原籍數(shù)字化的道路,對于民族傳統(tǒng)文化的保護與傳承具有重要意義。
合合信息是行業(yè)領先的人工智能集大數(shù)據(jù)科技企業(yè),智能文字識別技術(shù)更是合合信息的核心技術(shù)之一,先后在 ICDAR、ICPR 等人工智能國際競賽中斬獲 15 項冠軍,在 CVPR、AAAI 等頂會上均有學術(shù)成果發(fā)表,合合信息的智能文字識別技術(shù)主要包括智能圖像處理、復雜場景文字識別、自然語言處理三大核心模塊,通過在智能文字識別和商業(yè)大數(shù)據(jù)領域的積累的優(yōu)勢,通過智能圖像處理技術(shù)解決了影像采集不規(guī)范問題,能夠極大的優(yōu)化影像質(zhì)量,為項目后續(xù)的文字信息提取與識別奠定基礎,復雜文字識別適用于多語言、多版式、多樣式等多種復雜場景,結(jié)合自然語言處理技術(shù),能夠獲取識別結(jié)果的語義信息。
盡管古彝文識別研究仍處于起步階段,但基于合合信息前期在甲骨文、金文等古文研究中的積累,通過引入強大的智能文字識別技術(shù)建立規(guī)范統(tǒng)一的數(shù)據(jù)庫,能夠極大的增強古彝文研究的可用性與連續(xù)性,減少繁瑣的人工檢索工作,合合信息聯(lián)合上海大學推進的“原生態(tài)古彝文”研究項目將填補國內(nèi)外在古彝文數(shù)字化研究領域的空白。
建立起古彝文數(shù)據(jù)庫與翻譯系統(tǒng)后,將能夠顯著提高古彝文識別的效率和準確率,對于小語種保護與古文化傳承具有重要的里程碑意義。
小結(jié)
目前,針對古彝文識別的研究仍處于起步階段,且大多數(shù)研究僅針對書寫規(guī)范的古彝文,受限于字符庫的匱乏,大部分模型僅能對常見的古彝文進行處理,因此可以說針對古彝文是別的研究非常稀少。合合信息基于深度學習的古彝文識別項目將填補當前國內(nèi)外研究的空白,將深度學習技術(shù)引入古彝文識別將對文化保護和發(fā)展做出更多有益探索,讓傳統(tǒng)文化綻放更加絢麗之花。
相關(guān)鏈接
圖像智能處理黑科技,讓圖像處理信手拈來
總結(jié)
以上是生活随笔為你收集整理的人工智能助力古彝文识别,推动传统文化传承的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 屏幕标记软件pointfix的下载和安装
- 下一篇: OBS生命周期管理简介