日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

藏文印刷体: 乌金体,又称有头体

發布時間:2023/12/14 编程问答 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 藏文印刷体: 乌金体,又称有头体 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

藏文印刷體: 烏金體,又稱有頭體

摘要:

  • (1) 藏文屬于拼音文字,基本字符由30個輔音字母和4個元音字符組成,其組成的現代藏文音節字數為592,包含572個藏文字丁。
  • (2)OCR 系統 通常以字丁為單位進行識別,根據部分論文的不完全統計1000份圖片文檔覆蓋的字丁數大概為100個左右,
    因此,保守估計,全面覆蓋字丁數,至少需要6000張文檔標注。
  • (3)藏文標注時容易出現輸入編碼不統一的現象,需要在標注前提前統一。

1. 基本組成單元

1.1 基礎字符 character

藏文屬于拼音文字,由30個輔音字母,和4個元音字符組成。 這些字符按照一定的拼寫規則構成了藏文的音節字。

1.2 增加字符

為了滿足語言翻譯或者語言發展變化的實際需要,輔音和元音在原有基礎上有所增加,增加后的輔音字符達到41個,元音字符達到15個
  • 增加的方式:
    (1) 反寫
    (2)組合
    (3)添加輔助符號

1.3.其他字符

除了上述字符外還包括:數字符號,標點符號,變音符號,篇章符,敬重符,吟詠示意符,吟誦會意符,占星符合裝飾符。

2. 藏文的音節字 syllable

每個音節必須包含一個基字,基字可帶前置、上置、下置、后置和再后置字母。

現代藏文音節字的總個數為592,藏文字丁總數為572 (一個音節字按照中間縫隙切開,則該字符分成了 4個字丁)
OCR系統,多以字丁為單位。

3. 書寫形式:

書寫形式分印刷體的有頭字和手寫體的無頭字兩種;
還有一種從無頭字衍化而成了草書,它連筆較多,與有頭字差別較大。行款自左向右橫書,使用專門的標點符號
很多字母連寫,中間會加入很多音節點,類似英文里的空格。

4. 藏文識別的難點:

  • (1) 藏文具有很多相似字符, 很多基礎輔音字符差異很小,帶來識別難度,需要增加標注數據。
  • (2) 藏文獨特的疊字書寫方式,使得藏文結構的解析比較復雜,可以以字丁為單位涵蓋所有疊字結構,
    根據部分論文統計,1000份圖片文檔覆蓋的字丁數大概為100多個,因此,保守估計,全面覆蓋字丁數,至少需要6000張文檔標注。
  • (3) 關于藏文識別的字符編碼問題,可能會出現同形不同碼現象(因此在標注時需要統一編碼)
    同形不同碼:由于藏文新增組合字符,不同的人在輸入時習慣不同,可能有人以整體編碼形式輸入,有人以原始字符組合輸入,導致字符編碼不同。

5. 關于工程需要解決的基礎問題:

  • (1) 輸入法的選擇?
  • (2) 如何獲取藏文字丁?
    藏文編碼字符集的擴充集在linux 上的實現, 中科院軟件所 https://www.weibo.com/ttarticle/p/show?id=2309404314230789669491

參考文獻

[1] 龍從軍等, 中科院軟件所,藏文編碼字符集標準應用中的問題及對策
[2] 王維蘭等, 藏文識別中相似字丁的區分研究
[3] 李永忠等,藏文印刷體字符識別技術研究
[4] Rowinski Z, Keutzer K. Namsel: An Optical Character Recognition System for Tibetan Text[J]. Himalayan Linguistics, 2016, 15(1).

相關網站:

[1] 藏語雙語網 http://www.zanghansy.com/xzy/
[2] 藏語語言文字 http://mzw.qinghai.gov.cn/jjwhjy/wh/cc4b0e43_d93a_4b5c_89eb_ee5104cbf692.aspx
寫自定義目錄標題)

總結

以上是生活随笔為你收集整理的藏文印刷体: 乌金体,又称有头体的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。