字符切割
字符分割的
任務是把多行或多字符圖像中的每個字符從整個圖像中分割出來,成為單個字符。對于字符分割的問題常常不被重視,但是字符的正確分割對字符的識別是至關重要
的。由于字符字體存在著多樣性,所以在一般的字符識別系統中,字符識別之前要先對圖像進行閾值化,然后再進行行字切分,以分割出一個個具體的二值表示的字
符圖像點陣,作為單字符識別的輸入數據。由于獲得的文本圖像不但包含了組成文本的一個個字符,而且包含了字符行間距與字間的空白,甚至還會帶有各種標點符
號,這就需要采用一定的處理技術將文本中的一個個字符切分出來,形成單個字的圖像陣列,以進行單字識別處理。這就需要兩個步驟來完成,行切分和字切分。首
先由行切分得到一行行文本,然后在每行文本中進行列切分得到一個個單獨的字符。 1行切分技術
行切分就是要將一行行字符切分出來,形成單行字符文本圖像數據。這里我們以含有漢字的圖像為例,介紹一下行切分技術。對于輸入的二值化漢字圖像從上到下逐行掃描并計算每個掃描行的像素,以獲取圖像的水
平
投影。我們會發現漢字圖像沿行方向的水平投影比較有規律,投影中的每個波峰與圖像中的每個文本行相對應,在相鄰的兩行之間有比較寬的一段投影信息為0,這
是對應了相鄰兩行之間的空白區域。根據這個規律,對行切分比較容易,可以把整幅的漢字圖像在水平方向投影后,直接對漢字圖像進行行切分。具體方法為:首先
分析投影圖像,找到投影波峰所對應的文本行的位置,從而可以計算出每行的行距;其次對所有行的行距累加求和后,求出文本圖像的標準行距,以標準行距對漢字
圖像進行行的粗切分;最后在每一個粗切分出的行附近上下掃描,進行細微調整,選取最合適的分割位置。
2字切分技術
字切分是從切分出的文本圖像行中將單個的字符圖像切分出來。字切分的正確與否直接影響識別結果,是字符識別系統中比較難的部分。我們還是以單個的漢字切分為例來說明。
可
以借助漢字圖像行切分的思想,來確定字切分的主要方法:利用字與字之間的空白間隙在圖像行垂直投影上形成的空白間隔將單個的字符圖像切分出來。事實上,分
析圖像行的垂直投影可以發現,垂直投影上的空白間隔部分不僅沒有行與行之間的空白間隔部分寬,而且分布也不均勻。是因為在漢字文本中一般漢字間距遠不如行
間距明顯,同時漢字中有相當數量漢字是左、右結構或左、中、右結構的,這些漢字圖像的垂直投影在一個單字的內部也會出現空白間隙,使得文本漢字的字切分比
行切分困難。為了解決這個問題,可以利用漢字間的間隔一般大于漢字內間隔這一特點先進行漢字的粗切分,再根據漢字基本是個方塊圖形這一事實進行細切分。具
體實現為:根據漢字的行切分,可以獲得漢字的高度信息,從而可以估計出漢字的基本寬度;對粗切分出的每個漢字,以此寬度信息進行衡量,以粗切分的起始位置
為出發點,向左右兩方向進行搜索,對起始位置進行細微的調整,從而使得字的切分更準確。這種方法不僅可以保證單個漢字的內部結構不被分離,而且還避免了切
除漢字的邊緣,其切分結果基本提取出了完整的漢字,消除了筆劃的誤切除。
任務是把多行或多字符圖像中的每個字符從整個圖像中分割出來,成為單個字符。對于字符分割的問題常常不被重視,但是字符的正確分割對字符的識別是至關重要
的。由于字符字體存在著多樣性,所以在一般的字符識別系統中,字符識別之前要先對圖像進行閾值化,然后再進行行字切分,以分割出一個個具體的二值表示的字
符圖像點陣,作為單字符識別的輸入數據。由于獲得的文本圖像不但包含了組成文本的一個個字符,而且包含了字符行間距與字間的空白,甚至還會帶有各種標點符
號,這就需要采用一定的處理技術將文本中的一個個字符切分出來,形成單個字的圖像陣列,以進行單字識別處理。這就需要兩個步驟來完成,行切分和字切分。首
先由行切分得到一行行文本,然后在每行文本中進行列切分得到一個個單獨的字符。 1行切分技術
行切分就是要將一行行字符切分出來,形成單行字符文本圖像數據。這里我們以含有漢字的圖像為例,介紹一下行切分技術。對于輸入的二值化漢字圖像從上到下逐行掃描并計算每個掃描行的像素,以獲取圖像的水
平
投影。我們會發現漢字圖像沿行方向的水平投影比較有規律,投影中的每個波峰與圖像中的每個文本行相對應,在相鄰的兩行之間有比較寬的一段投影信息為0,這
是對應了相鄰兩行之間的空白區域。根據這個規律,對行切分比較容易,可以把整幅的漢字圖像在水平方向投影后,直接對漢字圖像進行行切分。具體方法為:首先
分析投影圖像,找到投影波峰所對應的文本行的位置,從而可以計算出每行的行距;其次對所有行的行距累加求和后,求出文本圖像的標準行距,以標準行距對漢字
圖像進行行的粗切分;最后在每一個粗切分出的行附近上下掃描,進行細微調整,選取最合適的分割位置。
2字切分技術
字切分是從切分出的文本圖像行中將單個的字符圖像切分出來。字切分的正確與否直接影響識別結果,是字符識別系統中比較難的部分。我們還是以單個的漢字切分為例來說明。
可
以借助漢字圖像行切分的思想,來確定字切分的主要方法:利用字與字之間的空白間隙在圖像行垂直投影上形成的空白間隔將單個的字符圖像切分出來。事實上,分
析圖像行的垂直投影可以發現,垂直投影上的空白間隔部分不僅沒有行與行之間的空白間隔部分寬,而且分布也不均勻。是因為在漢字文本中一般漢字間距遠不如行
間距明顯,同時漢字中有相當數量漢字是左、右結構或左、中、右結構的,這些漢字圖像的垂直投影在一個單字的內部也會出現空白間隙,使得文本漢字的字切分比
行切分困難。為了解決這個問題,可以利用漢字間的間隔一般大于漢字內間隔這一特點先進行漢字的粗切分,再根據漢字基本是個方塊圖形這一事實進行細切分。具
體實現為:根據漢字的行切分,可以獲得漢字的高度信息,從而可以估計出漢字的基本寬度;對粗切分出的每個漢字,以此寬度信息進行衡量,以粗切分的起始位置
為出發點,向左右兩方向進行搜索,對起始位置進行細微的調整,從而使得字的切分更準確。這種方法不僅可以保證單個漢字的內部結構不被分離,而且還避免了切
除漢字的邊緣,其切分結果基本提取出了完整的漢字,消除了筆劃的誤切除。
總結
- 上一篇: matlab中的图像类型
- 下一篇: 错误函数