印刷体汉字粗分类
本文中粗分類器采用了最小距離分類器。用漢字的黑色像素點個數來進行粗分類,粗分類的目的是縮小輸入樣本的待匹配樣本數目。首先將6404個字符作為訓練樣本提取樣本的像素特征,再根據漢字的復雜程度將其大致分為五類,然后用提取測試樣本特征。
采用最小距離法與五個分類比較,將其歸為距離最小的一類。
(1)
size=hight*width;
black=bsum/size;
size為圖片面積,bsum為圖片中黑色像素點個數,black為平均黑色像素點個數。
將black分為五類w1,w2,w3,w4,w5
計算每個分類的均值Ci
Ci=black/Ni;
Ni為第wi類中的樣本總個數;
(2)
輸入測試樣本,測試樣本的特征為x,與Ci進行匹配,比較絕對距離
x∈min|x-Ci|
(3)
通過將大樣本集分為多個小樣本集,使得駛入樣本在識別過程中減少了不必要的計算,而且是每個樣本能夠迅速定位到新的類別中,簡化了后續分類器的計算量和復雜度。
總結
- 上一篇: linux 统计代码行数,shell 命
- 下一篇: 本科毕业论文引用、编写英文参考文献格式的