颜色聚类
一、顏色聚類的優(yōu)點(diǎn)
分析自然場(chǎng)景文本的特點(diǎn)可得,在一個(gè)文本區(qū)域內(nèi)部,一般一個(gè)字符內(nèi)部的顏色變化不大。對(duì)于一幅24位RGB彩色圖,需要處理的顏色范圍達(dá)到 。顯然,大范圍、高精度的顏色對(duì)于文本定位來說是沒有必要的,所以本章先用顏色聚類的方式來縮小顏色空間的范圍,增大各個(gè)顏色間的距離,以便于后續(xù)連通域提取。
如圖3. 2所示圖(a)是原圖,圖(b)是對(duì)應(yīng)的RGB顏色空間三維散點(diǎn)圖,圖(c)是聚類后的圖像,圖(d)是圖(c)對(duì)應(yīng)的散點(diǎn)圖,圖(a)中文本和背景的顏色混成一團(tuán)難以分割,而圖(d)中可以明顯看到兩部分不同的顏色團(tuán)的間隙,而這兩部分顏色分別對(duì)應(yīng)的是文本和背景。目前顏色聚類的方法有很多,不同的方法適用于解決不同的問題。下面首先分析對(duì)比了目前主流的方法,然后從效果、時(shí)間、參數(shù)設(shè)定等各個(gè)方面考慮,選取適用于文本定位的方法。 (a) 原圖 (b) 圖(a)的顏色散布圖 (c) 圖(a)聚類后的圖 (d) 圖(c)的顏色散布圖 圖3. 2聚類增大顏色距離示意圖。
?
?
二、 顏色聚類方法
聚類是對(duì)數(shù)據(jù)的一種聚集,是將類似的數(shù)據(jù)聚成一類。聚類是一種無監(jiān)督的分類方式,其優(yōu)點(diǎn)在于不需要預(yù)先的訓(xùn)練過程。目前比較常用的聚類方式有K-means,混合高斯模型 (Gaussian Mixture Models,GMM),Mean shift等。
1. K-means算法
K-means是比較簡(jiǎn)單又常用的聚類算法,k表示的是聚類中心的個(gè)數(shù),每個(gè)類是由相應(yīng)的聚類中心來表示。K-means算法包括四個(gè)步驟:
(1) 隨機(jī)選擇初始的聚類中心。
(2) 把每個(gè)目標(biāo)分配給最近的中心(最近的度量指的是目標(biāo)到中心的歐式距離)。
(3) 根據(jù)上一步聚好的類,重新計(jì)算聚類中心(所有點(diǎn)到上一步中心的平均值)。
(4) 重復(fù)(2)直到聚類中心不再發(fā)生變化。 K-means 的優(yōu)點(diǎn)是簡(jiǎn)單快速并且能夠很容易的實(shí)現(xiàn),其缺點(diǎn)是K值需要人工設(shè)定,另外對(duì)于離群點(diǎn)太過敏感。
2. GMM算法
GMM用于聚類是基于這樣的假設(shè)即數(shù)據(jù)空間的數(shù)據(jù)是由多個(gè)高斯模型生成的。GMM解決的問題是根據(jù)數(shù)據(jù)空間的數(shù)據(jù)來估計(jì)多個(gè)高斯模型的參數(shù),然后根據(jù)這些參數(shù)確定高斯模型[33]。一旦高斯模型確定了,那么數(shù)據(jù)的聚類中心也就確定了。
假設(shè)數(shù)據(jù)空間中的數(shù)據(jù)符合高斯混合模型即:
(3.1)
其中?是聚類中心的個(gè)數(shù),?代表的是高斯模型之間的權(quán)值并且符合?。其中?符合下式:
(3.2)
其中?和?分別代表的是第?個(gè)聚類中心的均值和方差。那么需要根據(jù)數(shù)據(jù)來估計(jì)GMM的參數(shù)為?。估計(jì)GMM的參數(shù)的算法為EM算法。EM算法分為兩步,在E步假設(shè)參數(shù)?是已知的,根據(jù)最大似然來估計(jì)每個(gè)高斯模型的權(quán)值。在M步對(duì)E步得到的結(jié)果重新估計(jì)參數(shù),然后不斷迭代地使用EM步驟,直到收斂。
GMM用于聚類的優(yōu)點(diǎn)是最后得到的結(jié)果是數(shù)據(jù)屬于某個(gè)類的概率,其缺點(diǎn)是要先確定聚類中心的個(gè)數(shù)。
3. Mean shift算法
Mean shift的目標(biāo)是根據(jù)給定的數(shù)據(jù)尋找概率密度的局部最大值。Mean-shift主要包括四個(gè)步驟:
(1) 隨機(jī)選擇若干個(gè)感興趣區(qū)域。
(2) 計(jì)算感興趣區(qū)域數(shù)據(jù)的中心 。
(3) 移動(dòng)區(qū)域到新的中心。
(4) 不斷計(jì)算直到收斂。
Mean shift的數(shù)學(xué)定義如下:
? ????(3.3)
其中,?為核函數(shù)加權(quán)下的Mean shift代表的是均值向量移動(dòng)的方向,?是感興趣區(qū)域的中心,?表示的是核函數(shù),?表示的是帶寬。在算法中,首先確定Mean shift的起點(diǎn)為感興趣區(qū)域的中心?,然后計(jì)算Mean shift 向量的終點(diǎn)式3.3中的第一項(xiàng)。然后將感興趣區(qū)域的中心移動(dòng)到向量的終點(diǎn),重新計(jì)算Mean shift,當(dāng)式(3.4)滿足時(shí),結(jié)束移動(dòng),這時(shí)中心就收斂到數(shù)據(jù)空間中局部最大值。
?????? ?(3.4)
???? Mean shift的思想是將數(shù)據(jù)點(diǎn)分配給隱含概率密度函數(shù)的某個(gè)模型。它的優(yōu)點(diǎn)是聚類的類別數(shù)不需要預(yù)先知道并且聚類的結(jié)構(gòu)可以是任意的,它的缺點(diǎn)是計(jì)算復(fù)雜度太高。
4. Quick shift算法
Quick shift是由Mean shift改進(jìn)而來的。Quick shift改進(jìn)了計(jì)算復(fù)雜度太高這一缺點(diǎn),它不需要使用梯度來尋找概率密度的模式,而僅僅是將每個(gè)點(diǎn)移動(dòng)到使概率密度增加的最近的點(diǎn)來獲得。公式如下:
? (3.5)
其中?代表的是特征空間中點(diǎn)的下一個(gè)位置,?代表的是兩點(diǎn)之間的距離,?是核函數(shù),一般選擇高斯核函數(shù),?是特征空間中點(diǎn)的個(gè)數(shù)。通過不斷移動(dòng),所有點(diǎn)連成了一顆樹,再通過一定的閾值將樹分割成一個(gè)森林,這樣森林里的每棵樹就是一個(gè)聚類。特征空間是一個(gè)五維空間,包含轉(zhuǎn)換到Lab空間的三個(gè)顏色分量和兩個(gè)空間位置信息。
Quick shift繼承了Mean shift的優(yōu)點(diǎn),不需要指定聚類中心,但同時(shí)改進(jìn)了其速度慢的缺點(diǎn)。
轉(zhuǎn)載:https://www.cnblogs.com/dawnminghuang/p/4725661.html
總結(jié)