语义分割 - 基于 CNN 的交互式视频分割
基于 CNN 的交互式視頻分割
原文:Interactive Segmentation with Convolutional Neural Networks
摘要:
動(dòng)物貼畫(huà)(animated stickers) 最近在 messaging application 和 memes 興起.
基于現(xiàn)有技術(shù),生成動(dòng)物貼畫(huà)是非常有挑戰(zhàn)性,且耗時(shí)的,使得對(duì)于沒(méi)有相關(guān)背景的普通用戶(hù)而言,難以使用.
去除任意一段 Video (非綠幕背景) 的背景仍是一件比較低級(jí)的工作,涉及到對(duì) video 中每一幀的 object 進(jìn)行手工分割.
因此,在網(wǎng)站 gifs.com 中,實(shí)現(xiàn)基于 AI 技術(shù),來(lái)幫助用戶(hù)簡(jiǎn)單快捷的創(chuàng)建動(dòng)物貼畫(huà).
Figure 1. 從 Video 創(chuàng)建的動(dòng)畫(huà)貼圖例子
1. 技術(shù)挑戰(zhàn)
由于 Video 的復(fù)雜性,動(dòng)畫(huà)貼圖:
- 容易受運(yùn)動(dòng)模糊(motion blur) 、bad composition 和缺失(occlusion) 的影響;
- 尺寸較少(信息非常少) 和背景前景相似度較大時(shí),object 很難分割;
- Video 片段可能包含多種類(lèi)型的 objects,需要提取用戶(hù)想要的 object.
Figure 2. 用戶(hù)創(chuàng)建的貼圖
2. 解決方案
- 首先,用戶(hù)采用交互式分割工具來(lái)標(biāo)注在 Video 第一幀中想要的 object;
- 然后,標(biāo)注結(jié)果傳遞到其它幀,并渲染為動(dòng)畫(huà)貼圖.
對(duì)于 object 的分割,如實(shí)例分割,采用 CV 技術(shù)來(lái)根據(jù)少量的用戶(hù)操作,推斷整體分割.
Figure 3. 采用交互式工具標(biāo)注 Video 第一幀的例示.
分割過(guò)程(第一幀和整體 Video 的分割) 都采用 CNN. CNN 已經(jīng)在 image 和 video 識(shí)別方面取得較好的應(yīng)用,其能夠理解圖片中 object 的視覺(jué)屬性,如 animal,car 等.
2.1 交互式分割
GrabCut 算法 是實(shí)現(xiàn)交互式分割的有效快捷方法. 該方法通過(guò)構(gòu)建像素分布(顏色 colors)的模型來(lái)很好的區(qū)分背景和前景差異較大的 object. 但,其對(duì)于前景背景差異度較小的圖片,分割效果不夠理想.
Figure 4. (左)用戶(hù)標(biāo)注輸入;(右) GrabCut 分割結(jié)果. 由于熊的身體顏色與背景比較相似,導(dǎo)致分割結(jié)構(gòu)不理想.
高質(zhì)量的動(dòng)畫(huà)貼圖,需要在 Video 第一幀能得到高精度的分割結(jié)果. 由于 GrabCut 分割結(jié)果不能達(dá)到要求,這里決定采用深度學(xué)習(xí)方法.
受到論文 Deep Interactive Object Selection 采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行交互式 object 分割的啟發(fā),這里,以圖片、已有分割結(jié)果,以及用戶(hù)修正結(jié)果作為輸入,來(lái)創(chuàng)建網(wǎng)絡(luò),以輸出 object 的二值 mask.
這里給用戶(hù)提供畫(huà)刷工具(brush tool) 來(lái)修正 Video 的第一幀. 基于產(chǎn)品數(shù)據(jù)發(fā)現(xiàn),典型用戶(hù)往往采用各種各樣的方式畫(huà)出 object,如 單擊(clicks)、筆畫(huà)(strokes) 或者高亮整個(gè) object. 因此,就需要開(kāi)發(fā)的算法能夠考慮不同的標(biāo)注形式,并能在訓(xùn)練階段包含模擬的用戶(hù) strokes 和 clicks ,以得到最優(yōu)的結(jié)果,提供良好的用戶(hù)體驗(yàn).
Figure 5. 用戶(hù)標(biāo)注 object 方式:clicks, strokes, highlights
2.2 Video 分割
Video 第一幀標(biāo)注信息確定及成功分割 object 后,這里采用論文 One-Shot Video Object Segmentation-OSVOS 方法來(lái)生成 Video 其它幀的分割結(jié)果.
OSVOS 是基于 VGG 的卷積網(wǎng)絡(luò),其可以利用通用語(yǔ)義信息對(duì) objects 進(jìn)行分割. 對(duì)于每張貼圖,OSVOS 模型在 frame/mask 對(duì)上進(jìn)行 fine-tuned;然后,推斷 Video 中全部幀的 mask,并結(jié)合得到的結(jié)果,以輸出透明背景的動(dòng)畫(huà)貼圖.
如果 Video 中從開(kāi)始到結(jié)束,object 移動(dòng)很快,或者變化很大,則可能得到不同的結(jié)果. 對(duì)此,這里允許用戶(hù)對(duì)更多的 Video 幀進(jìn)行修正,以提高貼圖質(zhì)量.
Figure 6. 添加交互式用戶(hù)修正,能夠提高模型的分割結(jié)果.
Figure 7. (上) Video 標(biāo)注一幀得到的貼圖;(下) Video 標(biāo)注多幀得到的貼圖. 如果只標(biāo)注 Video 一幀,分割結(jié)果不理想;如果再對(duì) Video 分割最差的幀進(jìn)行標(biāo)注,則可以提高貼圖質(zhì)量.
3. 總結(jié)
這里介紹了基于深度學(xué)習(xí)技術(shù),應(yīng)用于更高效簡(jiǎn)單生成動(dòng)畫(huà)貼圖. 首先,用戶(hù)標(biāo)注 Video 的第一幀;然后 采用 OSVOS 方法生成 Video 全部幀的分割結(jié)果;最后,根據(jù)實(shí)際情況,允許用戶(hù)更多交互,提高動(dòng)畫(huà)貼圖質(zhì)量. 盡管動(dòng)畫(huà)貼圖創(chuàng)建過(guò)程很簡(jiǎn)單,但 gifs.com 提供的編輯器能夠更加簡(jiǎn)化貼圖創(chuàng)建,并降低普通用戶(hù)使用難度,創(chuàng)建用戶(hù)個(gè)性化貼圖.
每周 gifs.com 都有用戶(hù)創(chuàng)建的許多貼圖,歡迎嘗試. 網(wǎng)址:https://beta.gifs.com/sticker-creator/
4. Links
[1] - https://beta.gifs.com/sticker-creator/
[2] - One-Shot Video Object Segmentation
[3] - Deep Interactive Object Selection
[4] - Deep Residual Learning for Image Recognition
[5] - Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
總結(jié)
以上是生活随笔為你收集整理的语义分割 - 基于 CNN 的交互式视频分割的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 杜比音频和Microsoft Edge体
- 下一篇: 高效能人士的七个习惯 - 读书笔记(XM