日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACM MM 2018论文概述:基于多粒度监督的图像语义物体协同标注

發布時間:2024/10/8 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ACM MM 2018论文概述:基于多粒度监督的图像语义物体协同标注 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


作者丨張立石、付程晗、李甲

學校丨北京航空航天大學

研究方向丨計算機視覺


介紹


本文概述了被 2018 年 10 月 ACM Multimedia 會議錄用為 Oral 的論文:Collaborative Annotation of Semantic Objects in Images with Multi-granularity Supervisions。在此論文中,北京航空航天大學碩士研究生張立石、付程晗及其導師李甲,提出了一種基于多粒度監督的圖像語義物體協同標注的方法,實現了在幾乎不影響標注精確度的前提下,減少了人工標注的時間。


■?論文 | Collaborative Annotation of Semantic Objects in Images with Multi-granularity Supervisions

■ 鏈接 | https://www.paperweekly.site/papers/2218

■ 源碼 |?http://dwz.cn/kltHyMz0

■ 主頁 |?http://cvteam.net/


背景


在過去 10 年,大規模圖像數據集大大推動了計算機視覺技術的發展。這些數據集中的圖片被一個或多個標簽標注,用于描繪圖片中主要對象的語義類別。在最新的應用,比如自動駕駛,機器人導航,視覺問題回答等,僅有圖像級標簽是不夠的,這些應用需要像素級的語義對象:圖像中的對象是什么、在哪里。


計算機視覺領域對像素級標注語義對象的需求越來越強烈,但是像素級的標注是冗余乏味的,需要耗費大量的人力資源。因此,為了將現有圖像級標簽的數據集轉化為像素級標注的數據集,在標注精確度不受影響的前提下,減少人工標注時間是很有必要的。


機器和人協同標注的方法已經被研究多年,基于協同策略,現有的方法被分為兩類:Agent-decisionHuman-decision


Agent-decision 就是首先標注者進行粗略的標注,然后機器進行自動修正。這些標注結果很少作為 ground-truth。


Human-decision 就是首先讓機器自動生成粗略的標注結果,然后標注者進行手工精細修正,這些標注結果是可以作為 ground-truth。顯然,機器標注結果越好,人工修正的時間越短。但是 Human-decision 方法中缺點就是,機器初始化是靜態的,需要預定義或預先訓練參數,這就意味著會反復的犯同樣的錯誤即使分割同一個語義對象。


因此,很多協同標注方式都是通過利用機器的參與減少人工標注時間,但是仍然存在一些問題,鑒于此本文提出了一種智能協同標注工具 Colt:在人機交互標注的過程中不斷學習,使得機器的標注越來越好,人工參與越來越少。


思路


本論文的總體思路是首先利用機器自動生成初始標注結果,人工修正,隨著人工修正的結果越多,機器進行學習可以進行機器自動修正,進一步減少人工修正。整體框架圖如圖 1 所示。


?圖1. 論文整體框架


機器自動化


機器自動化標注主要利用稀疏編碼的思想,對待標注圖像進行編碼,編碼長度的大小就意味屬于前景物體的可能性大小,選擇一個閾值分離前背景就能得到自動化標注結果。對于機器初始化標注,作者首先構建了兩個字典:強字典、弱字典,將這兩個字典作為稀疏編碼圖像的碼表。


字典構建


首先根據每一類圖像的語義標簽計算語義相似性,然后根據圖像特征計算每類圖像之間的視覺相似性,聯合得到每類圖像之間的總相似性。選擇相似性大于 0.95 的類別作為當前類別的稀疏編碼字典。有像素級標注圖像類別的特征的作為強字典,沒有像素級標注圖像類別特征的作為弱字典。


稀疏編碼


編碼對象是用 MCG 算法對圖像提取出來的排在前 200 的圖像 proposal。由于圖像的分辨率和像素密度很高,作者為減少人工點擊次數,借助超像素塊進行操作。作者把 proposal 編碼長度映射到超像素塊并歸一化得到每個超像素塊的屬于前景的可能性值,選擇大于 0.4 的作為前景,剩下的作為背景,得到機器初始化結果。


人工修正


根據機器初始化結果,標注者進行修正:如果前后背景錯誤直接點擊左鍵,如果邊緣分割錯誤,首先點擊右鍵進行分裂成更小的超像素塊,然后點擊左鍵。在人工修正的過程,機器會自動保存點擊超像素塊的 3 鄰域特征用于后續的機器自動修正。?


機器自動修正


選擇在閾值 0.4 上下 0.15 范圍內的超像素塊,用人工修正保存的超像素塊 3 鄰域特征進行稀疏編碼,得到這些超像素塊的編碼長度,歸一化選擇大于 0.95 的超像素塊進行前景背景在初始化基礎上進行反轉。得到機器自動修正結果。隨著人工標注的結果越多,機器能學的越精確,自動化修正結果會更好。


實驗


本文選取了 40 個圖像類別。在 ImageNet 數據集 1000 類中并且和 MSCOCO 有相同標簽的 10 個類別、在 ImageNet 數據集 1000 類中并且和MSCOCO有不同標簽的 10 個類別、不在 ImageNet 數據集 1000 類中并且和 MSCOCO 有相同標簽的 10 個類別,不在 ImageNet 數據集 1000 類中并且和 MSCOCO 有不同標簽的 10個 類別。


作者選擇 10 個年齡在 20-28 周歲之間的標注者進行標注,每個標注者用 LabelMe 進行標注 4 個圖像類別。得到 LabelMe 的標注結果,作為本文的 ground-truth。


為了比較作者方法的自動分割結果,作者和當前自動分割處于領先水平的兩個方法:DeepMask 和 SharpMask 進行比較。發現這兩個方法的結果都明顯低于 Colt 的初始化結果。具體結果見圖 2。


?圖2. 自動化對比結果


為了比較最終標注結果,作者選擇另外 10 個年齡在 20-28 之間的標注者用 Colt 進行標注,和 LabelMe 的標注結果計算 F-measure,最終平均結果是 91.21。并比較了 Top5 和 Bottom5,具體結果見圖 3。標注對比結果見圖 4。


?圖3. 最終標注結果


?圖4. 標注對比結果


作者還做了機器自動修正結果對比實驗,發現機器自動修正是有效的,結果見圖 5。


?圖5. 自動修正結果


但是 Colt 還是有一些缺陷,尤其是邊界超像素分割得不夠好,失敗的標注結果見圖 6 。


?圖6. 失敗結果


總結


與當前能作為 Ground-Truth 的人工標注方法 LabelMe 的標注結果相比,作者標注工具 collaborative tool (Colt) 的標注結果 f-measure 值能夠達到 91.21%,同時作者的標注工具能節約 50% 的人工標注時間。實驗結果表明在兼顧精確度的情況下還能大大的減少標注時間。




點擊以下標題查看更多論文解讀:?


  • 網絡表示學習綜述:一文理解Network Embedding

  • 細水長flow之NICE:流模型的基本概念與實現

  • 如何讓GAN生成更高質量圖像?斯坦福給你答案

  • 哈佛NLP組論文解讀:基于隱變量的注意力模型

  • ACL2018高分論文:混合高斯隱向量文法

  • COLING 2018最佳論文:序列標注經典模型復現

  • 一文解析OpenAI最新流生成模型「Glow」




#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。


總結

以上是生活随笔為你收集整理的ACM MM 2018论文概述:基于多粒度监督的图像语义物体协同标注的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。