【数据相关】如何进行数据标注(1)
現在網絡上關于深度學習算法的文章很多,但深度學習其實是數據驅動型。很多時候數據足夠好,能給算法開發提供很大的便利。
因此,本文主要講解數據標注。文章共兩個部分:(1)數據標注綜述(2)數據標注實踐要點
本文是第一部分:數據標注綜述
1、數據標注的作用
數據標注是大部分人工智能算法得以有效運行的關鍵環節。人工智能算法是數據驅動型算法,也就是說,如果想實現人工智能,首先需要把人類理解和判斷事物的能力教給計算機,讓計算機學習到這種識別能力。
數據標注的過程是通過人工貼標的方式,為機器系統可供學習的樣本。數據標注是把需要機器識別和分辨的數據貼上標簽,然后讓計算機不斷地學習這些數據的特征,最終實現計算機能夠自主識別。
2、數據標注的質量及標注流程
數據的高質量體現在兩個方面:一個標注的數量多,二是標注的質量高。
圖像標注的質量標準:圖像標注的質量好壞取決于像素點的判定準確性。標注像素點越接近被標注物的邊緣像素,標注的質量就越高,標注的難度也越大。如果圖像標注要求的準確率為100%,標注像素點與被標注物的邊緣像素點的誤差應該在1個像素以內。
語音標注的質量標準:語音標注時,語音數據發音的時間軸與標注區域的音標需保持同步。標注于發音時間軸的誤差要控制在1個語音幀以內。若誤差大于1個語音幀,很容易標注到下一個發音,造成噪聲數據。
文本標注的質量標準:文本標注涉及到的任務較多,不同任務的質量標準不同。例如:分詞標注的質量標準是標注好的分詞與詞典的詞語一致,不存在歧義;情感標注的標注質量標準是對標注句子的情感分類級別正確。
多數投票算法(majority voting,MV)是常用的標注質量評估算法。MV 算法是由約翰遜提出的一種通用性強的質量控制算法。它將絕大多數用戶選擇的結果視為最終結果。其基本思想為:假設有(m)個圖像標注任務((t_1,t_2,...t_m)),每個任務(t_i)對應一個二元分類。為提高標注質量和標注可靠性,將需要標注的對象(x_i)分配給(N)個員工(一共(M)個員工,(N≤M))。每個工人的標注結果為(y_i^jinleft{ 0,1 ight}),再根據((y_i^1,...y_i^N))推斷出(x_i)的最終標簽,其計算公式為:
(hat{y_i}= egin{cases}1,
& dfrac{1}{N}egin{matrix} sum_{j=1}^N y_i^j end{matrix}>dfrac{1}{2}\ random guess,
& dfrac{1}{N}egin{matrix} sum_{j=1}^N y_i^j end{matrix}=dfrac{1}{2} \ 0,
& dfrac{1}{N}egin{matrix} sum_{j=1}^N y_i^j end{matrix}<dfrac{1}{2}
end{cases})
圖像數據的標注流程為:
(1)數據清洗:排除數據存在缺失值、噪聲數據、重復數據等質量問題。
(2)數據標注:劃分標注任務、制定標注規范。進行標注任務。
(3)標注檢驗:由標注審核員或機器質檢機制,審核標注質量
3、常用的標注工具
點擊標注工具的名稱,即可獲取下載地址。每個鏈接我都試了,如果連接不上可能是需要掛梯子。
| 名稱 | 簡介 | 運行平臺 | 標注形式 | 標注格式 |
| LabelImg | 著名的圖像標注工具 |
Windows,Linux,Mac |
矩形框 | VOC和YOLO格式 |
| LabelMe |
著名的圖形界面標注工具,能夠標注圖像和視頻 |
Windows,Linux,Mac |
多邊形、矩形、圓形、多段線、線段、點 |
VOC 和 COCO 格式 |
|
RectLabel |
圖像標注 | Mac |
多邊形、矩形、多段線線段、點 |
YOLO、KITTI、COCO1、CSV |
| VOTT |
基于 Web 方式本地部署的標注工具,能夠標注圖像和視頻 |
Windows,Linux,Mac |
多邊形、矩形、點 |
TFRecord、CSV、VoTT |
| LabelBox |
適用于大型項目的標注工具,基于Web,能夠標注圖像、視頻和文本 |
- |
多邊形、矩形、線、 點、嵌套分類 |
JSON 格式 |
| VIA |
VGG的圖像標注工具,也支持視頻和音頻標注 |
- |
矩形、圓、橢圓、多邊形、點和線 |
JSON 格式 |
| COCO UI |
用于標注 COCO 數據集的工具,基于 Web 方式 |
- |
矩形、多邊形、 點和線 |
COCO格式 |
| Vatic |
Vatic 是一個帶有目標跟蹤的視頻標注工具,適合目標檢測任務 |
Linux | - | VOC 格式 |
| BRAT |
基于 Web 的文本標注工具,主要用于對文本的結構化標注 |
Linux | - | ANN 格式 |
| DeepDive | 處理非結構化文本的標注工具 | Linux | - | NLP 格式 |
| Praat | 語音標注工具 |
Windows,Unix,Linux,Mac |
- | JSON 格式 |
| 精靈標注助手 | 多功能標注工具 |
Windows,Linux,Mac |
矩形、多邊形和曲線 | XML 格式 |
Reference
[1]蔡莉,王淑婷,劉俊暉,朱揚勇.數據標注研究綜述[J].軟件學報,2020,31(02):302-320.
總結
以上是生活随笔為你收集整理的【数据相关】如何进行数据标注(1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 电脑蓝屏怎么解决笔记本电脑蓝屏怎么解决
- 下一篇: 怎么创建具有真实纹理的CG场景岩石?