日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

【数据相关】如何进行数据标注(1)

發布時間:2024/8/26 综合教程 19 生活家
生活随笔 收集整理的這篇文章主要介紹了 【数据相关】如何进行数据标注(1) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

現在網絡上關于深度學習算法的文章很多,但深度學習其實是數據驅動型。很多時候數據足夠好,能給算法開發提供很大的便利。

因此,本文主要講解數據標注。文章共兩個部分:(1)數據標注綜述(2)數據標注實踐要點

本文是第一部分:數據標注綜述

1、數據標注的作用

數據標注是大部分人工智能算法得以有效運行的關鍵環節。人工智能算法是數據驅動型算法,也就是說,如果想實現人工智能,首先需要把人類理解和判斷事物的能力教給計算機,讓計算機學習到這種識別能力。

數據標注的過程是通過人工貼標的方式,為機器系統可供學習的樣本。數據標注是把需要機器識別和分辨的數據貼上標簽,然后讓計算機不斷地學習這些數據的特征,最終實現計算機能夠自主識別。

2、數據標注的質量及標注流程

數據的高質量體現在兩個方面:一個標注的數量多,二是標注的質量高。

圖像標注的質量標準:圖像標注的質量好壞取決于像素點的判定準確性。標注像素點越接近被標注物的邊緣像素,標注的質量就越高,標注的難度也越大。如果圖像標注要求的準確率為100%,標注像素點與被標注物的邊緣像素點的誤差應該在1個像素以內。

語音標注的質量標準:語音標注時,語音數據發音的時間軸與標注區域的音標需保持同步。標注于發音時間軸的誤差要控制在1個語音幀以內。若誤差大于1個語音幀,很容易標注到下一個發音,造成噪聲數據。

文本標注的質量標準:文本標注涉及到的任務較多,不同任務的質量標準不同。例如:分詞標注的質量標準是標注好的分詞與詞典的詞語一致,不存在歧義;情感標注的標注質量標準是對標注句子的情感分類級別正確。

多數投票算法(majority voting,MV)是常用的標注質量評估算法。MV 算法是由約翰遜提出的一種通用性強的質量控制算法。它將絕大多數用戶選擇的結果視為最終結果。其基本思想為:假設有(m)個圖像標注任務((t_1,t_2,...t_m)),每個任務(t_i)對應一個二元分類。為提高標注質量和標注可靠性,將需要標注的對象(x_i)分配給(N)個員工(一共(M)個員工,(N≤M))。每個工人的標注結果為(y_i^jinleft{ 0,1 ight}),再根據((y_i^1,...y_i^N))推斷出(x_i)的最終標簽,其計算公式為:

(hat{y_i}= egin{cases}1,
& dfrac{1}{N}egin{matrix} sum_{j=1}^N y_i^j end{matrix}>dfrac{1}{2}\ random guess,
& dfrac{1}{N}egin{matrix} sum_{j=1}^N y_i^j end{matrix}=dfrac{1}{2} \ 0,
& dfrac{1}{N}egin{matrix} sum_{j=1}^N y_i^j end{matrix}<dfrac{1}{2}
end{cases})

圖像數據的標注流程為:

(1)數據清洗:排除數據存在缺失值、噪聲數據、重復數據等質量問題。

(2)數據標注:劃分標注任務、制定標注規范。進行標注任務。

(3)標注檢驗:由標注審核員或機器質檢機制,審核標注質量

3、常用的標注工具

點擊標注工具的名稱,即可獲取下載地址。每個鏈接我都試了,如果連接不上可能是需要掛梯子。

名稱 簡介 運行平臺 標注形式 標注格式
LabelImg 著名的圖像標注工具

Windows,Linux,Mac

矩形框 VOC和YOLO格式
LabelMe

著名的圖形界面標注工具,能夠標注圖像和視頻

Windows,Linux,Mac

多邊形、矩形、圓形、多段線、線段、點

VOC 和 COCO 格式

RectLabel

圖像標注 Mac

多邊形、矩形、多段線線段、點

YOLO、KITTI、COCO1、CSV
VOTT

基于 Web 方式本地部署的標注工具,能夠標注圖像和視頻

Windows,Linux,Mac

多邊形、矩形、點

TFRecord、CSV、VoTT

LabelBox

適用于大型項目的標注工具,基于Web,能夠標注圖像、視頻和文本

-

多邊形、矩形、線、 點、嵌套分類

JSON 格式
VIA

VGG的圖像標注工具,也支持視頻和音頻標注

-

矩形、圓、橢圓、多邊形、點和線

JSON 格式
COCO UI

用于標注 COCO 數據集的工具,基于 Web 方式

-

矩形、多邊形、 點和線

COCO格式
Vatic

Vatic 是一個帶有目標跟蹤的視頻標注工具,適合目標檢測任務

Linux - VOC 格式
BRAT

基于 Web 的文本標注工具,主要用于對文本的結構化標注

Linux - ANN 格式
DeepDive 處理非結構化文本的標注工具 Linux - NLP 格式
Praat 語音標注工具

Windows,Unix,Linux,Mac

- JSON 格式
精靈標注助手 多功能標注工具

Windows,Linux,Mac

矩形、多邊形和曲線 XML 格式

Reference

[1]蔡莉,王淑婷,劉俊暉,朱揚勇.數據標注研究綜述[J].軟件學報,2020,31(02):302-320.

總結

以上是生活随笔為你收集整理的【数据相关】如何进行数据标注(1)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。