浅谈数据标注平台运营模式
現如今,AI行業發展火熱各大巨頭都投入巨資在此領域布局,智能駕駛、人臉識別以及近段時間正火的AI養豬都是AI技術應用在實際生活上的體現,毫不夸張的說AI技術正在逐漸改變我們的生活而我們的生活也將因此變得更美好。
AI的發展離不開數據標注的支持,在此不再詳談數據標注和人工智能的關系,感興趣的可以可以查看《人工智能之數據標注》
一、常見的數據標注平臺
由于數據標注的重要性和高質量標注好數據的稀缺性在催生了一大批專職做數據標注團隊的同時也催生了一批數據標注平臺,比較有名的有百度眾測、京東眾智、龍貓數據、數據堂等。眾所周知百度在互聯網大廠是最早開始且投入巨資研Ai 技術的,所以百度眾測平臺的任務大部分都是百度內部的需求,他們也會接受其他AI公司的數據需求,但是在數據量和價格上會有限制。相比百度而言其他幾家數據標注平臺就比較親民一些了,中小型的AI公司的需求一般都會接受。為什么這個地方沒有提到大型AI公司呢?那是因為大型AI公司一般都會自建平臺且有專門的數據標注團隊負責公司的數據需求。
二、數據標注平臺的業務模式
(1)眾包模式:
現在數據標注通常采取眾包的模式,眾包模式的優點就是成本較低響應較快。這種模式適用較簡單的項目如點點拉框等項目。發布者往往將任務詳細介紹和題目一同發送到平臺上供廣大數據標注兼職人員作答。但眾包模式有一個很明顯的問題就是質量較難把控,因為眾包模式是面向大眾的你并不知道在給你做標注的是什么人,他們可能是廚師,是全職太太,是老師每個人對規則的理解不盡相同且不可避免的會有一部分對任務亂答一通影響項目質量。為此各平臺也會使用一些方式減少問題的產生提高項目質量。比如增加改判環節一道題在答完之后會由他人進行改判如若判錯則不獲得任務報酬,此外為防止錯判維護答題人員利益還會設置申訴環節使答題人員對有疑問的題目進行申訴。設置標注人員級別,標注人員任務正確率較高答題數較多則能慢慢提高等級解鎖更多任務獲得更多的任務報酬且有機會進入改判環節成為改判員。
(2)外包模式
外包模式與眾包模式相對是將任務外包給專門的數據標注公司和團隊,在項目一開始會對項目整體進行評估然后針對項目整體進行報價由數據標注公司自行安排培訓安排人手,只需要保證在項目截止日期前保質保量交付數據即可。這種模式的優勢就是數據質量和項目周期有保證。但是響應速度較慢成本較高,因為一開始需要安排競標且平臺需要安排專門的項目人員進行項目對接和項目跟進。現如今國內專門做數據標注的團隊較多,但是大多數只是以工作室和幾十人的小團隊為主且業務類型集中在簡單的拉框圖像標注上。也有一些的較大型的公司如貴州的夢動科技已經形成產業化帶動了當地的發展。又或者是“點我科技”他們自建有平臺可以自研工具同時擔任著數據標注平臺和數據標注公司兩種角色。
基于以上兩種業務模式的答題模式:
A模式:A模式指只進行一次答題模式,后續沒有改判操作。這種模式應用較少主要用于較簡單正確率要求不高的項目。
AC模式:AC模式指在答題完成后會有一個改判流程,改判員只能對題目進行正誤的判斷不能在答題的基礎上進行操作。
ACC模式:ACC模式和AC模式的主要區別是AC模式不能夠之前的答題情況作出更改,而
三、制約數據標注平臺發展的因素
一個好的業務模式能不斷拔高一個平臺的業務上限,上面介紹的兩種常見的業務模式(眾包模式和外包模式)因為他們都有各自的優缺點,所以單一的使用任何一種業務模式都是不可行的。單存使用眾包模式會帶來項目質量難以把控,風險高的問題,且眾包模式只適合承接比較簡單的需求。單一使用外包模式則會造成對數據標注團隊的過度依賴,降低整個平臺的活力,造成平臺現有人力資源的浪費。
對此我們需要兩種模式兼用初期需要投入一定的資源建立自已平臺的眾包團隊,這個人數一定要多只有這樣才能保證有足夠的活躍人數能夠完成數據標注任務,同時還要一直有眾包任務才能保證這些人一直活躍。眾包團隊建立起來之后我們就可以將簡單的任務通過眾包模式發放出去,一些復雜專業性比較高的任務則通過外包模式發放出去即可。
一個數據標注平臺必須要足夠的數據標注團隊才能承接更多的需求,為了增加平臺上入駐的團隊數量我們需要提高平臺內部的活躍度同時平臺上有足夠的任務。每個標注團隊往往都有擅長的業務類型,我們也需要根據不同團隊的特點發放給他們不同的任務。
一個平臺要想不斷發展一定要有足夠的任務,增加平臺承接的任務則需要提高平臺的知名度,提高平臺的知名度可以通過廣告投放,客戶口碑傳播,搜索優化等方式。同時還需要一個有力的商務團隊。
轉載于:https://blog.51cto.com/14065470/2355532
總結
以上是生活随笔為你收集整理的浅谈数据标注平台运营模式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 交换机断网的原因分析
- 下一篇: ipad协议最新版