数据产品经理修炼手册_AI产品经理之数据标注
前兩篇筆者分別為大家介紹了AI產(chǎn)品經(jīng)理需要了解的概率論通識(shí)、線性代數(shù)通識(shí)、微積分通識(shí),本篇文章中,筆者將繼續(xù)為你介紹AI產(chǎn)品經(jīng)理需要了解的數(shù)據(jù)標(biāo)注,供大家一參考學(xué)習(xí)。
前幾天參加京東的AI技術(shù)沙龍,在提問(wèn)環(huán)節(jié),有個(gè)小伙說(shuō):
“我是做銷(xiāo)售的,剛才您講的我都沒(méi)聽(tīng)懂,我就知道,現(xiàn)在AI是風(fēng)口,只要做AI相關(guān)的就能掙錢(qián),您能說(shuō)幾個(gè)現(xiàn)在我們這類人能做到嗎?能掙錢(qián)就行!”
臺(tái)上技術(shù)出身的老師自然一時(shí)語(yǔ)塞。小伙說(shuō)的沒(méi)錯(cuò),百團(tuán)大戰(zhàn)的時(shí)候確實(shí)一批刷單公司賺得盆滿缽滿。但是這些投機(jī)取巧注定不能長(zhǎng)遠(yuǎn)。
讓更多人卷進(jìn)這次AI浪潮的可能就是數(shù)據(jù)標(biāo)注了,All in AI的百度擁有大量的標(biāo)注業(yè)務(wù),大部分河南標(biāo)注工廠用的是百度的標(biāo)注工具,干的是百度的活。開(kāi)始的時(shí)候標(biāo)注的利潤(rùn)空間可以達(dá)到60%—70%。有些企業(yè)盲目擴(kuò)張,一下子招了幾百人;但是陸奇離開(kāi)后,百度需求減少。準(zhǔn)確率又普遍提高至95%-96%,活難干了。這些工廠只會(huì)百度的標(biāo)注工具,很難接別家的業(yè)務(wù),因此死了一批。
現(xiàn)在來(lái)看標(biāo)注行業(yè)是一個(gè)苦行業(yè),“如果你和誰(shuí)有仇,就勸他干標(biāo)注吧。”這是標(biāo)注圈有名的段子。干標(biāo)注就像將水倒進(jìn)一個(gè)水桶里,每拉一個(gè)框就是添一碗水。目前,誰(shuí)也不知道還能添多久,只有水溢出來(lái)時(shí),才知道。
數(shù)據(jù)是AI公司的必需品。數(shù)據(jù)對(duì)于AI模型的重要性尤為重要,AI建模沒(méi)有門(mén)檻,數(shù)據(jù)才是門(mén)檻。現(xiàn)階段的人工智能是簡(jiǎn)單的認(rèn)知智能。分類器的構(gòu)造是個(gè)數(shù)學(xué)問(wèn)題,就是由數(shù)據(jù)堆起來(lái)的。或者說(shuō)深度學(xué)習(xí)本質(zhì)上是個(gè)數(shù)學(xué)問(wèn)題,是由大量的樣本空間數(shù)據(jù)反向構(gòu)造分類器的系數(shù)空間的過(guò)程。
數(shù)據(jù)標(biāo)注模型
數(shù)據(jù)標(biāo)注業(yè)務(wù)的配置是一個(gè)復(fù)雜的數(shù)學(xué)模型。比如,有些任務(wù)需要串并聯(lián)的工作流,并聯(lián)的工作流是多人協(xié)同的工作。串聯(lián)的工作流是后一個(gè)結(jié)果是基于前一個(gè)結(jié)果進(jìn)行處理的,串并聯(lián)的工作流需要平臺(tái)來(lái)實(shí)現(xiàn)業(yè)務(wù)工作流的配置。比如一些NLP型的文本標(biāo)注作業(yè),需要多個(gè)人來(lái)標(biāo),最后N選一或者投票。串并聯(lián)配置涉及到底層數(shù)據(jù)流的分發(fā)等。或者說(shuō)更像是一個(gè)流水線作業(yè)流程。
不斷地用標(biāo)注后的數(shù)據(jù)去訓(xùn)練模型,不斷調(diào)整模型參數(shù),得到指標(biāo)數(shù)值更高的模型。
數(shù)據(jù)的質(zhì)量直接會(huì)影響到模型的質(zhì)量,因此數(shù)據(jù)標(biāo)注流程設(shè)計(jì)和監(jiān)督糾錯(cuò)就顯得異常重要。
一般來(lái)說(shuō),數(shù)據(jù)標(biāo)注部分可以有三個(gè)角色:
只有在數(shù)據(jù)被審核員審核通過(guò)后,這批數(shù)據(jù)才能入庫(kù)使用。
一般眾包數(shù)據(jù)標(biāo)記流程
數(shù)據(jù)標(biāo)注類型
圖像標(biāo)注-線標(biāo)注
根據(jù)需求標(biāo)注檢測(cè)對(duì)象相對(duì)應(yīng)的線型位置,例如:車(chē)道線。
圖像標(biāo)注-邊框標(biāo)注
標(biāo)注檢測(cè)對(duì)象相對(duì)應(yīng)的區(qū)域,例如:汽車(chē)/行人等各種物體。
圖像標(biāo)注-3D邊框標(biāo)注
將圖像中待檢測(cè)物體以立體形式標(biāo)注,例如汽車(chē)檢測(cè)。
圖像標(biāo)注-語(yǔ)義分隔
根據(jù)檢測(cè)區(qū)域不同,將圖像標(biāo)注為不同的像素,例如來(lái)自汽車(chē)拍攝的圖像。
圖像標(biāo)注-多邊形標(biāo)注
根據(jù)需求標(biāo)注檢測(cè)對(duì)象的形狀,例如:標(biāo)注圖像中的汽車(chē)輪廓(示例圖)或標(biāo)記污損邊界。
圖像標(biāo)注-點(diǎn)標(biāo)注
根據(jù)需求標(biāo)注檢測(cè)對(duì)象參考點(diǎn)的像素坐標(biāo),或者圖像中的關(guān)鍵點(diǎn)標(biāo)記,如人臉。
圖像標(biāo)注-3D點(diǎn)云標(biāo)注
在3D空間中,標(biāo)注點(diǎn)云數(shù)據(jù)中指定的檢測(cè)對(duì)象,如汽車(chē)、行車(chē)道等。
視頻標(biāo)注-跟蹤標(biāo)注
在視頻或者連續(xù)的圖像中跟蹤標(biāo)注檢測(cè)對(duì)象,形成有ID關(guān)聯(lián)的運(yùn)動(dòng)軌跡。
文本標(biāo)注-中英文語(yǔ)音轉(zhuǎn)寫(xiě)與校對(duì)
英文語(yǔ)音轉(zhuǎn)中文文本,或中文文本轉(zhuǎn)英文語(yǔ)音。
文本標(biāo)注
實(shí)體命名,標(biāo)注文本中的實(shí)體。
語(yǔ)音標(biāo)注-客服語(yǔ)音標(biāo)注
外呼機(jī)器人進(jìn)行外呼記錄語(yǔ)音標(biāo)注呼叫成功或者失敗,從而訓(xùn)練話術(shù)。
標(biāo)注流程
總結(jié)
快速、高效的進(jìn)行數(shù)據(jù)標(biāo)注,是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的基礎(chǔ),現(xiàn)在一些標(biāo)注工具通過(guò)深度學(xué)習(xí)模型和主動(dòng)學(xué)習(xí)技術(shù),通過(guò)NLP模型來(lái)提高標(biāo)注效率,集數(shù)據(jù)標(biāo)注、數(shù)據(jù)管理、模型訓(xùn)練和模型服務(wù)于一體,使數(shù)據(jù)標(biāo)注更加輕松、更高效。離AI最近的重復(fù)復(fù)雜的工作,是首先會(huì)被機(jī)器取代的。
#相關(guān)閱讀#
《AI產(chǎn)品經(jīng)理需要了解的概率論通識(shí):4個(gè)概念3個(gè)問(wèn)題》
《AI產(chǎn)品經(jīng)理需要了解的線性代數(shù)通識(shí)》
《AI產(chǎn)品經(jīng)理需要了解的微積分通識(shí)》
作者:老張,宜信集團(tuán)保險(xiǎn)事業(yè)部智能保險(xiǎn)產(chǎn)品負(fù)責(zé)人,運(yùn)營(yíng)軍師聯(lián)盟創(chuàng)始人之一,《運(yùn)營(yíng)實(shí)戰(zhàn)手冊(cè)》作者之一。
本文由 @老張 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
總結(jié)
以上是生活随笔為你收集整理的数据产品经理修炼手册_AI产品经理之数据标注的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 苹果Mac Mini SD读卡器支持2T
- 下一篇: AI 趋势