5年为山西提供超5万岗位,2000万互联网众包用户,百度智能云数据众包高速增长
新基建浪潮下,作為人工智能的動力和“靈魂”,數據服務行業正在高速增長。
6月17日,百度智能云舉辦線上Techday技術分享日,暢聊AI基礎數據服務行業新機遇、新增長和社會價值。百度智能云數據眾包作為國內最大的AI數據服務提供者,2019年業務年度增長率超50%,正在為各行各業智能化轉型提供動能,促進智能經濟發展。同時,百度智能云數據眾包預計5年內為山西提供超過5萬個就業崗位,支持后疫情時代“保就業”。
?
新基建,新增長
近年來,國內AI發展駛入快車道,而作為AI技術發展的基石,數據需求與日俱增,這也使得AI數據服務行業迎來了空前的發展。艾瑞咨詢《2019年中國人工智能基礎數據服務行業研究報告》顯示,人工智能基礎數據服務市場規模2025年將破百億,行業復合增長率達到23.5%。
?
百度智能云數據眾包資深產品運營師李明在會上表示,自2011年起,百度智能云數據眾包就全面支持百度自動駕駛、小度助手等AI業務。經過十年沉淀和打磨百度智能云已經建立起采標能力業界第一、流程標準化工具智能化、全流程管控確保數據安全的一站式AI數據服務平臺,全面涵蓋了包括智能駕駛、手機行業、互聯網和AI開發者四大領域的全部頭部客戶,成為國內最大的AI數據服務提供者。
采標能力方面,百度智能云數據眾包建立起了業界第一的海量人工智能基礎數據采標能力。通過自建山西標注基地,擁有超過2000名專業全職標注人員;構建了遍布全國乃至全球22個國家渠道代理資源池,擁有超過5萬名線下采集員;超過2000萬名的眾包互聯網用戶,隨時響應各類數據采標需求,滿足市場95%標注場景需求。
數據質量建設方面,百度智能云數據眾包,建立起了一套標準化、工業化的生產流程和過程管理體系。在規范數據生產流程同時,標注生產環節以自動識別算法輔助標注效率和標注質量提升。
安全性和合規性方面,百度智能云數據眾包實現了數據安全和數據合規的全流程管控,從數據合規、客戶合規、用戶合規、隱私合規四個方面,以及數據獲取、數據加工、數據流出三個數據流轉階段,對數據隱私和安全進行保障。
正是基于百度智能云數據眾包全面、高質高效、安全合規的數據采標服務,各個行業的AI應用得以更好的實現落地。以自動駕駛為例,行業迫切需要數據量充沛多元的專用數據平臺,為此百度智能云數據眾包與智能駕駛實驗室配合完成了對數10萬針的高分辨率的圖像標注,標注內容涵蓋了語義標注、稠密點云、立體圖像、立體全景圖像,以及復雜的環境、天氣和交通狀況等等,使得百度ApolloScape擁有全球最復雜的自動駕駛高精度數據集,為全球自動駕駛開發者提供了更豐富和更復雜的數據應用場景去訓練學習和評測。
?
產業智能化,促經濟保就業
百度智能云數據眾包在促進傳統行業轉型升級,帶動就業方面也扮演了重要作用。山西地區以能源行業為主,而標注基地則承接了傳統行業分流過來的部分人員,不僅給他們提供了更多的就業機會,也讓更多傳統企業開始關注起其所在行業的變化。目前,百度智能云位于山西的標注基地已幫助2300人實現就業,幫助山西從全國各地引入34家國內優秀的數據標注企業,2019年全年實現標注業務產值超億元。預計未來5年內,百度智能云數據眾包和百度(山西)數據標注產業基地將為當地提供超過5萬個就業崗位,為后疫情時代的穩就業、保就業提供強有力支持。
在今年疫情期間,通過標注云平臺+云端分包+遠程辦公協同,百度智能云幫助123家數據標注企業3300余人復工投產。2月3日,百度(山西)數據標注產業基地1300多人遠程線上復工,復工率超過80%。基地作業人員加班加點,緊急完成了肺炎影像標注、戴口罩的人臉圖像標注、武漢方言語音數據采集與標注、智能駕駛數據標注等數據服務。依據這些數據建立的模型應用于AI測溫、肺炎篩查及病情預評估、口罩分類、口罩佩戴識別、自動配送等人工智能領域,助力疫情防控。
?
百度正在牽頭制定數據標注的地方標準,進一步標準化省內各項數據服務業務,提高山西在全國范圍內的影響力。2020年6月,百度智能云與山西政府達成進一步合作,雙方將共同打造山西綜改示范區AI數據交易平臺,加速推進數據經濟的落地,與當地政府共同打造有山西特色的數字經濟新高地。
?
對話實錄
以下是全球軟件案例研究峰會的主編趙強與百度智能云數據眾包資深產品運營師李明的完整對話:
?
?
趙強:第一個問題就是人工智能已經進入了大規模的落地的階段,那么有的人認為算法是核心,那么有的人認為算法是核心,您是怎么看待數據、算例、算法和應用場景這幾者之間的關系?
李明:其實數據算力和算法一般認為是人工智能驅動的三大核心動力,如果非要給這三個排一個序的話,我個人認為可能是數據,其次是算力和算法,那也跟大家分享一下我的一個判斷的原因,
- 第一我認為數據,因為人工智能的基礎其實是訓練,如同人類要去學習認知一樣事物一樣,需要大量的這種場景和數據給到人工智能這種算法供他去學習,A I其實跟人類是一樣的只有經過大量的這種訓練,神經網絡才能更好的總結出規律,應用到新的這種樣本上面,然后進行判斷,如果實際的訓練中出現了從未學習過的場景數據,AI的這種算法也沒有辦法很好的對它進行識別,所以對于AI而言大量的數據其實太重要了,而且重要的是要覆蓋各種各樣的場景,這樣才能得到一個表現良好的模型,使得模型能夠識別各種各樣的數據看起來更智能。
- 第二其實是算力,有了這個數據之后,需要對算法進行訓練不斷的進行學習,AI實際需要運行在這些硬件上面,也需要學習推理,這些都需要算力的支撐
- 第三其實是算法,大家現在在談算法其實談的比較多,但是其實目前來看算法的準入門檻已經沒有這么高了,比如說我們可以從公開的渠道獲取到很多公開發表的一些論文、一些開源的深度學習框架、然后一些各種各樣AutoML一些框架算法等等,而且中國新一代人工智能發展戰略研究院執行院長,原南開大學的校長龔克也認為 中國其實在核心算法上面,我們的領先身位并不是很有優勢,中國在這種超級計算和云計算領域然后目前已經發展到了國際領先的這種水平,然后但是接下來要解決的問題可能需要更加的這種開放和應用上云,反而中國在數據的和應用場景是能夠去領先世界的,所以人工智能在應用場景的這種落地,需要更多的這種場景數據的采集和場景數據的標注,以便使得我們的算法更加的優化,然后在算法應用的時候顯得更加的智能,數據算法和算力驅動的人工智能需要在各種場景完成落地應用使用才能更好的讓AI去賦能百態,促進各領域的數字化和產業化轉型
?
趙強:您簡單給我們介紹了一個就是大家爭論很長時間的問題,您也談了自己的理解,那么您是不是能夠讓大家用一個比較容易理解的具體的場景,因為您剛才提到了它的是落地是非常重要的,來介紹一下百度智能云的數據眾包在這些場景中起到了哪些類似基礎設施的這種作用?
李明:其實從人工智能的行業架構上來講可以分為四個層次,然后從下到上第一層其實是基礎層、第二層是技術層、第三層一般我們認為是平臺層、最上一層其實是應用層,剛才我們講到的這種算法算力和海量的數據其實屬于基礎層面應用,這就說明了海量的這種數據的獲取和加工,其實是整個人工智能發展的一個基石,然后在數據的這種層面人工智能需要感知、思考和決策更好的去模擬人類的這種行為的話,它就首先需要足夠多、足夠好的數據對計算機進行訓練。足夠多,其實代表原始的數據量就要很大,然后足夠好代表數據的質量要非常的好。多元豐富的這種數據才能應對各種人工智能訓練的要求。比如舉個例子來講比如現在我們現在智能手機上應用的比較多的FaceID,還有我們現在已經在一些機場或者車站然后已經應用的人臉閘機,FaceID和人臉閘機這就需要然后一些紅外的攝像機,然后一些這種傳感器和硬件的支持之外,能夠讓這些人臉閘機和FaceID識別各種各樣子的人臉,然后包括有遮擋的或者無遮擋的然后不同的這種光線的,然后可能是比如說戴眼鏡的,近期然后我們因為爆發了一些疫情,在戴口罩進行部分遮擋的這種情況下它仍然能夠識別,這就需要我們采集大量的各種場景下面的這種照片,人臉的這種真實的照片,然后同時都需要對這些照片進行精準的這種標注,進行人臉關鍵點的精準標注,比如說整個的這種眼睛周圍,整個的我們的顴骨、整個的嘴周、整個的我們的鼻子,標注的點越多,然后標注的生物特征點越多,這個照片將來被識別出來概率就越大,所以在這種情況下我們采集的數據越多標注到的特征點越多,經過算法反復訓練優化后就能夠學習到真實的人臉特征,這樣在不同的這種光線、不同的遮擋、甚至有在戴口罩的這種情況下,它都能夠被正確的這種識別出來。所以我們可以看到精準的大量的這種數據其實是優化訓練的前提也是我們實際投入應用的一個基礎。所以我們說其實數據在人工智能這個里面,它其實是起到基礎設施的一個作用。在新基建的浪潮下,百度智能云數據眾包已經成長為國內最大的aI數據服務提供者,為各行各業的智能化轉型提供數據動能為各行各業的智能化轉型提供數據動能
?
趙強:我覺得您剛才舉的例子非常好,用大家最近在出差或者是各種過程中遇到的人臉識別跟疫情相關的例子,能夠到告訴大家說它是怎么起到了一個基礎設施的作用,我注意到您剛才談的話題里面提到了說足夠多跟足夠好,然后給我印象比較深,那么您說一下可否給我們簡單介紹一下說在人工智能的基礎數據獲取里或想要獲得到足夠多跟足夠好的數據的痛點有哪些,而我們百度智能云的數據眾包又是如何解決這些痛點的?
李明:目前在整個數據的獲取的過程中,我們往往會遇到如下的一些痛點,比如說最典型的是數據隱私和數據安全,也就是我們常說的數據的合規性。然后另外一個其實整個的這種數據質量,然后對于算法優化來講然后他起到作用也是非常關鍵的,然后所以數據質量也是會大家比較關注的一個點。同時剛才我們提到了足夠多,足夠剛才的數據質量其實是足夠好。那么還提到足夠多就需要能夠很強的這種數據的采集和標注加工的處理能力,然后能夠處理大批量的這種數據的需求,所以總結來看其實是會涉及到數據安全和采標能力然后以及數據質量的控制,然后等等這幾個痛點。對于這幾個方面來講百度智能云數據眾包,然后我們是怎么做的呢?
在數據安全這個方面,其實我們建立起了從數據安全到數據合規的全流程的一個管一個管控,從商務階段的數據確權然后到數據加密到實名認證然后以及生產環節的生產監控等各個環節,我們確保整個在傳輸、生產、交付的這種階段全都是合規的。然后并且是產權是明晰的。
在采標的能力階段,我們其實建立起了業績第一的這種采標能力,我們自建了一個山西的標注基地,擁有超過2000名全職的采標人員,以及我們遍布全國乃至遍布全球22個國家的超過5萬名采標人員的代理商資源池,以及我們遍布全國乃至遍布全球22個國家的超過5萬名采標人員的代理商資源池,這些都是為我們采標能力的這種建設然后提供了巨大的幫助。同時我們通過不斷的這種技術創新和技術積累,百度智能云數據眾包所支持的標注場景,以及能夠滿足市95%以上的主流標注場景,在數據的質量建設上面我們也建立起了標準化甚至工廠化的這種數據標注的一個流程,百度智能云數據眾包到目前為止已經成長為業界采標能力第一、流程標準化、工具智能化確保數據安全的一站式的AI服務平臺。
?
趙強:您剛才提到了一個數據就是說我們在山西自建了一個基地,而且后面提到了您百度智能云的數據眾包幫助了很多人完成了他們的就業,然后我們也在前一段時間也有聽說過就是說在疫情期間,因為不能出門有很多人咱們的數據眾包的業務是成功的實現了就業或者有一些企業通過實現了線上的轉型,您可不可以給我們介紹一些在疫情期間眾包是怎么幫助解決就業問題的,
李明:確實因為疫情的這種影響,很多我們實際的一些生產單位對我們的實際的和人員的這種生活造成了很嚴重的這種影響,在今年一季度的時候,我們利用我們整個的這種標注的一個云平臺以及百度智能云順包特有的一個云端分包的一種任務形式,然后再百度自有的遠程辦公協同平臺-百度如流,然后我們通過百度如流的這種方式,然后對這些企業進行遠程的這種培訓幫助這些企業然后進行遠線上培訓線上辦公以及幫助他們實現線上的這種數字化轉型線上的這種生產。通過我們整個的業界領先的這種數據標注的云平臺,再加上我們遠程辦公協同,然后我們在整個Q1成功的幫助了超過120家企業、超過了3300標注員,實現了線上的這種復產。我們業務穩定進行和客戶的需求得到及時滿足的同時,也幫助他們實現了在疫情期間的這種穩定的復產和就業。同時我們在山西這邊也建了一個數據標注基地,剛才已經介紹到了我們目前整個的這種全職的標注員已經超過了2000人,實際上是幫助兩兩千名當地的這種人員,包括應屆畢業生、也包括我們從其他行業轉型升級過來的這種分流人員,比如說山西這邊其實傳統的是以能源行業為主的,我們目前在產業轉型升級這種情況下,我們整個的標注基地也承接了從其他的傳統行業分流過來這些人員,從而實現也一定程度上幫助,進行產業的這種轉型升級,同時我們還接受了一些這種社會的一些人員,包括我們的一些殘障人士,然后我們都重新幫助他實現的這種就業。我們整個基地這邊,對于新入職的這些人員也有比較科學的這種培訓和晉升的這種機制,能夠保障他們掌握我們整個的這種標注技能。我們跟山西這邊其實和合作會是一個長期的這種過程,在未來5年我們希望通過山西基地的這種示范的作用,能夠相關的數據標注數據標注的相關產業在山西匯聚,從而在未來5年之內能夠直接的為山西本地創造超過5萬個的就業崗位。
?
趙強:非常感謝您的介紹,然后一般提到人工智能或者機器學習我們想到的都是冷的機器,但是沒想到這冰冷冷的機器后面有很多溫暖的這些人文的關懷。我們回到我們百度智能云的數據眾包上,它目前在哪些典型的AI場景落地比較廣泛以及我們通過一些市場上公開的數據我們可以看到,企業在數據采集和標注上面在近幾年的投入非常大,而且是一個呈逐年上升的趨勢。您認為造成這種投入增大的主要原因是什么?
李明:百度智能數據眾包目前已經全面涵蓋了包括智能駕駛百度智能數據眾包目前已經全面涵蓋了包括智能駕駛,包括手機行業以及互聯網和AI開發者等四大領域的這種全部的頭部客戶,隨著這種新基建的提速,人工智能行業然后也會進入快速的一個發展的時期。市場對海量數據的基礎需求 在人工智能AI加速應用落地的過程中其實您說的非常對是會越來越大的日益增強的。我個人認為這塊可能會有主要的三個的一個驅動因素:第一是整體AI行業的一個高速發展,因為不論是從國家的這種政策還是實際我們的這種產業轉型的需要上來講,整個AI行業的這種發展其實是在不斷提速的。第二個AI運用落地時,其實對數據是具有強依賴性的。第三個是像無人駕駛,人臉識別等這些新興的一些aI應用場景的這種興起。據研究報告的這種顯示到2025年,整個人工智能基礎數據行業的這種市場的需求規模可能會超過百億元人民幣,根據艾瑞咨詢《2019年中國人工智能基礎數據服務行業研究報告》顯示,我們百度智能云數據眾包的服務市場的和營收額已經達到了業界第一的這種規模。而且新基建的這種到來,必將進一步刺激市場的基礎數據需求的這種增長。那也必將為我們百度智能數據眾包的進一步的發展迎來一個良好發展的新機遇。
?
趙強:您剛才提到了新基建提速,未來會有更多的客戶,去選擇咱們的百度智能云的數據眾包的服務。接到這個數據眾包的這些需求大部分都是定制的需求,那么這些客戶無論是您提到的手機、自動駕駛是他身處哪種行業,他們肯定對這個數據的隱私和安全是非常在意的,那么咱們百度這種云數據眾包是怎么解決這部分問題的?怎么制定的安全以及安全保障的措施?
李明:對于數據合規和數據安全的這種建設方面,我們主要是會從數據合規、客戶合規用戶和資源的合規以及隱私和為四個方面,對數據的這種安全和合規性進行保障。這四個方面會涵蓋我們從整個數據的獲取到數據的加工生產。然后我們會跟我們的法務和客戶來合規的一個范圍。客戶的這種合規,我們會跟客戶明確約定數據的版權以及數據的接入規范。在用戶和資源合規的這種方面,渠道或者是客戶或者是用戶需要具備的安全資質我們會和渠道或者是客戶或者是用戶需要具備的安全資質,以及它們的生長環境需要具備什么樣子的一個生產環境。在隱私合規這塊,我們會完善整個用戶數據的一個隱私授權鏈。所以我們拿到這個數據,一定是經過數據的擁有方或者是數據涉及到的隱私方授權的或者是脫敏的。除此之外,這些這類的數據我們是不會動的,涉及到隱私的這種數據我們是不會動的。再舉一個例子來講比如說我們剛才提到的渠道和用戶的這種合規性,就是渠道資源調配的階段。在這個階段我們會對數據進行敏感度的一個劃分,并且明確各個敏感度的這種數據對應渠道的這種資質的要求,并且以此會渠道資源調配的一個強依據。從而確保對應等級的數據,必須具備對應安全等級資質的這種渠道或者資源來幫我們完成這樣一個匹配。
?
趙強:對于數據的加工過程中,除了安全是客戶比較關注的一個方面之外,那么這個數據的質量也是他非常關注的一個方面,就是這個數據最后真的是不是能夠保證加工出來的數據是符合我需要的,所以請您介紹百度智能云數據眾包是怎么建立有效的質量建設體系的?
李明:在整個數據的這種加工過程中我們也建立起了標準化然后甚至是工業化的一個生產流程。我大概介紹一下我們整個的生產加工流程,我們整個生產加工流程大概會分為三個階段,第一個階段其實是小流量測試的一個階段,然后在這個階段我們會通過小流量測試來明確數據的一個生產的規范和驗收的規范,并且我們會通過小流量測試來明確平臺工具的一個適配性,并且會測定我們的產值和功效。第二個其實是正式生產的這種階段,在正式生產的這種階段我們會結合資源的畫像以及資源渠道的負債率會進行科學的這種調配。并且我們有了資源調配資源調動調配的這種算法里面,我們會根據資源畫像的能力標簽以及資源當下的一然后對它進行任務的這種分配,從而達到資源調配效率的一個最大化。我們也會對整個的這種生產過程實時的進行監控,有比較完善的這種過程的管理措施,來確保整個的生產過程,他的一個生產的指標和生產的這種進度生產的規范是滿足我們要求的。在數據驗收的這種交付階段,我們還設立了三級的一個審核機制在整個的這種確認無誤后,方可交付到客戶這邊,由客戶在進行最終的這種驗收和審核。所以我們通過整個的建立起一個整套的這種標準化,數據的這種生產的流程,同時我們完善了每個環節的這種業務指標、調度和監控、以及過程管理,從而從這幾個方面去確保我們的數據質量是能夠滿足客戶要求的。
?
趙強:通過您的介紹,我們大概對百度智能云數據眾包如何在安全數據質量等方面是怎么進行保證的,那么我想這種保證可能也造就了咱們現在百度智能云數據眾包在采標能力業界第一的排名,那么請您介紹一下業界第一排名背后我們做了哪些努力?我們又做了哪些行業上的創新?
李明:整個百度智能數據眾包就像您說的取得目前的這種行業和市場地位,我們的確是經過了很多的這種積累的。這種積累可能我們整個的這種資源能力也就是我們采標能力的一個建設上面以及我們整個的流程和過程管理上面,其實最重要的還是我們技術的這種積累和創新。技術和積累和創新,可能分為這么幾個方面,第一個就是我們的標注能力,我們的標注平臺和標注工具,目前我們所能夠支持的這種標注能力已經可以覆蓋市95%以上的主要標注場景,基本實現了標注平臺和標注工具的一個標準化。所以雖然是定制的這種服務,但是對我們來講已經是標準化的。同時我們在整個的這種標注的過程中,在標注前和標注后我們都進行了算法的這種加持,然后通過的這種自動化的算法篩查無效的這種數據,使得整個的這種標注和審核的這種效率和質量都得到了大大的提升。去年我們曾經也做過的這種測算,經過的算法加持之后,我們整個的標注效率和標注的質量都提升了25%以上。標注同時除了為我們的客戶彩票的這種服務之外,我們還從客戶的實際需求出發開發出了數據標注的一個私有平臺。來支持私有部署和混合部署等多種的這種部署方式。所以除了我們現在提供的這種有的彩票服務之外,還為客戶提供了更多的這種選擇,尤其是一些涉及到數據保密的客戶我們為他提供了更多的這種選擇。
?
趙強:您剛才介紹很多百度智能云數據眾包在一些場景落地的情況,其實我們也聽說過咱們的采集和標注的能力。現在已經在支撐我們百度內部的很多AI的產品線,而且已經有了非常不錯的成績。是不是能跟大家分享咱們數據中包在百度內部的一些實踐經驗?
李明:我們都知道百度在人工智能上面在國內是投入比較早,并且目前是整個的這種研發聲量和市場聲量比較大的一方.目前比較為人熟知的其實就是自動駕駛,自動駕駛這個場景其實已經在多個地方.比如說長沙然后已經落地應用了。這就證明了自動駕駛已經從實驗室的這種象牙塔,進入到了這種規模化甚至是量產的這種階段。其實在自動駕駛開發測試的過程中海量的這種高質量的真實數據其實必不可少的一個原料。但是少有團隊有能力開發并且維持這么適用自動駕駛的一個平臺,并能夠定期校準或收集的新的數據集。因此所以對于自動駕駛的整個行業來講,其實急需有這樣的一個數據量充沛涵蓋的這種數據場景比較豐富的一個自動駕駛的專用數據平臺,所以我們與百度的機器人與智能駕駛實驗室配合完成了對數10萬針的這種高分辨率的圖像,進行了像素級的圖像的這種標注,這里的標注包括語義標注、稠密點云、立體圖像、立體全景圖像,這些標注進一步涵蓋更復雜的環境、天氣和交通狀況,經過三個月的這種努力,我們將ApolloScape建設成比Cityscapes、kitty等同類的自動駕駛數據集大10倍以上的這種數據量。也使得ApolloScape這個數據集成為全球自動最復雜的自動駕駛的高精度數據集。為全球自動駕駛開發者提供了更豐富和更復雜的數據應用場景,來供他們去訓練學習和評測。
?
趙強:我相信屏幕前有很多觀眾現在心里可能也有一個疑問,說雖然這個工作非常復雜,但是我也有可能自己去自建的一個標注團隊或者我自建一些什么工具。對于在您看來企業是自建工具或者團隊還是與第三方合作去獲取數據能力,在您看來有沒有什么一些判斷的標準?如果有企業想這么做你有什么建議給他們?
李明:自建團隊早期更多的承擔公司內部的算法研發和業務需求,往往可能標注的這種內容相對比較簡單,采標的這種需求量然后也會比較少。但是隨著AI算法從研發需求,發展到訓練的這種需求,再到真實的這種業務場景的需求。對于數據的需求量和標注當中復雜度的要求會明顯的提升。這個時候往往自建團隊,往往需要投入巨大的人力物力來進行自建團隊的這種運作,自研的標注平臺和標注工具的一個開發,如果是企業自建的這種團隊的話,自建團隊這種需求往往會受自身產品迭代周期,一個影響所以它整個的工作的這種飽和度會出現這種潮汐的現象。從而會造成這種自建團隊的可能人效會相對比較低下,人員的負載率也會比較低,進而會造成整個人力資源的一個浪費。因此企業的這種自建團隊來講,雖然現在有很多的這種企業開始自建團隊,但是其實對于市場的主流的這種市場需求來看自建團隊并沒有對市場的這種需求產生擠出的這種效應。相反市場供給的主力軍還是各類的人工智能基礎數據的服務提供者比如百度智能云數據眾包然后等等。所以目前來看,整個我們的基礎數據還是合作的一個主流趨勢,和第三方數據公司或者數據服務商來提供合作。
?
趙強:最后一個問題熒幕前應該也有很多觀眾比較感興趣的另外一個問題,就是百度智能云的數據眾包在未來會有哪些計劃中的發展方向,以及在未來還會提供更創新的服務,這點請您給大家簡單介紹一下?
李明:其實我們在這邊可能會分幾個方向來說一下,第一個仍然是我們采標能力也就是我們資源池的一個建設方面。大家都知道我們在山西這邊已經建了一個全國單體規模最大的標注基地,然后目前已經有超過2000名的全職人力,在幫我們進行采標的一些作業。未來我們會持續的把山西的這種標注基地,去把他做大做強。第二個通過不斷的在采標上面的一個數據的這種積累,其實我們現在已經積累了大量的這種數據的資源。未來我們希望能夠把這些數據的這種資源,對它進行歸納和整理形成行業的這種數據集和基礎的數據集。因為經過我們多年的這種采標的這種服務能力和數據的這種積累,我們會把我們目前積累的這種數據整理兩個方向的一個數據集,一個是行業的數據集,一個是基礎的數據集。基礎的數據集,比如說我們的計算機視覺識別、語音識別、自然語言處理等等。第二個就是我們行業的這種數據集,智能安防、OCR識別是涉及到我們實際的這種應用場景的這種行業的數據集通過這種方式,希望把我們現在積累的這種數據進一步形成數據產品把我們的數據資產化。第二步我們希望去建設一個人工智能的基礎數據的開放平臺,這個平臺上面我們會打包我們整個的這種數據基礎服務,以及我們的數據集的這種產品,進行線上的這種交易共享。為全國的這種人工智能開發者和科研提供數據采標服務的同時,也提供數據集的共享和交易服務。來促進我們整個數據資產的交易流通甚至變現。第三步我們希望能夠去打通整個的這種數據生產,數據交易和數據應用的三個環節,實現這三個環節的一個有機的銜接以及在這個過程中形成一個數據生態的閉環。將數據生產的這種環節更多能夠導入到我們的合作伙伴,導入到我們的這種山西基地,進一步的培育壯大,當地的一個數據標注的這種產業。像我們剛才說的我們未來其實希望能夠在山西,為當地去創造超過5萬個的一個就業崗位進一步培育的培育壯大當地的一個數據標注產業。我們也會把更多的這種數據產品和數據能力提供到我們數據使用方,以帶動我們整個算法模型的這種開發訓練,和促進行業應用的一個落地。而正是這種應用場景的數據需求,可以反過來指導和驅動我們數據產品的建設和數據的生產。從而來實現整個數據生產、數據積累、數據流通、和數據應用的有機循環,進一步盤活數據資產的同時,帶動當地的這種產業智能化轉型然后幫助我們的這種企業來進行穩產和促進就業。
總結
以上是生活随笔為你收集整理的5年为山西提供超5万岗位,2000万互联网众包用户,百度智能云数据众包高速增长的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谷歌浏览器不使用独立显卡
- 下一篇: 网校搭建9:微信登录