数据“土豪”电信云告诉你,如何“玩转”数据生态
近日,T11 2017 暨 TalkingData 智能數據峰會在京舉辦。本屆大會以“知機識變,有唐之盛”為主題,有來自不同行業的數據科學家、分析師、企業管理者參與,共同探討大數據與行業結合的技術趨勢、場景應用、前沿案例,助力傳統企業轉型為數據驅動型企業和,推進行業生態建設。
其中,在智能數據服務分會場,電信云大數據事業部副總經理吳章先分享了電信云在開放共享、共建數據生態方面的經驗。
在天翼大數據方面,吳章先表示,在建構大數據能力上有以下三個方面較為關鍵:
第一,分布式數據中心。所建的大數據分析節點需要區域化,甚至有多個節點,不同層級。
第二,數據層面。所有應用服務提供商或行業數據能力提供商,他們的數據維度一般是依托于生態鏈或應用服務產品。運營商數據源基本上覆蓋了廣泛領域,但在數據方向的深度還需要進行挖掘。
第三,建立數據平臺。由于電信運營商的特點是整個數據產生的節點分散、規模巨大、種類多,所以要有卓越的數據治理和平臺運營能力。
而在構建數據生態上,在他看來,“在大數據開放合作領域里,這兩年我們看到從整個行業生態上,離真正數據打通還比較遠;其次,如何通過平臺賦能,來實現真正數據的開放融合也是目前難以解決的問題。”,這些挑戰都需要在未來引起重視并找到有效解決方案。
以下為吳章先演講內容,雷鋒網(公眾號:雷鋒網)做了不改變原意的編輯:
在三年前,我參加中國營商大會,聽了 Google 一位總經理介紹大數據領域里面土豪的時候,畫了四個象限,把三個運營商劃到了土豪象限里面,就是擁有數據,不怎么會玩。
經過這三年時間,我們在逐步摸索,利用運營商已有的一些數據成果,去想怎么更好的服務社會。在這當中,我們也發現整個數據如果不進行打通,或者僅僅以某一個企業自有數據去做很多服務時,都會或多或少碰到一些問題。
首先,給大家介紹一下天翼大數據的情況,第二,站在平臺角度看一下我們如何構建數據生態。
天翼大數據發展概況
大家最早用固話,都是用電信的固定號碼,現在也有一些移動,以及在很多家庭里面用的 IPTV,包括酒店里面用很多內容的機頂盒,都使用的是電信的服務。所有這些服務里面都脫離不了最重要的基礎,很多企業在大數據領域的經驗,他們所做的所有應用,所有大數據分析能力,實際上都要構架在一個基礎設施上面,而中國電信擁有全球最大規模的大數據基礎。
從我們目前跟很多行業專家、行業技術團隊溝通時,發現有幾個方向可能在未來在建大數據能力方面是比較關鍵的:
第一,分布式數據中心。可能我們所建的大數據分析節點需要區域化,甚至多個節點,不同層級,包括我們今年跟國家幾個部委溝通時,都發現有這樣的需求。電信的“2+31+X”的技術機構,再加上我們已經在數據中心專門承建 DCI 網絡,能夠滿足大家的需求。如果大家了解的話,應該知道中國電信最早 163 到企業 CN2,到現在 DCI,有三張底層的骨干網支撐大家的基礎能力。
第二,數據層面。所有應用服務提供商或行業數據能力提供商,他們的數據維度一般是依托于生態鏈或應用服務產品。運營商數據源基本上覆蓋了廣泛領域。從接入層面來講,不管是家里的寬帶,通過移動網、IPTV以及其他一些設施在接入運營商服務還是其他行業服務時,都會有大量數據產生,這也是我們運營商本身在數據源的優勢。整個覆蓋層面,不管是在時間空間上,還是本身使用場景上,都是比較全面的。
現在在數據領域里,運營商的數據具備數據面比較廣,但是它的數據在某一個方向深度不夠的特點。目前,天翼云已經累計超過 30 個 PB 的數據,日處理量超過 200T。
第三,要處理這些數據,就需要有一個能力強大的平臺。我們有卓越的數據治理和平臺運營能力,因為電信運營商的特點是整個數據產生的節點分散、規模巨大、種類多,所以我們在數據治理、數據平臺運營上積累了很多經驗。
經過這三年的治理,我們形成了一個非常穩定的數據生產線,在很多行業,目前尤其跟我們比較類似的一些部委,如衛計委,他們的數據跟我們特點非常相似,需要有一整套設施來幫助進行處理。
此外,依托這些數據,已經形成了非常多的產品和解決方案。我們在三年里有 4+1 產品體系,十大行業解決方案。從我個人經驗來看,在 2015 年剛發生上海踩踏事件時,利用我們的數據幫助政府做人流熱圖,2015 年開始,我們發現在景區旅游,依托運營商數據可以做很多事情。
今年我們發現通過一些數據打通,包括我們在景區里面跟 TalkingData 進行合作,把一些互聯網數據和運營商數據結合,通過更好的數據模型能夠更精準預測或分析出景區人群整個情況。現在,我們還在更宏觀的一些領域和更微觀的領域有了更好的發展。
4+1 產品體系里,現在有一個底層 PaaS 大數據分析平臺,叫飛龍平臺,是云數一體的大數據平臺。這里不僅僅是云端,大家可以利用這個數據平臺進行相應數據分析,進行數據產品化,進行數據對外輸出,這個大數據飛龍平臺也可以提供給相應企業、相應合作方,部署到他們自有的企業IT設施里進行業務的支撐。
如何構建數據生態
回到今天的主題,我覺得一下幾個觀點非常正確。首先,現在在大數據開放合作領域里,目前就我個人來看,還是處于非常初級的摸索階段。我們都非常希望數據流通、數據安全、數據隱私等等問題能夠通過很好的方法來解決,但實際上,這兩年我們看到從整個行業生態上來看,離真正數據打通還比較遠。我們看到幾個重要的問題里,從能力支撐到平臺,到數據,到安全,可能首先要從基礎的能力上去解決,這也是我們今天在第二部分里面給大家去分享的。
其次,如何通過平臺賦能,來實現真正數據的開放融合。用區塊鏈的技術,能不能解決在數據分享里數據流通性、安全性問題,因為數據本身是可復制的,一旦進入流通環節,數據價值馬上會以指數級別消減。這個問題我們看到所有擁有數據的公司非常關注,這也是難以解決的問題。
在過去三年時間里,我們對數據,通過平臺來進行相應的安全性加固、安全性運營,同時我們也跟很多行業合作伙伴進行了相應嘗試。通過在平臺功能上、規則上、管理上的措施,已經看到了怎么能夠真正把數據流通做下去。
目前,我們在天翼云整個云端平臺上提供了一個一站式開放服務,包括給數據提供方、產品開發者、客戶提供了完整的一整套業務支撐體系。我們堅持一個原則,數據擁有方對數據加工、數據開放、數據的運營,擁有絕對的權力。也就是說數據擁有方在我們平臺上上傳數據,對這個數據進行加工操作,都是數據擁有方自己去處理的。在上面,我們也提供一整套完整的,包括開放運營、安全的整套機制。
在平臺保障上,通過運營商強項,在運營服務上給我們的合作伙伴、數據合作方提供相應完整的服務,不僅僅是有運營服務,還有平臺能力服務,還有一些產品開放策略。過去三年,中國電信天翼云針對我們的數據,已經形成了一整套機制,形成了相應服務能力,給我們的合作伙伴進行開放。
在策略上,我們在整個平臺里形成了五分一統,很多數據擁有方,尤其是黨政企業,還有國企,他們的數據本身在數據IT能力上面略弱,我們通過整套機制,從分類、分級、分型、分布、分權已經把數據整個加工、數據處理、數據開放形成一整套管理手段。在對外輸出時,通過統一出口,使得我們數據應用方在對外服務的時候,能夠實現可管、可控、安全可靠,能夠使得我們通過這個開放平臺,快速的把數據合作、數據共贏、數據融合做下去。
運營保障體系上,通過完善大數據的開放運營,從業務切入詳細去幫助應用需求看它對數據的分析,在運營閉環上,通過各個不同數據環節,我們在審計安全上,在日常運營維護上,是否可靠,是否正常。我們在對外服務方面,也有很多不同的方式,不管是云托管方式還是私有系統方式。在底層,我們有彈性的成長過程,數據從一個節點到另外一個節點,甚至多節點服務,依托中國電信云網融合的方式都可以很方便、很快速的支撐。
我在過去交流所有場合里,大家最擔心的還是安全問題。對有一些企業來講,安全性問題意味著財富,意味著資產流失,對有一些企業或政府來講,安全性問題意味著他頭上的烏紗帽或屁股下面的位子,大家非常關注,每一次決策都非常謹慎。我們在整個天翼云大數據開放平臺上,平臺賦能很關鍵是在安全上提供全生命周期的安全保障,不僅僅是從I層,從物理安全保障、網絡安全保障、主機級安全保障、應用級安全保障方面,提供整個安全服務能力。
此外,我們對應用的全周期也是提供相應安全服務。這種安全服務不僅是在技術上進行體現,同時也從我們管理機制,同我們整個對數據加工的分級分權,以及數據加工一整套安全流程去保障。
進行了所有安全加固以后,會帶來一個問題,我們在數據分析時,冗余度或靈活度去哪里了?中國電信大數據平臺上,有一個有效的機制,通過互信融合,當我們需要對比較原始的數據進行融合分析時,比如 A 客戶數據和 B 客戶數據要在一起進行分析,然后產生最后的分析結果,這個時候怎么辦?
我們會在平臺上分配一個臨時空間,臨時空間里不能夠進行數據的對外輸出。它可以在臨時空間里面對相應數據進行融合分析,分析完的結果通過審計以后再輸出,輸出只是分析結果,一旦分析結果輸出完以后,這個空間我們就會把它銷毀掉,所以所有用戶原始數據都不存在流失和被盜風險。所有操作我們也會通過日志和審計功能,讓數據擁有方能看得到。
我們前面說五分一統,數據分析靈活的機制,是確保這個平臺上數據可以進行共享融合,能夠進行分析的。
安全保障領域里,我們有相應的安全合規功能,從隔離、脫敏、標識、授權、審計五大方面,幫助云公司自己,還有我們的客戶進行整體安全后的保障。從隔離中,按功能分類,從數據敏感區域里給客戶提供相應的工具,然后到脫敏、標識、授權、審計,有一整套完善的流程。
下面說一個案例。在整個平臺上,我們跟一個 AI 公司一起做的流程是這樣的。它有一些外面金融行業的數據,在我們平臺上用云公司自有數據,通過構建一套 AI 組件,來進行整個融合分析。通過這種分析,一方面我們避免了大量各種不同產品需要專家進行設計、建模,而是通過 AI 方式,幫我們通過機器解決,來真正實現業務場景的輸出功能。從實際效果來講也非常好,從千分之二提升到千分之五的用戶轉化率。
最后希望通過構建一個完善的,比較強大的平臺,通過應用驅動數據的模式,構建這個數據生態。我們希望可以跟所有業內企業、業內客戶一起在這里共同構建完整的大數據生態,真真正正把大數據的價值對行業的影響能夠做到最好。
本文作者:王金許 本文轉自雷鋒網禁止二次轉載,原文鏈接 與50位技術專家面對面20年技術見證,附贈技術全景圖
總結
以上是生活随笔為你收集整理的数据“土豪”电信云告诉你,如何“玩转”数据生态的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C++ STL 常用遍历算法
- 下一篇: 程序员的困惑