为数据而生:大数据创新实践八步骤
什么樣的企業(yè)可以稱得上是大數(shù)據(jù)企業(yè)呢?恐怕沒有人能夠給出一個完美的答案。但是,直觀地,我們可能覺得Google更像是一個大數(shù)據(jù)的企業(yè),阿里巴巴也像是一個大數(shù)據(jù)的企業(yè),而中國銀行似乎不太像一個大數(shù)據(jù)的企業(yè),盡管它每天也一樣浸泡在海量的數(shù)據(jù)中。
關(guān)鍵詞:?大數(shù)據(jù)
成為大數(shù)據(jù)企業(yè)
什么樣的企業(yè)可以稱得上是大數(shù)據(jù)企業(yè)呢?恐怕沒有人能夠給出一個完美的答案。但是,直觀地,我們可能覺得Google更像是一個大數(shù)據(jù)的企業(yè),阿里巴巴也像是一個大數(shù)據(jù)的企業(yè),而中國銀行似乎不太像一個大數(shù)據(jù)的企業(yè),盡管它每天也一樣浸泡在海量的數(shù)據(jù)中。除了具有處理大量數(shù)據(jù)的能力外,之所以Google 和阿里巴巴更像大數(shù)據(jù)的企業(yè),是因為他們有深入的數(shù)據(jù)分析工具,利用數(shù)據(jù)分析的結(jié)果直接指導(dǎo)決策,而且經(jīng)常推出基于數(shù)據(jù)分析的創(chuàng)新型應(yīng)用,這還不包括類似于AlphaGo 這樣的奇葩。
這是我第三次以文字的形式談?wù)撊绾纬蔀橐粋€大數(shù)據(jù)企業(yè)。一是很早以前在“科學(xué)網(wǎng)”上寫的一篇博客,二是為一本名為Code Halos 的書寫的序言。這個版本可以看作是上兩個版本的補(bǔ)充和擴(kuò)充,同時也是本書一些重點(diǎn)內(nèi)容的重述(為了保證本文的獨(dú)立性,可以不依賴本書直接閱讀,少量書中給出過的文獻(xiàn)和注釋在本文中重復(fù)出現(xiàn)了)。然而遺憾的是,并沒有一條放之四海皆準(zhǔn)的通往大數(shù)據(jù)企業(yè)的康莊大道,更沒有點(diǎn)石成金之術(shù)可以讓一個企業(yè)快速Google化。這篇結(jié)束語只是提出一些看得見摸得著的建議,藏在這些建議背后的大數(shù)據(jù)理念,或許更加重要。
盡管我是用Step1、Step2 這樣的說法來列舉成為大數(shù)據(jù)企業(yè)的措施,但是這些步驟之間并沒有嚴(yán)格的邏輯上誰決定誰或者時間上誰先誰后的關(guān)系。舉個例子來說,最好的辦法當(dāng)然是先有了數(shù)據(jù)標(biāo)準(zhǔn)再整理采集數(shù)據(jù),這樣可以不走任何彎路,但實(shí)際上完全沒有數(shù)據(jù),企業(yè)不會有動力做標(biāo)準(zhǔn)建設(shè),做出來的標(biāo)準(zhǔn)也可能是紙上談兵,完全不實(shí)用。又比如,數(shù)據(jù)管理平臺的建設(shè)能夠幫助更好地進(jìn)行全面數(shù)據(jù)化,但實(shí)際上它多半是全面數(shù)據(jù)化戰(zhàn)略進(jìn)行了一定程度之后才開始啟動建設(shè)的。總體來說,寫在更前面位置的,是更基礎(chǔ)的,但是沒有絕對的依賴關(guān)系。
Step 1. 全面數(shù)據(jù)化
“數(shù)據(jù)化”浪潮是整個大數(shù)據(jù)時代的起點(diǎn),它強(qiáng)調(diào)數(shù)據(jù)就是資產(chǎn),記錄一切可以記錄的數(shù)據(jù),并相信這些數(shù)據(jù)一定會在某一天產(chǎn)生巨大的價值。顯然,數(shù)據(jù)化是一個企業(yè)能夠通過深入數(shù)據(jù)分析,實(shí)現(xiàn)自身優(yōu)化的基礎(chǔ)。
我去長虹集團(tuán)調(diào)研的時候,他們告訴我,長虹電器在自己的生產(chǎn)線上,通過大量傳感器,記錄生產(chǎn)環(huán)境的溫度、濕度、粉塵度、振動強(qiáng)度和噪音強(qiáng)度,等等,通過這些量化指標(biāo)與產(chǎn)品質(zhì)量的關(guān)聯(lián)分析,得到影響產(chǎn)品優(yōu)品率和良品率的關(guān)鍵因素,再進(jìn)一步通過控制環(huán)境因素,明顯提高了產(chǎn)品的優(yōu)品率。企業(yè)在日常的經(jīng)營管理過程中,通過辦公自動化系統(tǒng)(OA系統(tǒng)),很多內(nèi)部即時通訊、郵件往來、工作分配和業(yè)務(wù)文件上傳下載等日志數(shù)據(jù)都被記錄下來了。這些數(shù)據(jù)就是寶貴的財富!正如我在書中第三部分提到的,我們通過對這些數(shù)據(jù)的分析,能夠更精確地預(yù)測員工的離職率和升職率,更精確地預(yù)測員工和部門的績效水平,幫助企業(yè)員工通過基于關(guān)聯(lián)用戶和文本智能匹配快速找到對自己現(xiàn)有業(yè)務(wù)和客戶有參考價值的案例和文件,等等。但是這些提升,都是建立在企業(yè)擁有相應(yīng)數(shù)據(jù)的基礎(chǔ)上。
總的來說,全面數(shù)據(jù)化要求企業(yè)采集并存儲企業(yè)生產(chǎn)經(jīng)營中的一切數(shù)據(jù),形成企業(yè)數(shù)據(jù)資產(chǎn)的概念。
Step 2. 整理數(shù)據(jù)資源,建立數(shù)據(jù)標(biāo)準(zhǔn),形成管理規(guī)范
很多企業(yè)已經(jīng)有了一些數(shù)據(jù)儲備,或者通過第一步,開始快速積累了一些數(shù)據(jù)。但是企業(yè)管理層,尤其是跨業(yè)態(tài)擁有多家子公司的集團(tuán)運(yùn)營的企業(yè),一般而言,對于自己到底有哪些數(shù)據(jù)資源是沒有清晰認(rèn)識的,更拿不出一張較完備的數(shù)據(jù)目錄。
企業(yè)要做的第一步,就是通過自頂向下的方式,成立數(shù)據(jù)委員會,在有必要的時候借助外部合作方的幫助,進(jìn)行全面的數(shù)據(jù)調(diào)研,了解數(shù)據(jù)資源的整體情況并建立數(shù)據(jù)資源情況更新的流程和規(guī)范。
數(shù)據(jù)資源最基本的呈現(xiàn)方式是一個數(shù)據(jù)目錄,我認(rèn)為,企業(yè)管理團(tuán)隊至少要掌握整個企業(yè)數(shù)據(jù)的3級目錄,而企業(yè)的主要技術(shù)團(tuán)隊?wèi)?yīng)該掌握到4級目錄。但數(shù)據(jù)資源又不僅僅是數(shù)據(jù)目錄,因為還涉及到每一個數(shù)據(jù)項的完備性、更新程度、有效性和噪音源等描述。掌握了數(shù)據(jù)資源后,企業(yè)要根據(jù)自己業(yè)務(wù)發(fā)展的需求,建立數(shù)據(jù)標(biāo)準(zhǔn),使現(xiàn)有數(shù)據(jù)和未來所有的新增數(shù)據(jù)都能夠在同一個標(biāo)準(zhǔn)下統(tǒng)一管理,避免“信息系統(tǒng)建設(shè)越多,未來數(shù)據(jù)整合越難”的困境。業(yè)務(wù)中涉及大量數(shù)據(jù)的企業(yè),尤其是涉及到用戶隱私數(shù)據(jù)、國家安全數(shù)據(jù)和具有重要商業(yè)價值數(shù)據(jù)的企業(yè),要形成數(shù)據(jù)全流程管理的規(guī)范,因為絕大部分?jǐn)?shù)據(jù)隱私和數(shù)據(jù)安全的事件,都不是從外部由黑客或者敵方特定人員通過技術(shù)手段獲得的,而是本單位人員蓄意或無意泄露的。數(shù)據(jù)全流程管理的規(guī)范就是要做到企業(yè)能夠?qū)?shù)據(jù)進(jìn)行分級分權(quán)限的管理,隨時了解敏感數(shù)據(jù)存儲在哪些服務(wù)器和終端設(shè)備上,對于敏感數(shù)據(jù)的任何處理,都能夠留下數(shù)據(jù)日志并打上唯一的數(shù)據(jù)水印,使任何可能的數(shù)據(jù)泄露之后,都能夠追根溯源知道是哪一位員工在什么時間點(diǎn)在哪一臺設(shè)備上運(yùn)用何種權(quán)限下載的。對于一些操作過程中出現(xiàn)的風(fēng)險點(diǎn),良好的管理規(guī)范也能夠?qū)崟r發(fā)現(xiàn),防患于未然。
Step 3. 建設(shè)數(shù)據(jù)管理平臺
有的讀者一聽到數(shù)據(jù)管理平臺,就認(rèn)為是要花一大筆錢建設(shè)數(shù)據(jù)中心,把數(shù)據(jù)存起來。數(shù)據(jù)管理平臺肯定要有數(shù)據(jù)中心的存儲災(zāi)備功能,但是它的作用遠(yuǎn)不止此。
首先,數(shù)據(jù)管理平臺要為企業(yè)量身定做一套數(shù)據(jù)組織和管理的解決方案,特別是企業(yè)各部門之間數(shù)據(jù)的共融共通,以及企業(yè)數(shù)據(jù)怎么樣進(jìn)行索引和關(guān)聯(lián)。很多大企業(yè),各部門之間數(shù)據(jù)的格式、形態(tài)和ID系統(tǒng)都不一致,部門之間無法交換數(shù)據(jù),甚至大部分的數(shù)據(jù)表連主鍵和外鍵都沒有,數(shù)據(jù)之間不可能形成有效的組織。這些都是數(shù)據(jù)管理平臺要做的事情。
其次,數(shù)據(jù)管理平臺是由業(yè)務(wù)所引導(dǎo)的,先進(jìn)的流數(shù)據(jù)智能處理系統(tǒng),要為業(yè)務(wù)提供直接的支撐。很多時候,數(shù)據(jù)管理平臺怎么搭建,需要深度了解企業(yè)最重要的核心業(yè)務(wù),通過有重大價值的示范性應(yīng)用來牽引數(shù)據(jù)管理平臺的建設(shè)。例如針對零售類的企業(yè),就應(yīng)該形成以消費(fèi)者為中心的索引和畫像系統(tǒng),主要支持精準(zhǔn)廣告、智能客服等核心業(yè)務(wù),其次才是以商品為中心的索引系統(tǒng),主要支持物流和倉儲優(yōu)化等業(yè)務(wù)。
最后,數(shù)據(jù)管理平臺的建設(shè)要量體裁衣,強(qiáng)調(diào)魯棒性和可擴(kuò)展性,沒有必要一開始就投入大量經(jīng)費(fèi)。因為硬件成本的下降也很快,不用想太多半年甚至一年以后的事情,只要架構(gòu)設(shè)計合理,到需要的時候擴(kuò)充硬件是容易的。
Step 4. 建立海量數(shù)據(jù)的深入分析能力
要想建立針對多元異構(gòu)、跨域關(guān)聯(lián)的海量數(shù)據(jù),通過深度分析挖掘獲取價值的能力,主要要培養(yǎng)兩個方面的能力。
第一,非結(jié)構(gòu)化數(shù)據(jù)的分析處理能力。包括文本、音頻、圖像、視頻、網(wǎng)絡(luò)和軌跡等數(shù)據(jù)。受過傳統(tǒng)商務(wù)智能和統(tǒng)計學(xué)訓(xùn)練的人,對于處理結(jié)構(gòu)化數(shù)據(jù)非常在行,但是處理非結(jié)構(gòu)化數(shù)據(jù)往往比較頭痛——比如分布好做抽樣,網(wǎng)絡(luò)怎么進(jìn)行抽樣?所以,對于常見的,特別是和企業(yè)自身業(yè)務(wù)有密切關(guān)系的非結(jié)構(gòu)化數(shù)據(jù),一定要有一支隊伍能夠挖掘其間價值,甚至將其轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)。
第二,大數(shù)據(jù)下的機(jī)器學(xué)習(xí)的能力。絕大部分我們可以想象到的應(yīng)用問題,其本質(zhì)都是分類或者預(yù)測問題,包括個性化推薦、精分營銷、員工績效管理、銀行信用卡征信、小微企業(yè)貸款、生產(chǎn)線控制、精準(zhǔn)廣告和網(wǎng)點(diǎn)選擇,等等。解決這些問題最有力的武器就是機(jī)器學(xué)習(xí)!特別是在大數(shù)據(jù)環(huán)境下,很多高階的核函數(shù)慢得不行,大量的學(xué)習(xí)都必須采用線性學(xué)習(xí)器;而且數(shù)據(jù)非常多,很多時候都是在強(qiáng)噪音環(huán)境下尋找弱信號,單一分類器往往效果一般,必須要做集成學(xué)習(xí)。舉個例子,在Netflix舉辦的百萬美元電影個性化推薦大賽中,我們做過一些很優(yōu)美的單模型,但是比起在比賽中最后獲勝的集成學(xué)習(xí)模型,至少從精度上來說是弱爆了!有的讀者要問了,高性能存儲計算難道不重要嗎?不得有一些懂Hadoop,懂Spark的技術(shù)高手嗎?要不要在CPU陣列里面加幾塊GPU甚至可編程邏輯陣列呢?這個也重要,但是企業(yè)如果實(shí)力足夠,可以采用成熟的解決方案,國際上頂尖的大數(shù)據(jù)服務(wù)商,例如IBM、HP和Intel都有不錯的方案。但是我說的上述兩點(diǎn),是給企業(yè)培養(yǎng)人才和能力,而且至今也沒有特別好的成熟的解決方案,所以更重要。
最后,企業(yè)怎么建立這樣的能力呢?首要辦法是能夠招聘到一流的大數(shù)據(jù)人才——多花點(diǎn)錢和股票。第二選擇是以顯示度項目為牽引,通過外部合作,培養(yǎng)自己的數(shù)據(jù)分析團(tuán)隊,既解決問題,又學(xué)習(xí)能力。企業(yè)做這類的合作,不要老想著一次性把所有東西都外包出去,要探索新方式,看看能不能成立聯(lián)合小組共同進(jìn)行研發(fā),多投入一些人去學(xué)習(xí)。有一些供應(yīng)商,特別是在某些方面有專長,但是還不屬于國際一流的供應(yīng)商,在發(fā)展過程中是能夠接受企業(yè)這種要求的。
Step 5. 建設(shè)外部數(shù)據(jù)的戰(zhàn)略儲備
企業(yè)走到這一步,就有點(diǎn)現(xiàn)代大數(shù)據(jù)企業(yè)的理念了,因為它不再僅僅局限于自己業(yè)務(wù)的數(shù)據(jù)了,開始看外面的世界了——很多大數(shù)據(jù)的重大創(chuàng)新,都是來源于把數(shù)據(jù)放在產(chǎn)生數(shù)據(jù)的業(yè)務(wù)體系之外去應(yīng)用。舉個例子,一個服裝企業(yè)要解決設(shè)計生產(chǎn)的規(guī)劃問題,僅僅看自己的銷售記錄還不夠,要不要看看淘包、天貓和京東上服裝的整體銷售,了解什么款式、什么顏色、什么價位的服裝在哪個地區(qū)最受歡迎呢?這就需要外部數(shù)據(jù)了!
事實(shí)上,外部數(shù)據(jù)對于市場拓展、趨勢分析、競品分析、人才招聘、用戶畫像和產(chǎn)品推薦等意義重大,而網(wǎng)站、論壇、社交媒體和電商平臺上聚集了很多有重要價值的公開數(shù)據(jù),這些數(shù)據(jù)中的大部分可以通過分布式深網(wǎng)爬蟲技術(shù)直接高效采集。所以,企業(yè)要有意識地開始建立自己的外部數(shù)據(jù)戰(zhàn)略儲備,不要“數(shù)”到用時方恨少。一方面,企業(yè)可以自建具備采集、清洗、存儲和索引等功能的自動化系統(tǒng),自動積累外部數(shù)據(jù);另一方面,企業(yè)可以通過和數(shù)據(jù)供應(yīng)商合作,得到一些亟需的數(shù)據(jù)。
Step 6. 建立數(shù)據(jù)的外部創(chuàng)新能力
企業(yè)很容易局限在自己的業(yè)務(wù)中不能自拔。所以,讓企業(yè)理解外面的數(shù)據(jù)能夠幫助解決自己業(yè)務(wù)遇到的問題比較容易,因為企業(yè)主和員工們每天都在想怎么解決這些問題,反過來,讓他們?nèi)ニ伎甲约簶I(yè)務(wù)的數(shù)據(jù)能不能在其他地方產(chǎn)生重大價值,幫到其他企業(yè),他們就沒有那么敏感了。其實(shí),這些創(chuàng)新性的想法往往能夠帶來新的巨大價值。比如,Google利用自身搜索業(yè)務(wù)產(chǎn)生的數(shù)據(jù),進(jìn)行電價和傳染病流行情況的預(yù)測,取得了巨大成功。
事實(shí)上,企業(yè)通過智能終端、傳感網(wǎng)絡(luò)、物流記錄、網(wǎng)點(diǎn)記錄和電子商務(wù)平臺,等等,獲得的第一手?jǐn)?shù)據(jù),很多都可以用于支持在跨領(lǐng)域交叉銷售、環(huán)境保護(hù)、健康管理、智慧城市、精準(zhǔn)廣告和房地價預(yù)測等方面的創(chuàng)新型應(yīng)用。把握住這些機(jī)會,就能夠放大企業(yè)當(dāng)前業(yè)務(wù)的價值,帶來持久可觀的收益。
Step 7. 推動自身數(shù)據(jù)的開放與共享
偉大的企業(yè)懂得如何把最聰明的人集合起來,為自己服務(wù)。
企業(yè)有了大量數(shù)據(jù)和一定的分析能力后,不能故步自封,而要充分借助社會的力量,盡最大可能發(fā)揮數(shù)據(jù)潛藏的價值。Netflix曾經(jīng)公開了包含50多萬用戶和17 770部電影的在線評分?jǐn)?shù)據(jù),并懸賞100萬美元獎勵能夠?qū)etflix現(xiàn)有評分預(yù)測準(zhǔn)確度提高10%的團(tuán)隊。現(xiàn)在的Netflix已經(jīng)不再是一家電影在線租賃公司,而是國際一流的大數(shù)據(jù)企業(yè)了。除了法律上因為安全和隱私不能開放共享的數(shù)據(jù),相當(dāng)一部分都能夠以各種方式開放出來——這種開放會帶來更大價值!國際化的如 Kaggle(英文平臺,www.kaggle.com),國內(nèi)如 DataCastle(中文平臺,www.pkbigdata.com),都是很有影響力的大數(shù)據(jù)創(chuàng)新競賽平臺。舉個例子,電子科技大學(xué)大數(shù)據(jù)研究中心曾經(jīng)在DataCastle上舉辦過學(xué)生成績預(yù)測的比賽,總獎金才50 000元,卻吸引了915支隊伍2 000余名參賽者參加比賽,其中200多只隊伍來自于“985”和“211”知名高校。這里面最佳解決方案的思路和方法已經(jīng)被應(yīng)用于教育大數(shù)據(jù)定量化管理的產(chǎn)品模塊中了。最近現(xiàn)金巴士推出的“微額借貸用戶人品預(yù)測大賽”更是吸引了1531支參賽隊伍。還有一種最近新出的比賽方式,就是企業(yè)給出數(shù)據(jù)集的描述和樣本數(shù)據(jù),參賽選手設(shè)計創(chuàng)新型商業(yè)應(yīng)用,提交產(chǎn)品說明或者商業(yè)計劃書。
企業(yè)通過這些數(shù)據(jù)開放計劃,可以學(xué)習(xí)最先進(jìn)的算法和最具創(chuàng)新性的數(shù)據(jù)應(yīng)用思路,實(shí)現(xiàn)自身數(shù)據(jù)的價值最大化。
Step 8. 數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略投資布局
企業(yè)有了一定的規(guī)模,光靠自己的能力還不夠或者還太慢,就可以考慮通過投資的方式迅速形成自己的大數(shù)據(jù)能力甚至大數(shù)據(jù)產(chǎn)業(yè)布局。這類戰(zhàn)略型的投資,有三個可能的出發(fā)點(diǎn):
(1)產(chǎn)業(yè)集成。從投資方原有優(yōu)勢產(chǎn)業(yè)或大數(shù)據(jù)前景廣闊的重點(diǎn)產(chǎn)業(yè)入手,進(jìn)行全產(chǎn)業(yè)鏈布局,集中力量。
(2)技術(shù)集成。以數(shù)據(jù)采集、存儲、計算、分析和可視化的創(chuàng)新型工具為主要投資對象,提供具有普適性的解決方案。
(3)數(shù)據(jù)集成。以數(shù)據(jù)流動共享,發(fā)揮外部價值為理念,投資一批能夠緊密合作、數(shù)據(jù)互補(bǔ)和可控性強(qiáng)的企業(yè)。
對于原來沒有從事過數(shù)據(jù)密集型和信息技術(shù)密集型行業(yè)的企業(yè)來說,第二類投資方向的風(fēng)險特別大,建議主要從(1)(3)兩類考慮。這種投資有別于財物投資,主要是考量被投資企業(yè)與投資方的整合能力,以及所能提供俄數(shù)據(jù)的稀缺性、獨(dú)立性、多源性、流動性和互補(bǔ)性。
在這里我還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流qq裙:522189307 , 裙 里都是學(xué)大數(shù)據(jù)開發(fā)的,如果你正在學(xué)習(xí)大數(shù)據(jù) ,小編歡迎你加入,大家都是軟件開發(fā)黨,不定期分享干貨(只有大數(shù)據(jù)開發(fā)相關(guān)的),包括我自己整理的一份最新的大數(shù)據(jù)進(jìn)階資料和高級開發(fā)教程,歡迎進(jìn)階中和進(jìn)想深入大數(shù)據(jù)的小伙伴。上述資料加群可以領(lǐng)取
?
總結(jié)
以上是生活随笔為你收集整理的为数据而生:大数据创新实践八步骤的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 0基础学习大数据你需要了解的学习路线和方
- 下一篇: 还有人在质疑数据挖掘是泡沫吗?千万不要叶