IBM如何拥抱Spark
Spark是目前相當(dāng)火熱的開源計(jì)算框架,相對(duì)于Hadoop,Spark優(yōu)勢(shì)是高性能和易用性。Spark的高性能源于其采用內(nèi)存儲(chǔ)存數(shù)據(jù),應(yīng)用可以以內(nèi)存的速度進(jìn)行運(yùn)算;Spark的易用性在于通用的API,用戶可以編寫復(fù)雜的并行計(jì)算程序,使之看上去就像串行程序。這也使得Spark程序更容易開發(fā)和讀懂。由于其高性能,Spark已成為機(jī)器學(xué)習(xí)的重要工具。日前,IBM宣布加入Spark社區(qū),并與Spark的核心貢獻(xiàn)公司Databricks合作。那么IBM將如何與社區(qū)進(jìn)行合作,其自身又在Spark、大數(shù)據(jù)及機(jī)器學(xué)習(xí)領(lǐng)域有哪些計(jì)劃?InfoQ受邀與IBM進(jìn)行交流,并對(duì)以上問題進(jìn)行了解讀。
\\IBM對(duì)社區(qū)的貢獻(xiàn)和對(duì)未來的規(guī)劃
\\IBM大中華區(qū)大數(shù)據(jù)與分析事業(yè)部總經(jīng)理鐘澤敏表示,在美國的舊金山研究室有一個(gè)Spark的技術(shù)中心,有超過200位的技術(shù)人員在Spark技術(shù)中心里工作。技術(shù)中心主要的功能是把Spark的技術(shù)應(yīng)用在一些企業(yè)級(jí)應(yīng)用場(chǎng)景中,這解決了開源的另一個(gè)問題。Databricks CEO Ion Stoica表示,考慮到IBM在Spark研發(fā)方面的投入,非常期待IBM成為Spark的核心貢獻(xiàn)者。
\\IBM大中華區(qū)大數(shù)據(jù)與分析事業(yè)部數(shù)據(jù)平臺(tái)方案總經(jīng)理劉勝利認(rèn)為,IBM在全球的研發(fā)分為兩大類,第一類叫Reserch,第二類是Develop,這兩類的工作性質(zhì)還是非常不同的。Reserch就是研究,他們專注研究先進(jìn)的、超前的技術(shù)的前期的研發(fā)。而SystemML是IBM研發(fā)了超過十年的機(jī)器學(xué)習(xí)技術(shù)。沃森(Watson)在幾年前的大型活動(dòng)里,整合了很多SystemML機(jī)器學(xué)習(xí)的功能。
\\他表示,IBM與Databricks合作,是希望把SystemML的功能輸送給Spark,讓Spark具有更強(qiáng)大的機(jī)器學(xué)習(xí)能力,讓數(shù)據(jù)科學(xué)家專注于算法,而不是一些簡單的、細(xì)節(jié)的技術(shù)本身。
\\Databricks計(jì)劃開發(fā)一個(gè)機(jī)器學(xué)習(xí)框架MLbase,這與IBM的SystemML是什么關(guān)系,雙方的合作如何互補(bǔ)呢?IBM大中華區(qū)軟件架構(gòu)師總監(jiān)、IBM技術(shù)科學(xué)院委員林旭光認(rèn)為,SystemML其實(shí)并不是提供算法,它其實(shí)是提供一個(gè)定義的機(jī)制,可以讓Data Center定義自己的算法。劉勝利表示,SPSS提供了很多和ML Lab相似的算法,并且比后者算法更多。“我們看到ML Lab的算法有局限性。”舉個(gè)例子,一個(gè)專賣店會(huì)收集一些他的客戶辦的卡,這個(gè)卡會(huì)記錄客戶到他那買過什么樣的東西。那么下一步專賣店對(duì)客戶進(jìn)行促銷,首先要對(duì)客戶進(jìn)行分群,但是算法本身并不能解決分群的問題。還有很多行業(yè)的知識(shí),比如對(duì)用戶畫像和智能推薦等。IBM可能在這方面有更強(qiáng)的東西,算法本身是標(biāo)準(zhǔn)化的。比如說你要分群客戶是用二叉樹算法、神經(jīng)元網(wǎng)絡(luò)算法還是哪個(gè)算法,這在實(shí)際操作中是有一些經(jīng)驗(yàn)可循的。
\\那么IBM會(huì)以什么樣的方式與節(jié)奏節(jié)奏,拿出多少”干貨”與社區(qū)共享自己在機(jī)器學(xué)習(xí)等方面的技術(shù)呢?IBM大中華區(qū)大數(shù)據(jù)分析平臺(tái)銷售總監(jiān)洪建勛表示,“我們做了一件很關(guān)鍵的事情,如何把從企業(yè)級(jí)市場(chǎng)得到的客戶需求跟最新的技術(shù)有效的銜接起來?這點(diǎn)是IBM一直致力于在做的很重要的事情。同時(shí),新技術(shù)很多,可能出現(xiàn)孤島,我們能夠讓新的技術(shù)為企業(yè)真正融合,把這些所謂的單點(diǎn)和孤島全部連接起來打通,把原來可能存在的問題盡可能地減少。”
\\毫無疑問,IBM對(duì)企業(yè)應(yīng)用的理解是眾多互聯(lián)網(wǎng)公司無法比擬的,這種經(jīng)驗(yàn)和理解是否能成為指導(dǎo)社區(qū)發(fā)展的力量呢?洪建勛認(rèn)為,以Hadoop發(fā)展那么多年的經(jīng)驗(yàn)看,Hadoop社區(qū)盡管規(guī)模很大,但是新的組件一直在涌現(xiàn)。重點(diǎn)技術(shù)一直有變化,而IBM這種企業(yè)級(jí)IT廠商有很多新的經(jīng)驗(yàn)。“這也是成立ODP的價(jià)值,你可以在ODP中看到很多老的IT公司,為開放平臺(tái)貢獻(xiàn)自己的思想,為企業(yè)級(jí)客戶服務(wù)。”
\\IBM培養(yǎng)Spark技術(shù)人才
\\鐘澤敏透露,IBM已經(jīng)開辦免費(fèi)的課程,預(yù)計(jì)在第三季度就會(huì)更新第二批免費(fèi)的課程。與Databricks、AMPlab合作培養(yǎng)數(shù)據(jù)科學(xué)家。
\\此外,IBM去年宣布投資1億美金,在中國推動(dòng)”U100”計(jì)劃,后來又推出了”A100“(百企大數(shù)據(jù))計(jì)劃,跟國內(nèi)商學(xué)院一起培養(yǎng)學(xué)生。該項(xiàng)目由香港中文大學(xué)、對(duì)外經(jīng)貿(mào)大學(xué)、西南交大聯(lián)合發(fā)起,集合約50所商學(xué)院,IBM到學(xué)校里實(shí)地去幫老師和學(xué)生做數(shù)據(jù)挖掘、數(shù)據(jù)清洗。其中用到的工具、解決方案都由IBM提供。這個(gè)價(jià)值對(duì)于商學(xué)院,從老師到教育體系的改革,再到人才培養(yǎng),都非常重要。事實(shí)上已有很多項(xiàng)目已經(jīng)出了成果,這些研究項(xiàng)目都是非常有實(shí)際意義的。目前,IBM在大數(shù)據(jù)的投入已經(jīng)超過250億美元。
\\為什么是Open Data Platform?
\\Open Data Platform是眾多IT巨頭企業(yè)聯(lián)合成立的開放數(shù)據(jù)平臺(tái)。劉勝利表示,對(duì)于大部分企業(yè)用戶,開源了并不是意味著大家可以直接用。“我們希望大家在使用Hadoop的時(shí)候不再局限于有限的廠商”,所以在開源之上又推出了開放數(shù)據(jù)平臺(tái)。希望在選擇開放數(shù)據(jù)平臺(tái)里這些核心部件的時(shí)候,大家選用公共的、統(tǒng)一的這些代碼。那么,使用這樣一個(gè)開放的數(shù)據(jù)平臺(tái),就不再受限于某一家的開源代碼,既利用了開源的好處,同時(shí)又讓企業(yè)用戶不再被廠家束縛。
\\鐘澤敏表示,IBM還是注重在企業(yè)級(jí)應(yīng)用。包括SQL、R語言以及數(shù)據(jù)分析都是IBM的優(yōu)勢(shì)。劉勝利認(rèn)為,IBM做分析挖掘的語言以及SQL關(guān)系型數(shù)據(jù)庫已有30多年的歷史,有大量的優(yōu)化技術(shù)。另外,SPSS的許多預(yù)測(cè)分析產(chǎn)品的算法也可以和Spark結(jié)合,因?yàn)镾PSS使Spark上可以處理的數(shù)據(jù)量、處理的速度、處理的能力都得到了極大的提升。特別是SPSS最大的研發(fā)實(shí)驗(yàn)室在中國,有一大堆數(shù)學(xué)科學(xué)家在研究算法。
\\林旭光補(bǔ)充道,有些客戶反饋說,用了一些廠家的開源組件之后,沒辦法遷移到別的平臺(tái)上去,雖然產(chǎn)品也是開源的。這是因?yàn)檫@些開源產(chǎn)品只有幾家公司或很小的群體在支持。基于此,做Open Data Platform一個(gè)很重要的目標(biāo)就是,IBM用的只是開源的組件,并且都是可遷移的。
\\未來IBM會(huì)陸續(xù)推出Spark系列產(chǎn)品,包括Watson Analytics、DataWorks、PuerData一體機(jī),以及一些方案和正在孵化的項(xiàng)目。
\\感謝魏星對(duì)本文的審校。
\\給InfoQ中文站投稿或者參與內(nèi)容翻譯工作,請(qǐng)郵件至editors@cn.infoq.com。也歡迎大家通過新浪微博(@InfoQ,@丁曉昀),微信(微信號(hào):InfoQChina)關(guān)注我們,并與我們的編輯和其他讀者朋友交流(歡迎加入InfoQ讀者交流群)。
總結(jié)
以上是生活随笔為你收集整理的IBM如何拥抱Spark的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据库-Oracle【Oracle数据库
- 下一篇: 一直追求技术好吗?