Airbnb数据科学团队进化论:如何由内而外实现数据驱动
雖然團(tuán)隊(duì)組織結(jié)構(gòu)的演化允許數(shù)據(jù)科學(xué)家團(tuán)隊(duì)繁榮興旺,但是公司的成功源于“精準(zhǔn)定位”于兩件事:發(fā)自肺腑地關(guān)愛員工,積極主動(dòng)的數(shù)據(jù)驅(qū)動(dòng)決策。不論是開發(fā)可持續(xù)利用的開源工具還是奮力改進(jìn)數(shù)據(jù)科學(xué)部門的多樣性,Airbnb數(shù)據(jù)科學(xué)團(tuán)隊(duì)負(fù)責(zé)人Alok很清楚,Airbnb追求的事都要貫徹這兩個(gè)原則。
◆?◆?◆
超級(jí)增長(zhǎng):短短幾年,從5到70+數(shù)據(jù)科學(xué)家
在2013年,Airbnb只有一個(gè)5人數(shù)據(jù)科學(xué)團(tuán)隊(duì),集中地為公司的數(shù)據(jù)需求提供服務(wù)。此后,他們成長(zhǎng)為最大的、也是最有創(chuàng)意的創(chuàng)業(yè)團(tuán)隊(duì)之一,擁有超過70名數(shù)據(jù)科學(xué)家,服務(wù)于不同的商業(yè)部門。除了招聘時(shí)堅(jiān)持高要求和貫徹師徒制外,組織結(jié)構(gòu)也是團(tuán)隊(duì)順利增長(zhǎng)的關(guān)鍵。
?
Alok把將集中的數(shù)據(jù)科學(xué)家部門分成小的嵌入式團(tuán)隊(duì),與商務(wù)伙伴們坐在一起工作形容為“呼吸新鮮空氣”。與之前的結(jié)構(gòu)相比,他說新的模式對(duì)公司而言,“非常給力”。
這個(gè)變化是跟隨著“到底什么是數(shù)據(jù)科學(xué)家”的觀念而演化的。很多人同意Alok的說法,認(rèn)為數(shù)據(jù)科學(xué)家這個(gè)詞“已經(jīng)超載”了。他相信,除了數(shù)據(jù)科學(xué)獨(dú)角獸,其他人應(yīng)該可以被分為以下四種角色,才會(huì)更好地分配工作:
-
數(shù)據(jù)工程師-他們接手亂七八糟的數(shù)據(jù),打理到可以分析的地步。
-
?產(chǎn)品建造師-他們建造數(shù)據(jù)產(chǎn)品供用戶使用。比如,建造一個(gè)推薦引擎。
-
數(shù)據(jù)分析師-他們提供主要的分析框架,從中發(fā)現(xiàn)商業(yè)機(jī)會(huì)。
-
數(shù)據(jù)實(shí)驗(yàn)師-他們知道如何設(shè)計(jì)和實(shí)施實(shí)驗(yàn)。
數(shù)據(jù)科學(xué)團(tuán)隊(duì)如何解決快速擴(kuò)增中帶來的生長(zhǎng)痛?Alok告訴我,創(chuàng)新和數(shù)據(jù)科學(xué)團(tuán)隊(duì)的演化正是源于公司的兩個(gè)極端要求。
第一個(gè)是Airbnb將自己定位為竭力保證員工的快樂,成功和被重視。比如,投資于新員工入職的數(shù)據(jù)培訓(xùn),建立師徒制,參加會(huì)議等,都是Airbnb培養(yǎng)員工的重要途徑。
另一方面,Alok強(qiáng)調(diào),Airbnb又是一家非常重視指標(biāo)和目標(biāo)驅(qū)動(dòng)的公司。關(guān)于第二條公司文化準(zhǔn)則,Alok強(qiáng)調(diào)了Airbnb在做商業(yè)決策時(shí),是極端的量化和目標(biāo)驅(qū)動(dòng)的:
“我們所做的一切事情都是深思熟慮的,非常量化的,也是精準(zhǔn)集中在我們的目標(biāo)上的?!?/span>
這里傳遞的信息是,Airbnb已經(jīng),至少部分地對(duì)它的數(shù)據(jù)科學(xué)團(tuán)隊(duì)的質(zhì)量做出了承諾,擺在首位,作為一種實(shí)施它的研究驅(qū)動(dòng)的行為模式的方法。
在我們接下來的談話中,Alok與我分享了Airbnb的數(shù)據(jù)科學(xué)團(tuán)隊(duì)如何取得成功,建立凝聚力,為自己和用戶獲得更好的結(jié)果。珍惜員工福祉與量化驅(qū)動(dòng)決策這兩個(gè)方面齊頭并進(jìn),通過這樣周到細(xì)致的定位,很明顯,二者的珠聯(lián)璧合使Airbnb的獲得了進(jìn)步。
◆?◆?◆
建立規(guī)?;闹R(shí)分享生態(tài)系統(tǒng)
在Airbnb,生產(chǎn)力和創(chuàng)新嚴(yán)重依賴于知識(shí)共享。Alok帶領(lǐng)我參觀了他們的努力集中的三個(gè)領(lǐng)域:流程管理,數(shù)據(jù)在組織內(nèi)外的普及和可循環(huán)利用的研究。
Alok描述了Airbnb如何重金投資數(shù)據(jù)授權(quán)團(tuán)隊(duì),來開發(fā)整個(gè)組織的流水線、標(biāo)準(zhǔn)流程。其中包括查詢工具,如Airpal和Airflow,通過程序性的任務(wù)編寫、計(jì)劃和監(jiān)控來實(shí)現(xiàn)數(shù)據(jù)的流水線管理。
?AIRBNB的開源數(shù)據(jù)工作流程管理工具AIRFLOW
本著回饋開源社區(qū)的精神,Airbnb去年將Airflow進(jìn)行了開源,迄今為止,有46家公司用它來管理自己的工作流程。
意識(shí)到數(shù)據(jù)的可及性是實(shí)現(xiàn)指標(biāo)驅(qū)動(dòng)的商業(yè)決策的必由之路,Airbnb也開發(fā)并開源了數(shù)據(jù)可視化工具Caravel。平臺(tái)允許用戶在拖拽的環(huán)境下探索數(shù)據(jù)。
?AIRBNB的開源數(shù)據(jù)可視化平臺(tái)CARAVEL
最后,Alok取笑了另一個(gè)即將要開源的工具。與Kaggle的新開放數(shù)據(jù)平臺(tái)相比,他稱Airbnb的知識(shí)分享工具為“游戲更換”。Github式的存儲(chǔ),目前尚屬內(nèi)部使用,允許用戶從頭到尾把分析寫在上面。
?
在知識(shí)分享的諸多好處中,除了支持可再生研究,避免重復(fù)代碼,知識(shí)分享工具解決了發(fā)表偏倚的問題。發(fā)表的研究是專門挑選的,可能是因?yàn)橛形说幕蛘唑?yàn)證性的陽性結(jié)果。在引進(jìn)知識(shí)分享之前,Alok記得2年前他加入Airbnb時(shí),知識(shí)還是“部落性”的。
“我必須知道正確的人,然后走過去對(duì)他說,‘你好,請(qǐng)問你是否編寫了這個(gè)程序?到底發(fā)生了什么?’”?
現(xiàn)在,相比較運(yùn)行A/B測(cè)試和把無效結(jié)果拋至所謂的“文件柜”(或郵件附件)中,Airbnb的數(shù)據(jù)科學(xué)家花費(fèi)少量有價(jià)值的額外時(shí)間像寫更正式的代碼一樣記錄他們的實(shí)驗(yàn)。Alok說在數(shù)據(jù)科學(xué)家的工作中,搜索知識(shí)文章的最終能力對(duì)于提高可進(jìn)入性具有更大的影響。
Alok舉了一個(gè)關(guān)于知識(shí)文章能產(chǎn)生差異的具體例子。他的團(tuán)隊(duì)曾經(jīng)想要運(yùn)行一個(gè)可以影響用戶預(yù)訂住宿的實(shí)驗(yàn)。
“事實(shí)證明,我們3年前運(yùn)行這個(gè)實(shí)驗(yàn),它花我們9個(gè)月時(shí)間運(yùn)行。我們只需要讀取帖子便能知道答案,而不是重新運(yùn)行它。”
特別是小型團(tuán)隊(duì),Alok給出的建議是“不要試著自己創(chuàng)建每件事物,現(xiàn)在有許多開放源碼工具。用他們作為開始吧?!彼踔劣肒aggle Kerneis舉了一個(gè)例子,闡述道“我認(rèn)為它是一個(gè)很好的共享分析工具?!?/span>
◆?◆?◆
多種觀點(diǎn)與數(shù)據(jù)科學(xué)的未來
Airbnb房主已經(jīng)遍及191個(gè)國(guó)家的34000個(gè)城市。創(chuàng)建一個(gè)歡迎不同文化背景的人的平臺(tái),需要這個(gè)公司對(duì)員工做內(nèi)部投資,建立一個(gè)強(qiáng)大、多元化團(tuán)隊(duì)。 在數(shù)據(jù)科學(xué)和工程學(xué)領(lǐng)域,許多公司沒有對(duì)它們的用戶做出必要反應(yīng),這對(duì)他們是非常不利的。在最近一篇發(fā)表在airbnb工程博客上的文章表示,airbnb數(shù)據(jù)科學(xué)家Riley Newman和Elena Grewal說,公司正在努力解決多元化的缺失,Alok認(rèn)為這是數(shù)據(jù)團(tuán)隊(duì)今年最主要的問題。
Alok主張,對(duì)于任何問題,識(shí)別是Airbnb解決問題的第一步,從這個(gè)觀點(diǎn)考慮,他們的數(shù)據(jù)引導(dǎo)理念已經(jīng)使他們有所提高。多元化團(tuán)隊(duì)的優(yōu)勢(shì)是無可爭(zhēng)議的——
“毋庸置疑,增加多元化能提高我們分析的標(biāo)準(zhǔn),提升我們作為一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)的影響,并增強(qiáng)我們向彼此學(xué)習(xí)的師友關(guān)系?!?/strong>
“在過去的一兩年中,我們已經(jīng)看到了在進(jìn)步中產(chǎn)生的影響[…]。通過一個(gè)更加多元化的數(shù)據(jù)科學(xué)團(tuán)隊(duì),我們已經(jīng)加深了合作關(guān)系,并作出了對(duì)這個(gè)組織的更大貢獻(xiàn)?!?/span>
總的來說,Airbnb的數(shù)據(jù)團(tuán)隊(duì)無疑地、積極地影響著他們的用戶。Alok舉例說:
“我們有更多的假設(shè)來自這支團(tuán)隊(duì),如什么能引導(dǎo)更多人的參與度[…]什么能帶來更大的實(shí)驗(yàn)多樣性。”
對(duì)于建立一個(gè)多元化團(tuán)隊(duì),最具挑戰(zhàn)的障礙之一是首先要理解多元化意味著什么。Alok對(duì)比多元化招聘的“良性循環(huán)”公司與 “惡性循環(huán)”公司,發(fā)現(xiàn)他們首先在識(shí)別階段便存在差異:
“如果你自己不夠多樣的話,那更不可能雇用多樣的人,因?yàn)槟銜?huì)雇用那些像你自己的人。你會(huì)因?yàn)榈貐^(qū)局限而亡,因?yàn)閼?yīng)聘者都以看似相似且正確的方式表現(xiàn)和進(jìn)行面試?!?/strong>
他對(duì)團(tuán)隊(duì)的建議是,面對(duì)問題的時(shí)候要深思熟慮,這與“不平衡分類”的理論相違背。他舉了一些例子,如隱藏應(yīng)聘者的姓名和性別,并且在現(xiàn)有專業(yè)領(lǐng)域以外花費(fèi)更多時(shí)間發(fā)掘應(yīng)聘者。事實(shí)上,Alok把他們近期的招聘競(jìng)爭(zhēng)作為Airbnb如何將其努力展現(xiàn)在公眾面前的一個(gè)例子。
“你不得不說,‘我將花時(shí)間試著去找到那些跟我現(xiàn)有團(tuán)隊(duì)截然不同的人。’這并是順其自然就會(huì)發(fā)生的事情。你必須經(jīng)過深思熟慮,并且需要投入時(shí)間。”
目前,不同領(lǐng)域的數(shù)據(jù)科學(xué)專家和機(jī)器學(xué)習(xí)專家正在進(jìn)入這個(gè)產(chǎn)業(yè)。從物理學(xué)家到生物學(xué)家,教育是一個(gè)維度,但它現(xiàn)在不是吸引多樣人才的挑戰(zhàn)。因此,Alok表示,希望數(shù)據(jù)科學(xué)或機(jī)械學(xué)習(xí)的學(xué)位不會(huì)成為應(yīng)屆生進(jìn)入這個(gè)領(lǐng)域的阻礙。
盡管被一個(gè)像Airbnb這樣的數(shù)據(jù)團(tuán)隊(duì)雇用仍然任重道遠(yuǎn),但是沒有理由喪失信心,因?yàn)锳lok對(duì)于有抱負(fù)的數(shù)據(jù)科學(xué)家最好的建議是獲得“盡可能深入和骯臟”的數(shù)據(jù)。因此,在允許必要的機(jī)器學(xué)習(xí)和數(shù)據(jù)分析動(dòng)手實(shí)踐上,開源數(shù)據(jù)具有改變能力。他還提倡,掌握iPython和R的應(yīng)用,有助于專注深入了解數(shù)據(jù)和理解整理混亂數(shù)據(jù)的意義。?
那么,這對(duì)你、你的團(tuán)隊(duì)或是你的公司,意味著什么呢?跟隨Airbnb的步伐,首先開始關(guān)注公司內(nèi)在。通過做有目的、以數(shù)據(jù)為引導(dǎo)的決策,公司以多種方式衡量它的團(tuán)隊(duì)、知識(shí)和進(jìn)步,這已經(jīng)超出了組織本身。
原文發(fā)布時(shí)間為:2016-10-10
本文來自云棲社區(qū)合作伙伴“大數(shù)據(jù)文摘”,了解相關(guān)信息可以關(guān)注“BigDataDigest”微信公眾號(hào)
總結(jié)
以上是生活随笔為你收集整理的Airbnb数据科学团队进化论:如何由内而外实现数据驱动的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AngularJS 的自定义指令
- 下一篇: Highcharts 中文参考文档