我在滴滴数据分析岗实习8个月的收获(文末附内推机会)
? ? ?作者:海潮
? ? ?來源:數(shù)據(jù)管道
大家好,我是寶器!
今天分享一下交流群里海潮兄弟的「數(shù)據(jù)分析崗」求職與工作經(jīng)驗(yàn),以下是海潮兄弟的自訴,全文共4825字,6圖,閱讀大概需要15分鐘。
作者介紹:雙非院校剛畢業(yè)的統(tǒng)計(jì)碩士,目前在滴滴工作,有8個(gè)月的數(shù)據(jù)分析實(shí)習(xí)經(jīng)歷,面試過10位以上數(shù)據(jù)分析實(shí)習(xí)生,最終成為了產(chǎn)品經(jīng)理。
以下作者自訴全文:
兩個(gè)主題
本文的主要目標(biāo)是幫助一些剛?cè)腴T的同學(xué)了解互聯(lián)網(wǎng)公司中“數(shù)據(jù)分析”崗位的部分信息,包括兩個(gè)主題:
1、互聯(lián)網(wǎng)公司中的初階數(shù)據(jù)分析同學(xué)主要工作內(nèi)容是什么,如何在工作中提升?
2、互聯(lián)網(wǎng)公司的數(shù)據(jù)分析面試是怎么樣的。
第一個(gè)問題幫助大家考慮是否進(jìn)入這個(gè)行業(yè)工作,第二個(gè)問題幫助想進(jìn)入這個(gè)行業(yè)的同學(xué)提升一些面試效率,這對(duì)面試者和面試官都有好處。
根據(jù)筆者在一些互聯(lián)網(wǎng)公司的工作經(jīng)歷來看,目前數(shù)據(jù)分析的工作大方向有三個(gè):
1、業(yè)務(wù)數(shù)據(jù)分析
2、偏向數(shù)倉開發(fā)的數(shù)據(jù)分析
3、偏向算法的數(shù)據(jù)分析
由于筆者的經(jīng)歷限制,本篇文章主要圍繞“業(yè)務(wù)數(shù)據(jù)分析”崗位展開,考慮到本文的讀者大部分是決定了從事數(shù)據(jù)相關(guān)工作的旁友,因此先講面試相關(guān)內(nèi)容,再講工作內(nèi)容。
?
01
互聯(lián)網(wǎng)公司的數(shù)據(jù)分析面試是怎么樣的
首先Sql編程能力是必須項(xiàng)(有的小公司接受Sql能力較弱的同學(xué),他們會(huì)入職以后再培訓(xùn)),因?yàn)閿?shù)據(jù)分析同學(xué)前期的主要工作就是寫Sql語句,所以一般面試過程中會(huì)讓大家當(dāng)場寫Sql題目,如果寫不出來,那這次面試存在一定的風(fēng)險(xiǎn)。
文末:「附錄一是Sql學(xué)習(xí)路徑建議」
確認(rèn)Sql能力過關(guān)以后,會(huì)針對(duì)簡歷中的內(nèi)容進(jìn)行交流,主要先聊實(shí)習(xí)經(jīng)歷、其次是項(xiàng)目經(jīng)歷,最后是比賽經(jīng)歷(建議大家去實(shí)習(xí)),原因是我想看到你發(fā)揮出最好的一面,實(shí)習(xí)經(jīng)歷往往有老板帶,如果你平時(shí)對(duì)于工作足夠上心,那對(duì)于這個(gè)事情的前因后果就能夠講的較為清晰;項(xiàng)目經(jīng)歷肯定是有導(dǎo)師帶,但這和導(dǎo)師的能力還有重視程度有關(guān);而比賽經(jīng)歷更多時(shí)候可能就是同學(xué)們自己研究,容易出問題。
文末:「附錄二是一個(gè)對(duì)于一個(gè)項(xiàng)目的示例提問」
我的被面試經(jīng)歷
以下列舉我被問到的部分技術(shù)相關(guān)知識(shí)點(diǎn)。
Sql中的左連接、右鏈接、內(nèi)連接和全連接
星型模型和雪花模型
建模中碰到數(shù)據(jù)缺失怎么辦
數(shù)據(jù)傾斜是什么,怎么處理
Kmeans聚類的優(yōu)缺點(diǎn)
如何確定kmeans聚類的類別數(shù)
這類面經(jīng)在牛客網(wǎng)上已經(jīng)有更多更全的了,這里不做贅述,主要講我當(dāng)時(shí)拿到幾個(gè)offer的核心影響因素:
第一個(gè)是Sql功底扎實(shí),當(dāng)時(shí)我把牛客網(wǎng)和leetcode上的所有Sql題目都寫過了,所以能快速寫出最優(yōu)解;還有一個(gè)是腦子轉(zhuǎn)的比較快,面試聊項(xiàng)目,被發(fā)現(xiàn)沒做好的地方時(shí),能馬上補(bǔ)充現(xiàn)實(shí)背景,解釋當(dāng)時(shí)這樣做的原因(圓回去)。
我的面試官經(jīng)歷
這是本文的核心內(nèi)容,篇幅較長。
首先大家要對(duì)面試有一個(gè)正確的感知:面試官不是你的敵人,一個(gè)理想的面試經(jīng)歷,是在聊天過程中,面試官慢慢引導(dǎo)面試者證明他確實(shí)有能力來滿足這個(gè)崗位,這里剖析下我作為面試官的一些觀點(diǎn),幫助大家來換位思考,提升面試效率。
(a)吾之蜜糖,彼之砒霜。各位同學(xué)都非常優(yōu)秀,簡歷上各種獎(jiǎng)項(xiàng)、實(shí)習(xí)經(jīng)歷琳瑯滿目,但大部分和崗位不相關(guān)。我是為了崗位招人,不是為了招個(gè)優(yōu)秀的人再給他找崗位,因此請(qǐng)大家務(wù)必在簡歷中只寫和崗位相關(guān)的經(jīng)歷,像榮譽(yù)稱號(hào)、獎(jiǎng)學(xué)金之類的可以簡單一筆帶過甚至不寫,你要表現(xiàn)的不是你有多優(yōu)秀,而是你有多匹配這個(gè)崗位,這里如果不知道崗位匹配條件,那是更前置的一個(gè)話題,暫不展開。
?
(b)知之為知之,不知為不知。在面試中碰到不太會(huì)的東西直接告訴面試官:這塊不是我的研究領(lǐng)域,我不懂,聊點(diǎn)別的吧。因?yàn)槲覀兡芙邮苣憔τ邢?#xff0c;無法面面俱到,但在一知半解的領(lǐng)域做回答會(huì)嚴(yán)重影響你的形象,這塊內(nèi)容會(huì)在后文細(xì)講。
(c)平等對(duì)話。這其實(shí)是一些trick,和專業(yè)水平無關(guān),但能體現(xiàn)出面試者的心態(tài),比如在面試官提問題的時(shí)候,“反殺”一波:這個(gè)問題提的不錯(cuò),講到核心要點(diǎn)了;或者“杠”一波:我覺得你說的沒問題,但是當(dāng)時(shí)的情況下我們沒有這么做的原因是xx。這些一方面能表現(xiàn)出你的心態(tài)好,即你完全不緊張,甚至還想多說話;還有一方面是說明你已經(jīng)脫離了被面試者的身份,進(jìn)入了我的“同事”身份,我們?cè)谄降葘?duì)話。
實(shí)際面試中,我都是“開卷考”,即在約面試的時(shí)候就告知:本次面試內(nèi)容為Sql編程題和你簡歷中的項(xiàng)目,請(qǐng)好好準(zhǔn)備。但百分之90%的同學(xué)卡在了Sql題環(huán)節(jié),而且以往實(shí)習(xí)或者項(xiàng)目做的也一般導(dǎo)致沒有通過,我招了4個(gè)多月了(2019.10-2020.1)還沒找到合適的同學(xué)。
以下是我的面試過程和其中發(fā)現(xiàn)部分同學(xué)可能存在的問題:
在面試最開始,我會(huì)先出幾個(gè)sql題目「附錄三是我每次面試都會(huì)出的題目」,先出一個(gè)中等難度的,如果面試者能寫出來,就出一個(gè)稍微難一點(diǎn)的;如果面試者不會(huì),我就會(huì)心中暗暗嘆口氣,然后出個(gè)簡單題目緩解一下尷尬的氣氛。
在聊完sql題目后,我會(huì)和面試同學(xué)聊簡歷中的實(shí)習(xí)或者項(xiàng)目經(jīng)歷,這里面我發(fā)現(xiàn)一個(gè)問題:數(shù)據(jù)分析同學(xué)很容易把自己當(dāng)成“工具人”。舉個(gè)例子,有個(gè)同學(xué)告訴我,他要將用戶分組后給不同組的人發(fā)不同的優(yōu)惠券,于是我問他分組依據(jù)怎么來的,不同組的用戶區(qū)別在哪里,每一組怎么匹配的優(yōu)惠券?
他回答:業(yè)務(wù)方?jīng)Q定的。
從面試者的角度來講,這個(gè)問題已經(jīng)講清楚了,他把自己被要求做的事情完美的做完了,但從面試官的角度來講,這個(gè)回答是不及格的,因?yàn)槲矣X得這個(gè)同學(xué)沒有找到進(jìn)步的方法,把自己當(dāng)成了他人的工具,只做be told的事在工作和生活中是幾乎無法進(jìn)步的。
那如何避免自己成為“工具人”呢,一個(gè)比較好的方式是培養(yǎng)自己的owner心態(tài):即我不是來給你僅僅提供一個(gè)幫助的,我要幫你把整件事情都搞定。
這里提供一個(gè)項(xiàng)目介紹模板,大家可以試著將自己的經(jīng)歷往里面套,查看自己對(duì)于歷史項(xiàng)目的owner心態(tài)如何:
在多個(gè)司機(jī)投訴的背景下,我們發(fā)現(xiàn)了隔江派單問題(表象),這個(gè)問題是由于系統(tǒng)根據(jù)直線派單(內(nèi)部原因)造成的,為了解決這個(gè)問題,我們(如果是你單個(gè)人就更好啦)提出了路面距離派單方法(最好有多個(gè)方法對(duì)比),這個(gè)方法的效果是解決了30%的隔江和隔山派單問題,使相關(guān)投訴下降了50%,我負(fù)責(zé)的是設(shè)計(jì)模型判斷是否隔江派單,做完這個(gè)項(xiàng)目,我的成長是對(duì)于司機(jī)和派單有了更深的理解,如果讓我重新做一次,我會(huì)前期多和司機(jī)交流,因?yàn)檫@樣能使模型做的更快。
這里需要的不僅僅是了解,更多是思考和復(fù)盤,如果沒有老板帶領(lǐng),學(xué)生思維的限定會(huì)讓大家會(huì)很難意識(shí)到這個(gè)問題,這也是我建議大家多去實(shí)習(xí)的原因(提前感受社會(huì)的毒打,哈哈哈哈)。
聊項(xiàng)目的過程中,我們比較重視的是思維嚴(yán)謹(jǐn)。
思維嚴(yán)謹(jǐn)?shù)睦?#xff1a;在驗(yàn)證一種藥的效果時(shí),需要分幾組?答案:三組,一組吃藥,一組不吃,一組吃外表一樣卻沒有任何效果的假藥,因?yàn)槌运幙梢苑譃椤俺浴焙汀八帯眱杉隆R瓿鰜淼膶?shí)際問題—--給用戶發(fā)5元優(yōu)惠券和商品直接降價(jià)5元效果一樣嘛?如果不一樣,哪種效果更好呢?為什么商家老是發(fā)一些根本不優(yōu)惠的“優(yōu)惠券”呢?
在這里推薦一本書《學(xué)會(huì)提問》,它能讓你在工作中更高效的和人溝通,同時(shí)能鍛煉你的邏輯思維能力,讓大家一起變成“杠精”。(這本書寶器也必須要推薦下)
“知之為知之,不知為不知”,沒有必要為了讓簡歷更加豐富而寫一些自己不太了解的東西,我現(xiàn)在看到數(shù)據(jù)分析同學(xué)簡歷中這類問題的重災(zāi)區(qū)包括以下兩類:
(a)數(shù)學(xué)建模比賽。由于這個(gè)比賽往往沒有專業(yè)導(dǎo)師指導(dǎo)且時(shí)間特別緊急,即使拿獎(jiǎng)了,完成的質(zhì)量也不高,比如我問一個(gè),為什么在這里用這個(gè)方法?大部分同學(xué)的回答是因?yàn)閤x論文也用了這個(gè)方法,幾乎沒有同學(xué)能夠說出其他可行方法的優(yōu)劣比較,其實(shí)我自己也參加過數(shù)學(xué)建模,發(fā)現(xiàn)這個(gè)問題連我自己也無法回答,因?yàn)闀r(shí)間太緊了,當(dāng)時(shí)真的沒有思考。我給出的對(duì)策是,數(shù)學(xué)建模比賽經(jīng)歷可以寫,但不要主動(dòng)去講,更多作為一種經(jīng)歷,如果被聊到,直言這個(gè)比賽時(shí)間有限,有些地方不是特別嚴(yán)謹(jǐn)。
(b)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等算法。做數(shù)據(jù)的同學(xué)多多少少都學(xué)過點(diǎn),也許還實(shí)現(xiàn)過網(wǎng)上的demo,但大部分同學(xué)的這個(gè)能力是達(dá)不到企業(yè)要求的,比如你說會(huì)神經(jīng)網(wǎng)絡(luò),那梯度消失和梯度彌散總要知道吧,順帶的激活函數(shù)演變要了解吧;用過cnn,那cnn在圖像領(lǐng)域效果比dnn好的原因有哪些。現(xiàn)在看到簡歷中有相關(guān)內(nèi)容的,我都不敢主動(dòng)開口聊,怕冷場,對(duì)此我給出的建議是如果沒有學(xué)的很好,最好不要寫,因?yàn)榍岸螘r(shí)間人工智能的火熱,讓懂這塊的面試官越來越多,本來這塊你不會(huì)也沒事,但如果被發(fā)現(xiàn)學(xué)的不好反而會(huì)覺得你平時(shí)學(xué)習(xí)不夠認(rèn)真。
02
互聯(lián)網(wǎng)公司中的初階數(shù)據(jù)分析同學(xué)主要工作內(nèi)容是什么
隨著儲(chǔ)存和收集數(shù)據(jù)成本的下降,公司往往收集了大量的用戶數(shù)據(jù),包括用戶的每一次點(diǎn)擊、查看等行為,隨著用戶數(shù)量的增加和經(jīng)營時(shí)間的延長,我們的數(shù)據(jù)儲(chǔ)存量越來越大(滴滴日均訂單超過2千萬),在如此大的數(shù)據(jù)量條件下,傳統(tǒng)的excel幾乎無法對(duì)數(shù)據(jù)進(jìn)行操作,需要通過寫Sql語句才能對(duì)數(shù)據(jù)進(jìn)行處理。
因此初級(jí)數(shù)據(jù)分析同學(xué)平時(shí)大部分的工作時(shí)間在寫Sql,在通過取了足夠多的數(shù)據(jù),有了足夠的信息輸入后,可以對(duì)業(yè)務(wù)現(xiàn)狀提出問題和解決方案,聽過一個(gè)觀點(diǎn),說數(shù)據(jù)分析同學(xué)是從數(shù)據(jù)角度看待業(yè)務(wù)發(fā)展的輔助決策同學(xué),而我的觀點(diǎn)是,數(shù)據(jù)分析應(yīng)該是懂?dāng)?shù)據(jù)的業(yè)務(wù)同學(xué)(所以我直接跳到了業(yè)務(wù)方?)。
因此業(yè)務(wù)方向的數(shù)據(jù)分析同學(xué)提升自己的方式應(yīng)該就是讓自己多了解業(yè)務(wù),很慶幸我在第一份的實(shí)習(xí)經(jīng)歷中,我的老板就一直強(qiáng)調(diào)讓我去理解業(yè)務(wù),他說你在給人做需求(取數(shù))之前,一定要問清楚為什么要這個(gè)數(shù),業(yè)務(wù)方是怎么看待這個(gè)數(shù)據(jù)和業(yè)務(wù)之間關(guān)系的,砍掉一個(gè)錯(cuò)誤需求,比做十個(gè)正確需求對(duì)你的提升都大。篇幅有限,這塊暫不展開,希望未來工作經(jīng)驗(yàn)更長,有了新的感悟以后再來更新。
附錄一
我的sql學(xué)習(xí)路徑是先看網(wǎng)課:
https://www.bilibili.com/video/av9252479?p=26
在學(xué)了基礎(chǔ)的Sql語句后,開始刷題,牛客網(wǎng)的:
https://www.nowcoder.com/ta/sql
寶器之前的一篇文章:
做了點(diǎn)SQL題。
還有l(wèi)eetcode的:
https://leetcode-cn.com/problemset/database/
如果全天學(xué)習(xí)的話,基本上兩周可以通關(guān)。?
附錄二?
簡歷內(nèi)容:語音識(shí)別,提取了說話聲紋,能夠?qū)⒙曇艉驼f話人匹配,準(zhǔn) 確率達(dá)到94%;對(duì)原始音頻使用了segan算法降低噪聲,使用了cnn代替rnn神經(jīng)網(wǎng)絡(luò),將準(zhǔn)確率提升到了98%。
問題:
segan降低噪聲的原理是什么?
降低和不降低噪聲,對(duì)結(jié)果的影響是多少?
Rnn效果不如cnn的原因是什么?
為什么這里采用cnn,不考慮rcnn或者其他神經(jīng)網(wǎng)絡(luò)?
剩下2%判斷不準(zhǔn)確的原因主要是什么,還有優(yōu)化方案嘛?
?提升這4%帶來的用戶價(jià)值或者商業(yè)價(jià)值是什么?
附錄三
容易題
每一行代表了這個(gè)訂單的id、完成這個(gè)訂單司機(jī)的id,這個(gè)訂單的金額,訂單完成時(shí)間,想要一個(gè)sql:如果某一天中,任何一個(gè)司機(jī)完成了5單及以上,且5單的總金額大于50元,把這天和對(duì)應(yīng)的司機(jī)id輸出。
輸出列名:date,drier_id
知識(shí)點(diǎn):子查詢或者用having做篩選。
中等題
每一行代表這個(gè)用戶是否在當(dāng)天活躍過,如果一個(gè)用戶在當(dāng)天活躍過,且在未來的第2到第30天又活躍過,則稱其為當(dāng)天的活躍30天留存用戶,比如表中a和b用戶都在2019/1/1活躍了,a在2019/1/3活躍了,所以滿足在2019/1/1的活躍30天留存條件,b沒有在第2到第30天活躍過,因此不滿足活躍30天留存。我想要每天的活躍用戶數(shù)和活躍30天留存用戶數(shù)
上表正確輸出
知識(shí)點(diǎn):留存的自連接寫法,日期加減寫法。
困難題:
每行代表司機(jī)開始玩游戲的時(shí)間(start_time)和游戲結(jié)束時(shí)間(end_time),請(qǐng)問每個(gè)司機(jī)結(jié)束一場游戲后,平均多久時(shí)間內(nèi)會(huì)開始下場游戲?如果司機(jī)只玩過一次游戲,就不計(jì)算該司機(jī)。
上表正確輸出
知識(shí)點(diǎn):窗口函數(shù)row_number用法,時(shí)間加減寫法。
關(guān)于窗口函數(shù)的題:解一下TMD幾道熱門數(shù)據(jù)分析面試題。
?
我是覺得難度尚可,因?yàn)楫?dāng)時(shí)就是寫出了這些題目,然后拿到的實(shí)習(xí)offer。
最最后,發(fā)一個(gè)海潮部門提供的工作機(jī)會(huì)。
杭州滴滴出行(代駕事業(yè)部) -數(shù)據(jù)分析實(shí)習(xí)生招聘:
【工作職責(zé)】
1、完成對(duì)業(yè)務(wù)關(guān)鍵指標(biāo)的監(jiān)控及異常波動(dòng)等分析工作;
2、根據(jù)業(yè)務(wù)需求,對(duì)數(shù)據(jù)進(jìn)行提取、整合、分析,為產(chǎn)品及決策提供數(shù)據(jù)分析支持;
3、跟進(jìn)業(yè)務(wù)線項(xiàng)目的數(shù)據(jù)分析工作,獨(dú)立完成上線前后的數(shù)據(jù)調(diào)研、效果評(píng)估等分析報(bào)告;
4、支持常規(guī)的統(tǒng)計(jì)需求。
【任職資格】
1、數(shù)學(xué)、統(tǒng)計(jì)、計(jì)算機(jī)相關(guān)專業(yè)優(yōu)先;
2、熟練使用SQL (必備),掌握R、Python等數(shù)據(jù)分析工具之一,熟悉Linux;
3、對(duì)常見的統(tǒng)計(jì)分析方法如關(guān)聯(lián)分析、線性回歸等簡單模型,熟悉ABtest方法;
4、對(duì)數(shù)據(jù)足夠敏感,善于抓住有價(jià)值的點(diǎn),做多維度的數(shù)據(jù)分析;
5、善于學(xué)習(xí),每周最少工作4天,持續(xù)時(shí)間在6個(gè)月以上;
6、2021年及以后畢業(yè)。
【工作地點(diǎn)】
浙江省杭州市西湖區(qū)西溪谷G座10F
崗位發(fā)布時(shí)間: 2020/03/02
【郵箱】?
格式:「數(shù)據(jù)管道推薦」+「名字」
henryzhanghaichao@didiglobal.com
以上,祝大家2020工作順利。
◆?◆?◆ ?◆?◆
長按二維碼關(guān)注我們
數(shù)據(jù)森麟公眾號(hào)的交流群已經(jīng)建立,許多小伙伴已經(jīng)加入其中,感謝大家的支持。大家可以在群里交流關(guān)于數(shù)據(jù)分析&數(shù)據(jù)挖掘的相關(guān)內(nèi)容,還沒有加入的小伙伴可以掃描下方管理員二維碼,進(jìn)群前一定要關(guān)注公眾號(hào)奧,關(guān)注后讓管理員幫忙拉進(jìn)群,期待大家的加入。
管理員二維碼:
猜你喜歡
●?笑死人不償命的知乎沙雕問題排行榜
●?用Python扒出B站那些“驚為天人”的阿婆主!
●?互聯(lián)網(wǎng)大佬學(xué)歷&背景大揭秘,看看是你的老鄉(xiāng)還是校友
●?上萬條數(shù)據(jù)撕開微博熱搜的真相!
●?你相信逛B站也能學(xué)編程嗎??
總結(jié)
以上是生活随笔為你收集整理的我在滴滴数据分析岗实习8个月的收获(文末附内推机会)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 闯关之旅1
- 下一篇: 磁盘数据寻址方式(CHS与LBA相互转换