数据分析实例:企业需要什么样的数据分析人才?
導讀:企業(yè)當前需要什么樣的數(shù)據(jù)分析人才?這些人才應(yīng)該具備怎樣的能力和素質(zhì)?數(shù)據(jù)分析師掙多少錢?下面的分析過程正在試圖給你答案。希望本文能夠為你今后的學習和求職提供指導,也為正在學習數(shù)據(jù)分析和找工作的朋友們提供一定的參考價值。
01 項目背景
在學習數(shù)據(jù)分析的路上,少不了經(jīng)常逛知乎,寫這篇文章的啟發(fā)來源于@BigCarrey 的一篇文章《數(shù)據(jù)分析師掙多少錢?“黑”了招聘網(wǎng)站告訴你!》,該文章給了我一些幫助,讓我了解了數(shù)據(jù)分析崗位相關(guān)的信息,但同樣也留給我一些疑問,該文章分析的數(shù)據(jù)分析師所需技能的結(jié)果絲毫沒有R的蹤影,盡管是一年前的分析,我覺得應(yīng)該不可能不存在。
因此,抱著證實R語言這款工具的想法,以及希望了解當前企業(yè)對數(shù)據(jù)分析崗位的需求,開始了一次針對招聘網(wǎng)站的數(shù)據(jù)分析崗位招聘數(shù)據(jù)的分析與挖掘?qū)嵺`,避免自己所學習的方向與企業(yè)實際需求脫軌。
此實例采用R語言作為分析工具,下面展現(xiàn)的是我整個分析過程。
02 目標
了解企業(yè)當前需要什么樣的數(shù)據(jù)分析人才,以及應(yīng)該具備的能力和素質(zhì)。
分析的結(jié)果為今后的學習和求職提供指導,也為正在學習數(shù)據(jù)分析和找工作的朋友們提供一定的參考價值。
03 問題的分解
不同地區(qū),數(shù)據(jù)分析崗位的需求分布以及對應(yīng)的薪資分布
不同經(jīng)驗,數(shù)據(jù)分析崗位的需求分布以及對應(yīng)的薪資分布
不同學歷,數(shù)據(jù)分析崗位的需求分布以及對應(yīng)的薪資分布
不同企業(yè)規(guī)模,數(shù)據(jù)分析崗位的需求分布以及對應(yīng)的薪資分布
探索數(shù)據(jù)分析崗位對應(yīng)的工具型技能與對應(yīng)的薪資水平
探索數(shù)據(jù)分析崗位對應(yīng)非工具型能力的需求
04 數(shù)據(jù)集的定義
▲表1:數(shù)據(jù)分析崗位信息表
▲表2:數(shù)據(jù)分析崗位技能關(guān)鍵詞表
05 數(shù)據(jù)獲取
數(shù)據(jù)來源:拉勾網(wǎng)
數(shù)據(jù)范圍:互聯(lián)網(wǎng)行業(yè)、數(shù)據(jù)分析崗位
數(shù)據(jù)集:全國數(shù)據(jù)分析崗位招聘信息數(shù)據(jù)集(采集樣本量:449)
工具:爬蟲
時間:所有數(shù)據(jù)截止2018年3月12日
數(shù)據(jù)集獲取方式:請關(guān)注公眾號數(shù)說物語(ID:DataTalk_)回復【拉勾網(wǎng)】即可獲取下載鏈接和密碼
06 數(shù)據(jù)處理
步驟1:加載原始數(shù)據(jù)
步驟2:識別缺失值
▲圖1. aggr缺失值識別圖
幸運的是該數(shù)據(jù)集不存在缺失值,這是很少遇到的情況。
步驟3:數(shù)據(jù)清洗
步驟4:文本挖掘
文本挖掘工具:jiebaR包
說明:
在進行正式挖掘之前測試了一下jiebaR的關(guān)鍵詞(keywords)分詞器,測試的結(jié)果發(fā)現(xiàn)SQL,Python等詞在jiebaR詞典中的IDF值均為11.7392,但“R”這個字符無論如何(即使自定義了用戶字典,或者在idf字典中添加R的idf值)都無法被分詞器識別為關(guān)鍵詞,猜測可能是默認R的詞性標注或者算法實現(xiàn)方法的原因。但因為R是數(shù)據(jù)分析師的重要工具,識別不出來是不可容忍的,因此要另求出路。
測試代碼如下:
結(jié)果如下:
解決辦法:
關(guān)鍵詞算法的實現(xiàn)原理是TF-IDF算法,TF為詞頻,IDF為逆文檔率(詞的權(quán)重),因此TF-IDF=TF*IDF為衡量是否關(guān)鍵詞的指標,若控制IDF,則TF-IDF的值與TF值成正比關(guān)系,簡單來說TF值可以代替TF-IDF值。
由于此次分析的是數(shù)據(jù)分析師的工具和技能,因此只考慮SQL,PYTHON,R,SAS等常用且類似的詞的分析,又因為該類詞在jiebaR分詞器識別出來的IDF值均是同級別的(即使可能存在有差異也在此假設(shè)其等值),因此這部分詞匯的關(guān)鍵指標的衡量可以簡化為出現(xiàn)的詞頻,即TF值,這個可以通過jiebaR的默認分詞器(不是關(guān)鍵詞分詞器)來處理即可,最終解決R關(guān)鍵詞識別的問題。
文本挖掘思路:
1、工具型技能的關(guān)鍵詞:采用默認分詞器的詞頻TF值
2、非工具型能力或素質(zhì)的關(guān)鍵詞:采用關(guān)鍵詞分詞器的TF-IDF值
代碼如下:
到此數(shù)據(jù)處理的過程基本完成,處理后干凈的數(shù)據(jù)如下:
07 分析的結(jié)果
數(shù)據(jù)分析代碼:
具體代碼可以前往該鏈接查看整個過程:RPubs - 分析實例:企業(yè)需要什么樣的數(shù)據(jù)分析人才(http://rpubs.com/Joffy_Z/DA_analysis)
描述統(tǒng)計信息:
問題一:不同地區(qū),數(shù)據(jù)分析崗位的需求分布以及對應(yīng)的薪資分布
總的來說數(shù)據(jù)分析師的平均薪資比較好,工作1年以上拿到10k月薪的機會還是比較大
在需求量前5的城市中,北京和深圳的平均薪資是最高的,廣州的平均薪資最低
需求量在第二梯度的城市中,長沙和成都的平均薪資較低,但武漢、廈門、鄭州也有不錯的薪資表現(xiàn),二線城市也是一個可以考慮的選擇
需要注意的是蘇州的需求量相對于其他城市是非常低的,但其平均薪酬接近深圳,是可以值得關(guān)注的城市
問題二:不同經(jīng)驗,數(shù)據(jù)分析崗位的需求分布以及對應(yīng)的薪資分布
跟預想的差不多,薪資隨工作經(jīng)驗的增加而有一個穩(wěn)定的增長
但企業(yè)對最大的數(shù)據(jù)求集中在3-5年經(jīng)驗的數(shù)據(jù)分析師,這對于轉(zhuǎn)型進入數(shù)據(jù)分析的人來說不是一個好的消息
轉(zhuǎn)行需要更有充足的準備,且要不斷尋找能夠積累經(jīng)驗的項目來做。
問題三:不同學歷,數(shù)據(jù)分析崗位的需求分布以及對應(yīng)的薪資分布
企業(yè)似乎更加注重分析師的實踐經(jīng)驗,而不是學歷的高低,但至少需要具備本科以上的學歷,數(shù)據(jù)分析還是需要具備一定的理論基礎(chǔ)
在薪資方面,相對與本科來說,碩士及以上學歷在獲取高薪方面并沒有太大的優(yōu)勢,能夠解決實際問題才是數(shù)據(jù)分析師拿高薪的關(guān)鍵,而非深奧的理論知識
大專學歷的分析師還是有機會,重點在于增加自己的工作經(jīng)驗才是本質(zhì)上與其他分析師拉開距離的關(guān)鍵,當然,理論知識也不能落下
問題四:不同企業(yè)規(guī)模,數(shù)據(jù)分析崗位的需求分布以及對應(yīng)的薪資分布
150人規(guī)模以下的企業(yè)需求量較少,但給出的薪資較高(甚至有異常的高薪),該類企業(yè)可能處于快速融資且高速的發(fā)展階段,需要有豐富經(jīng)驗的數(shù)據(jù)分析專家來建設(shè)整個數(shù)據(jù)體系
50~150人規(guī)模的企業(yè)適合有足夠經(jīng)驗的分析師且想要創(chuàng)業(yè)的人,對自己職位以及薪酬均會有明顯的提升,但最大的風險就是該類企業(yè)容易失敗,特別在互聯(lián)網(wǎng)行業(yè),因此更不建議作為轉(zhuǎn)型新人的首選
對于轉(zhuǎn)型的新人,盡可能往大企業(yè)走,越大規(guī)模的企業(yè),整個體系越成熟,因此可以在150人以上的規(guī)模從上往下選擇自己合適的企業(yè)才是比較科學的方式,且需求量巨大
問題五:數(shù)據(jù)分析崗位對應(yīng)的工具型技能與對應(yīng)的薪資水平
SQL和Excel幾乎是每個數(shù)據(jù)分析師要掌握的基礎(chǔ)技能,大多數(shù)企業(yè)都有自己的數(shù)據(jù)庫體系或者系統(tǒng)平臺,因此企業(yè)工作人員讀取和處理數(shù)據(jù)還是以數(shù)據(jù)庫和Excel為主
R,Python是兩個最熱門的開源數(shù)據(jù)分析工具,且當前R語言在需求仍然不低,因此核心掌握兩門語言的其中一門都會讓數(shù)據(jù)分析師具備有力的競爭優(yōu)勢
除此之外工作經(jīng)驗較低的數(shù)據(jù)分析師還需要掌握一些BI可視化分析工具
工作經(jīng)驗較高的數(shù)據(jù)分析師需要掌握主流的關(guān)系型數(shù)據(jù)庫系統(tǒng)和NoSQL,以及Hadoop,Hive,Spark等大數(shù)據(jù)工具
掌握Hadoop,Hive,Spark,R,Python等技能是獲取高薪必備條件
問題六:數(shù)據(jù)分析崗位對應(yīng)非工具型能力的需求
聲明:此處數(shù)據(jù)涉及到崗位細分和難以衡量的原因,并沒有進行深入分析,詞云本身不具備太高的數(shù)據(jù)分析價值,僅作為可視化關(guān)鍵詞的分布情況的工具;閱讀者需要根據(jù)自身崗位以及所處的工作定位查看關(guān)鍵詞的情況,這里的大小表示關(guān)鍵詞出現(xiàn)的頻次。
通過資料的收集,了解到數(shù)據(jù)分析崗位主要有偏工程方向和偏業(yè)務(wù)方向兩個類型,透過詞云可以大概了解到如下信息:
偏工程方向的數(shù)據(jù)分析師對“數(shù)據(jù)挖掘”、“數(shù)據(jù)建?!?、“模型分析”等能力要求較高
偏業(yè)務(wù)方向的數(shù)據(jù)分析師對“業(yè)務(wù)分析”、“運營分析”、“產(chǎn)品分析”、“用戶分析”等能力要求較高
兩個類型共同需要“邏輯思維”、“溝通”、“分析報告”、“統(tǒng)計分析”、“團隊合作”等關(guān)鍵能力
08 總結(jié)
從地域來看,北京、深圳、上海、杭州、廣州應(yīng)該是數(shù)據(jù)分析師的首選城市,蘇州是一個值得關(guān)注的城市,外部數(shù)據(jù)了解到蘇州的GDP僅次于一線城市,此處結(jié)果平均薪資接近北京和深圳,但需求量較低,想要蘇州發(fā)展的朋友可以關(guān)注其動態(tài)。
從總體需求來看,企業(yè)更加需要具備多年工作經(jīng)驗,且動手能力強、解決實際問題的分析人才,隨著工作經(jīng)驗的增加,其對應(yīng)的薪資也有可觀的增長。
從大環(huán)境看,外部資料了解到,自助式分析工具的逐步完善與人工智能技術(shù)的突破,也可能使得企業(yè)現(xiàn)有業(yè)務(wù)人員能夠上手基礎(chǔ)的分析工作,導致企業(yè)對經(jīng)驗較低的分析師需求減少。
從企業(yè)規(guī)???#xff0c;150人以上規(guī)模的企業(yè)更加適合新人進去鍛煉,一方面企業(yè)已經(jīng)完成了基本的數(shù)據(jù)體系架構(gòu),且越大的企業(yè)數(shù)據(jù)量級越大,另一方面,企業(yè)需要逐步培養(yǎng)強大的數(shù)據(jù)分析團隊來支撐業(yè)務(wù)的增長。
從分析師個人的角度,則需要更加關(guān)注自身成功項目經(jīng)驗的積累,這是升職加薪的必備條件,且需要思考未來自身的發(fā)展路徑,提前做好準備,相對于業(yè)務(wù)方向,大數(shù)據(jù)工程師方向會有更可觀的薪資。
從能力的角度,數(shù)據(jù)分析師需要掌握SQL,Excel,R,Python四個必備的工具(R和Python可以選擇其一為主要工具),新人可以注重BI,PPT等office工具的技能,如果是大數(shù)據(jù)挖掘,越往后則需要更加關(guān)注hadoop,Hive,Spark等工具;
數(shù)據(jù)分析師個人還需要注重邏輯思維、表達溝通、分析報告等關(guān)鍵能力
09 建議
對于想要轉(zhuǎn)型的數(shù)據(jù)分析師新人,轉(zhuǎn)型之前盡可能做好項目經(jīng)驗的積累,盡量做到跨崗不跨行,在自己熟悉的領(lǐng)域?qū)W習數(shù)據(jù)分析
企業(yè)比較看重經(jīng)驗和動手能力,面試的時候盡可能展示你的作品或者案例,如果當前沒有,則需要在日常學習,練習,積累
可以掌握一些可視化工具和數(shù)據(jù)可視化的思維,熟練掌握報告和表達的技巧,數(shù)據(jù)分析的工具多樣,方式多樣,只有能夠正確解讀數(shù)據(jù)且讓對方看懂聽懂才是有價值的
10 不足
本次分析并沒有按照分析報告的方式來呈現(xiàn),文章中以個人的整個分析過程來撰寫,希望能夠與各位朋友一起交流學習,如果你不同意我文章中的觀點,歡迎指正交流。
文章中我附上了我的數(shù)據(jù)集以及分析的代碼鏈接,有興趣的朋友可以重復我的過程,甚至做更加深入有趣的分析,如果有新的發(fā)現(xiàn)和觀點,希望也能讓我知道,向你們學習。
11 局限
數(shù)據(jù)僅采集到449份樣本,數(shù)據(jù)量相對少一點,因此數(shù)據(jù)分析的結(jié)果需要大家用懷疑的心態(tài)來看待,且僅局限在互聯(lián)網(wǎng)行業(yè),相對于其他行業(yè),本文章的分析結(jié)果只能作為一個參考。
感謝您的閱讀,您的建議和留言會讓我做得更好。
作者:喬飛(Joffy Zhong):咨詢顧問 寫作愛好者 數(shù)據(jù)分析 互聯(lián)網(wǎng)創(chuàng)業(yè)者 R語言中文社區(qū)專欄作者
來源:數(shù)說物語(ID:DataTalk_)
推薦閱讀
日本老爺爺堅持17年用Excel作畫,我可能用了假的Excel···
看完此文再不懂區(qū)塊鏈算我輸:手把手教你用Python從零開始創(chuàng)建區(qū)塊鏈
為什么要學數(shù)學?因為這是一場戰(zhàn)略性的投資
180頁PPT,講解人工智能技術(shù)與產(chǎn)業(yè)發(fā)展
Q:?數(shù)據(jù)分析師所需的技能,你get到了嗎?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉(zhuǎn)載 / 投稿請聯(lián)系:baiyu@hzbook.com
更多精彩文章,請在公眾號后臺點擊“歷史文章”查看
總結(jié)
以上是生活随笔為你收集整理的数据分析实例:企业需要什么样的数据分析人才?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: STM32之RTC例程
- 下一篇: Simulink之交流调压电路