利用拉勾网爬取的数据查看当前的数据分析岗的市场行情
通過拉勾網的數據分析數據分析行情
- 1、明確需求和目的
- 2、數據準備
- 3、數據處理
- 3.1 數據整合
- 3.1.1 加載相關的庫包和數據集
- 3.1.2 數據概覽
- 3.2 數據清洗
- 3.2.1 數據挑選與去重
- 3.2.2 去掉非數據分析崗的數據
- 4、 數據分析
- 4.1 各城市對數據分析崗位的需求情況
- 4.2 不同細分領域對數據分析崗的需求情況
- 4.3 數據分析崗位的薪資狀況
- 4.4 工作經驗與薪水的關系
- 4.5 公司都要求什么掌握什么技能
- 4.6 崗位的學歷要求高嗎
- 4.7 不同規模的企業對工資經驗的要求以及提供的薪資水平
- 4.8 整體總結
- 總結
- 參考鏈接
1、明確需求和目的
- 針對當前形勢下分析數據分析崗位的行情。
- 選取某一/某些招聘平臺上的招聘數據來進行數據分析。
- 對于各大城市、各種規模的數據分析需求進行詳細的分析與總結。
2、數據準備
- 數據來源為某位偉大的貢獻者提供的爬蟲和數據文件,是爬取拉勾網上的招聘數據信息。
- 數據文件集為"lagou.csv",其中共有3140行數據,52具體特征。
3、數據處理
3.1 數據整合
3.1.1 加載相關的庫包和數據集
- 其中用到的庫包主要包括pandas、numpy、matplotlib、seaborn和pyecharts
- 使用的數據集是lagou.csv
3.1.2 數據概覽
2. 接著看一下這個數據集中的列名(特征):
3.2 數據清洗
3.2.1 數據挑選與去重
# 取出我們進行后續分析所需的字段 columns = ["positionName", "companyShortName", "city", "companySize", "education", "financeStage","industryField", "salary", "workYear", "hitags", "companyLabelList", "job_detail"] df = df[columns].drop_duplicates() #去重 # 查看挑選后的數據長度 len(df)3.2.2 去掉非數據分析崗的數據
從job_detail中提取出技能要求
我們將技能分為以下幾類:
- Python/R
- SQL
- Tableau
- Excel
處理方式: 如果job_detail中含有上述四類,則賦值為1,不含有則為0。
3. 處理行業信息
Tip: 在這一步我們的數據處理工作就初步結束了,因為這里我們整理出來的是我們后續需要的數據,接下來的一步就是最終的數據分析步驟了,請各位小伙伴擦亮自己的雙眼,穩住自己的雙手。Let’s go!
4、 數據分析
在此我們需要先明確我們的分析目標,主要是一下7點:
4.1 各城市對數據分析崗位的需求情況
fig, ax = plt.subplots(figsize=(12,8)) sns.countplot(y="city",order= df["city"].value_counts().index,data=df,color='#3c7f99') plt.box(False) fig.text(x=0.04, y=0.90, s=' 各城市數據分析崗位的需求量 ', fontsize=32, weight='bold', color='white', backgroundcolor='#c5b783') plt.tick_params(axis='both', which='major', labelsize=16) ax.xaxis.grid(which='both', linewidth=0.5, color='#3c7f99') plt.xlabel('') plt.ylabel('')
小結: 從這個圖標我們可以看出,在很多著名的一線城市中對于數據分析崗位的需求量是十分巨大的,尤其是北上廣深,從中我們也可以明白數據分析在一線城市的立足之地是比較充沛的,當然競爭也在所難免。
4.2 不同細分領域對數據分析崗的需求情況
industry_index = df["industryField"].value_counts()[:10].index industry =df.loc[df["industryField"].isin(industry_index),"industryField"]fig, ax = plt.subplots(figsize=(12,8)) sns.countplot(y=industry.values,order = industry_index,color='#3c7f99') plt.box(False) fig.text(x=0, y=0.90, s=' 細分領域數據分析崗位的需求量(取前十) ', fontsize=32, weight='bold', color='white', backgroundcolor='#c5b783') plt.tick_params(axis='both', which='major', labelsize=16) ax.xaxis.grid(which='both', linewidth=0.5, color='#3c7f99') plt.xlabel('') plt.ylabel('')
小結: 在此我們也可以看到,數據分析崗位在各個不同的細分領域中的需求量不低,而且也都是當前的熱門領域,像電商、金融和數據服務等領域中都對數據分析有著極高的需求。
4.3 數據分析崗位的薪資狀況
fig,ax = plt.subplots(figsize=(12,8)) city_order = df.groupby("city")["salary"].mean()\.sort_values()\.index.tolist() sns.barplot(x="city", y="salary", order=city_order, data=df, ci=95,palette="RdBu_r") fig.text(x=0.04, y=0.90, s=' 各城市的薪資水平對比 ', fontsize=32, weight='bold', color='white', backgroundcolor='#3c7f99') plt.tick_params(axis="both",labelsize=16,) ax.yaxis.grid(which='both', linewidth=0.5, color='black') ax.set_yticklabels([" ","5k","10k","15k","20k"]) plt.box(False) plt.xlabel('') plt.ylabel('')
另外我們再來看看一線城市的薪資對比:
小結: 從上述圖表上我們可以看到數據分析在個城市的薪資水平,在一線城市中的薪資基本都是10k以上。例如廣州的平均薪資更多集中在10k;北京最高,集中在23k之間;雖然上海和深圳薪資主要集中20k,但是它們的需求非常廣泛。價值源于需求和利益,而且在以后,數據分析崗位或許會越來越熱門。
4.4 工作經驗與薪水的關系
corr = df.pivot_table(index="city",columns="workYear",values="salary") corr = corr[["應屆畢業生","1-3年","3-5年","5-10年"]] corr.loc[city_order]我們先看一下各大城市對于工作經驗和薪水的數據報表。
接著我們再進行比較細致的圖表描繪:
小結: 從上述的報表和圖表我們可以看得到,數據分析崗的工作經驗與薪水幾乎是呈線性正相關關系。也就是說隨著工作經驗的增加,薪水也會隨著增加,表面著這并非就是一份年輕的青春飯,有想法的同學們可以考慮一下。
4.5 公司都要求什么掌握什么技能
py_rate = df["Python/R"].value_counts(normalize=True).loc[1] sql_rate = df["SQL"].value_counts(normalize=True).loc[1] tableau_rate = df["Tableau"].value_counts(normalize=True).loc[1] excel_rate = df["Excel"].value_counts(normalize=True).loc[1] print("職位技能需求:") print("Python/R:",py_rate) print("SQL:",sql_rate) print("Excel:",excel_rate) print("Tableau:",tableau_rate)我們看一下主要的技能要求占比:
接著我用一張比較直觀的圖表展示,讓大家感受的更加貼切:
另外補充的一個就是大公司對于技能的要求占比:
最后就是事關未來的發展前景與當前形勢了:
小結: Look! 現如今的市場行情要求要具備的數據分析技能要求就是這樣。占比最大的兩個就是Python/R 以及 SQL ,Excel的含量也挺不錯的,可以看情況使用,而對于Tableau的需求非常低,可以當作額外興趣去學習。對于Python/R,我覺得選取其中一門進行學習就可以,它們的市場占比是非常高的;而對于SQL,我只能說,若想爬的更高,那就必須去學,如果問Why?那就去看看上面那些圖表;Excel我覺得更多的前期過渡,因為Excel對于大量數據目前來看是硬傷。
4.6 崗位的學歷要求高嗎
education = df["education"].value_counts(normalize=True)from pyecharts.commons.utils import JsCode def new_label_opts():return opts.LabelOpts(formatter=JsCode("學歷要求")) pie = (Pie().add("",[list(z) for z in zip(education.index, np.round(education.values,4))],center=["50%", "50%"],radius=["50%","75%"],label_opts=new_label_opts()).set_global_opts(title_opts=opts.TitleOpts(title=""),legend_opts=opts.LegendOpts(is_show=False)).set_series_opts(label_opts=opts.LabelOpts(formatter=": ozvdkddzhkzd%")))pie.render_notebook()
小結: 就目前的形勢來看,本科永遠是占大頭的,因為就各種性價比來看,永遠是本科生最實惠。
4.7 不同規模的企業對工資經驗的要求以及提供的薪資水平
最后的這個大家肯定也非常關心,那就讓我們來瞧一瞧吧!
3.函數干活,負責最累的活
def seed_scale_plot():seeds=np.arange(5)+1y=np.zeros(len(seeds),dtype=int)s=seeds*100colors=['#ff0000', '#ffa500', '#c5b783', '#3c7f99', '#0000cd'][::-1] fig,ax=plt.subplots(figsize=(12,1))plt.scatter(seeds,y,s=s,c=colors,alpha=0.3)plt.scatter(seeds,y,c=colors)plt.box(False)plt.grid(False)plt.xticks(ticks=seeds,labels=list(workYear_map.keys())[::-1],fontsize=14)plt.yticks(np.arange(1),labels=[' 經驗:'],fontsize=16)萬眾矚目的時刻到了
小結: 其實總體看來,數據分析崗位在各種規模的公司都是存在的,不過大公司一般招收的各階段的數據分析師都比較多一些,對于工作經驗十足的數據分析師更是十分歡迎的,不過工作經驗少的也可以努力爭取的??傊?#xff0c;加油嘍!
4.8 整體總結
總結
整體來說,這篇文章我是借鑒別的大佬的數據資料來進行分析的,所以在此必須感謝大佬提供的資料。我也是想從事關于數據分析崗位的,這個崗位說實話壓力會很大,競爭力十足,但是也不要立刻放棄,你不試試怎么就知道自己真的不是主角呢?不過如果對于自己沒有試錯機會的人來說,那就慎重一點吧!總之能看到這里的各位都是有耐心的狼滅了,非常感謝大家,謝謝!參考鏈接
大佬的鏈接:https://zhuanlan.zhihu.com/p/96073413
總結
以上是生活随笔為你收集整理的利用拉勾网爬取的数据查看当前的数据分析岗的市场行情的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ARDUNIO测试L297和L298n组
- 下一篇: 椭圆光学性质的几何证明