日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

银行营销数据分析---Python(numpy、pandas、matplotlib)

發(fā)布時(shí)間:2024/1/1 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 银行营销数据分析---Python(numpy、pandas、matplotlib) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)分析【Python】

  • 項(xiàng)目介紹
  • 我的理解
  • 了解數(shù)據(jù)
    • 源數(shù)據(jù)解析
    • 源數(shù)據(jù)概況
  • 數(shù)據(jù)處理
  • 數(shù)據(jù)分析
    • 數(shù)據(jù)展示分析
    • 影響因素分析
  • 分析總結(jié)

項(xiàng)目介紹

  • 數(shù)據(jù)來(lái)源:kaggle銀行營(yíng)銷(xiāo)數(shù)據(jù)
  • 工具:Python、Jupyter Notebook

本項(xiàng)目采取的是kaggle銀行營(yíng)銷(xiāo)的數(shù)據(jù)源,主要是預(yù)測(cè)客戶是否會(huì)訂購(gòu)銀行的產(chǎn)品,但是,這次我將使用numpy、pandas、matplotlib數(shù)據(jù)分析三件套,基于源數(shù)據(jù),深入分析影響銀行三大業(yè)務(wù)—存款、貸款、營(yíng)銷(xiāo)產(chǎn)品的因素,分析結(jié)果可能不是很完善, Try my best!


我的理解

這是第一次自己比較正式的使用Python進(jìn)行數(shù)據(jù)分析,所以在進(jìn)行數(shù)據(jù)分析之前,需要理清自己的分析思路:首先是對(duì)于這份數(shù)據(jù)的理解,確定數(shù)據(jù)分析目標(biāo): 我到底需要分析這個(gè)數(shù)據(jù)的什么?需要得出什么樣的結(jié)論?我的答案是:想要獲得與銀行存款、貸款和營(yíng)銷(xiāo)產(chǎn)品相關(guān)的主要用戶群體及它們之間的影響因素,為下次銀行活動(dòng)提供數(shù)據(jù)支持;其次,有了目標(biāo),我需要如何做?我主要分為3步:

  • 了解數(shù)據(jù):解析源數(shù)據(jù)
  • 數(shù)據(jù)處理:去除垃圾數(shù)據(jù)及不可用數(shù)據(jù)
  • 目標(biāo)數(shù)據(jù)分析:針對(duì)項(xiàng)目的分析目標(biāo),進(jìn)行數(shù)據(jù)可視化,對(duì)比分析
  • 最后,對(duì)數(shù)據(jù)分析進(jìn)行總結(jié),給出自己的思考看法。


    了解數(shù)據(jù)

    源數(shù)據(jù)解析

    首先,查看源數(shù)據(jù),發(fā)現(xiàn)每一行的數(shù)據(jù)都使用 “;” 隔開(kāi),表頭含義如下:

    部分源數(shù)據(jù)展示:

    源數(shù)據(jù)概況

    導(dǎo)入需要的工具包

    import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline

    讀入數(shù)據(jù)

    data = pd.read_csv(r"D:\Desktop\train.csv",sep=";")

    展示前五條數(shù)據(jù)

    data.head() agejobmaritaleducationdefaultbalancehousingloancontactdaymonthdurationcampaignpdayspreviouspoutcomey01234
    58managementmarriedtertiaryno2143yesnounknown5may2611-10unknownno
    44techniciansinglesecondaryno29yesnounknown5may1511-10unknownno
    33entrepreneurmarriedsecondaryno2yesyesunknown5may761-10unknownno
    47blue-collarmarriedunknownno1506yesnounknown5may921-10unknownno
    33unknownsingleunknownno1nonounknown5may1981-10unknownno

    展示后五條數(shù)據(jù)

    data.tail() agejobmaritaleducationdefaultbalancehousingloancontactdaymonthdurationcampaignpdayspreviouspoutcomey4520645207452084520945210
    51technicianmarriedtertiaryno825nonocellular17nov9773-10unknownyes
    71retireddivorcedprimaryno1729nonocellular17nov4562-10unknownyes
    72retiredmarriedsecondaryno5715nonocellular17nov112751843successyes
    57blue-collarmarriedsecondaryno668nonotelephone17nov5084-10unknownno
    37entrepreneurmarriedsecondaryno2971nonocellular17nov361218811otherno

    數(shù)據(jù)信息

    包括數(shù)據(jù)的index,列名、空值和非空值計(jì)數(shù)等,可以為我們后面的數(shù)據(jù)處理和數(shù)據(jù)可視化分析做好鋪墊。 data.info() <class 'pandas.core.frame.DataFrame'> RangeIndex: 45211 entries, 0 to 45210 Data columns (total 17 columns):# Column Non-Null Count Dtype --- ------ -------------- ----- 0 age 45211 non-null int64 1 job 45211 non-null object2 marital 45211 non-null object3 education 45211 non-null object4 default 45211 non-null object5 balance 45211 non-null int64 6 housing 45211 non-null object7 loan 45211 non-null object8 contact 45211 non-null object9 day 45211 non-null int64 10 month 45211 non-null object11 duration 45211 non-null int64 12 campaign 45211 non-null int64 13 pdays 45211 non-null int64 14 previous 45211 non-null int64 15 poutcome 45211 non-null object16 y 45211 non-null object dtypes: int64(7), object(10) memory usage: 5.9+ MB

    數(shù)據(jù)描述

    包括了一些數(shù)值類(lèi)型的數(shù)據(jù)描述,包括計(jì)數(shù)、平均值等,讓我們更好的理解源數(shù)據(jù) data.describe() agebalancedaydurationcampaignpdayspreviouscountmeanstdmin25%50%75%max
    45211.00000045211.00000045211.00000045211.00000045211.00000045211.00000045211.000000
    40.9362101362.27205815.806419258.1630802.76384140.1978280.580323
    10.6187623044.7658298.322476257.5278123.098021100.1287462.303441
    18.000000-8019.0000001.0000000.0000001.000000-1.0000000.000000
    33.00000072.0000008.000000103.0000001.000000-1.0000000.000000
    39.000000448.00000016.000000180.0000002.000000-1.0000000.000000
    48.0000001428.00000021.000000319.0000003.000000-1.0000000.000000
    95.000000102127.00000031.0000004918.00000063.000000871.000000275.000000

    數(shù)據(jù)處理

    經(jīng)過(guò)上一步的數(shù)據(jù)預(yù)覽,我們發(fā)現(xiàn)源數(shù)據(jù)并沒(méi)有出現(xiàn)空值,又為我們的工作減輕了負(fù)擔(dān),接下來(lái)我們就對(duì)數(shù)據(jù)的重復(fù)值、異常值及一些我們不需要的數(shù)據(jù)進(jìn)行處理(其實(shí)并無(wú)其他垃圾數(shù)據(jù)):

    刪除previous、day、month三列數(shù)據(jù)

    data.drop(columns=["day", "month", "previous"], inplace=True, axis=1)

    查找重復(fù)值

    data.duplicated().value_counts() False 45211 dtype: int64

    查找異常值—年齡大于120

    data[data["age"] >= 120].count()

    數(shù)據(jù)分析

    數(shù)據(jù)展示分析

    訂購(gòu)銀行產(chǎn)品數(shù)據(jù)分析

    可以看到,大量客戶并不愿意訂購(gòu)銀行提供的產(chǎn)品,只有11.7%的人說(shuō)可以,這種巨大的差距可以表明人們的立場(chǎng),大多數(shù)人更喜歡第三方平臺(tái)或其他的金融產(chǎn)品(以我們?yōu)槔?#xff1a;支付寶),后面將會(huì)更加深入研究影響人們訂閱銀行產(chǎn)品的原因。

    data.y.value_counts() no 39922 yes 5289 Name: y, dtype: int64 # 數(shù)據(jù)概況---人們是否愿意訂購(gòu)銀行產(chǎn)品(Target)# 畫(huà)布*2 fig, axes = plt.subplots(nrows = 1,ncols = 2,figsize = (16,6)) # 餅圖傳入?yún)?shù) y_pct = data.y.value_counts()*100/len(data) # 條形圖 plt.title("Univariate analysis of the target") sns.countplot(x = "y", data = data, order = data["y"].value_counts().index, ax = axes[0]) # 餅狀圖 axes[1].pie(x = y_pct, autopct='%1.2f%%', labels = y_pct.index, shadow = True, explode=(0.1,0)) plt.show()

    客戶群體—年齡特征

    從下kde分布圖中可以看出,客戶年齡峰值出現(xiàn)在30-40歲之間,這個(gè)年紀(jì)人們工作效率或者更愿意參與銀行的活動(dòng),其次客戶主要分布在30-60歲之間,可以集中把主要用戶群體放在30-60歲的客戶

    # 數(shù)據(jù)概況---年齡分布mean = data.age.mean() median = data.age.median() mode = data.age.mode().values[0]plt.figure(figsize = (10, 6)) sns.histplot(data = data, x = data.age, kde = True) plt.axvline(mean, color='r', linestyle='--', label="Mean") plt.axvline(median, color='g', linestyle='-', label="Median") plt.axvline(mode, color='#b5838d', linestyle='-', label="Mode") plt.legend() plt.show()

    客戶群體—工作種類(lèi)

    用戶的工作類(lèi)型和收入都會(huì)影響到人們存款、貸款及訂閱產(chǎn)品的積極性。從圖中可以看出,主要的用戶群體是藍(lán)領(lǐng)、管理者、技術(shù)人員、行政人員、和服務(wù)類(lèi)工作人員,他們占據(jù)了8成以上的數(shù)量,從工作性質(zhì)上也可以看出,他們更加需要銀行提供的產(chǎn)品幫助,用于理財(cái)?shù)取?/p> data.job.value_counts() blue-collar 9732 management 9458 technician 7597 admin. 5171 services 4154 retired 2264 self-employed 1579 entrepreneur 1487 unemployed 1303 housemaid 1240 student 938 unknown 288 Name: job, dtype: int64 # 數(shù)據(jù)概況---職位分布job_pct = data.job.value_counts()*100/len(data) fig, axes = plt.subplots(nrows = 1,ncols = 2,figsize = (20,6)) axes[0].pie(x=job_pct,autopct='%1.2f%%',labels = job_pct.index) sns.barplot(x=data.job.value_counts().values, y=data['job'].value_counts().index, palette="hls",ax = axes[1]) plt.show()

    客戶群體—教育程度、個(gè)人貸款、房貸

    不同教育程度的用戶,他們接受銀行營(yíng)銷(xiāo)產(chǎn)品的效果也完全不同,從圖中可以看出,用戶主要還是以中等教育為主,占比達(dá)到了50%以上,其次是高等教育的人群,將近30%。再?gòu)膫€(gè)人貸款和房貸方面來(lái)分析,沒(méi)有個(gè)人貸款的人數(shù)占大多數(shù),可以理解,因?yàn)榫哂袀€(gè)人貸款的客戶可能沒(méi)有富于的錢(qián)用于訂閱銀行產(chǎn)品,因此,可以把主要客戶群體放在無(wú)個(gè)人貸款群體上。而房貸的有無(wú)數(shù)量相當(dāng),因?yàn)橘I(mǎi)房也可以看做是一種特殊的投資,所以有無(wú)房貸差別不大。

    data.education.value_counts() secondary 23202 tertiary 13301 primary 6851 unknown 1857 Name: education, dtype: int64 data.loan.value_counts() no 37967 yes 7244 Name: loan, dtype: int64 # 數(shù)據(jù)概況---教育程度、貸款與否edu_pct = data.education.value_counts()*100/len(data) loan_pct = data.loan.value_counts()*100/len(data) housing_pct = data.housing.value_counts()*100/len(data)fig, axes = plt.subplots(nrows = 1,ncols = 3,figsize = (16,6)) axes[0].pie(x=edu_pct,autopct='%1.2f%%',shadow = True,explode=(0.06,0,0,0),startangle=90,labels = edu_pct.index) axes[0].set_title('Job Pie Chart', fontdict={'fontsize': 14, 'color':'#41393E'}) axes[1].pie(x=loan_pct,autopct='%1.2f%%',shadow = True,explode=(0.08,0),startangle=90,labels = loan_pct.index) axes[1].set_title('Loan Pie Chart', fontdict={'fontsize': 14,'color':'#41393E'}) axes[2].pie(x=housing_pct,autopct='%1.2f%%',shadow = True,explode=(0.08,0),startangle=90,labels = housing_pct.index) axes[2].set_title('House loan Pie Chart', fontdict={'fontsize': 14,'color':'#41393E'}) plt.show()

    前次活動(dòng)數(shù)據(jù)分析

    從下餅圖和柱狀圖數(shù)據(jù)可以看出,絕大部分用戶在上次活動(dòng)中是unkonwn,成功的人數(shù)是最少的,間接說(shuō)明了潛在用戶群體龐大。

    # 數(shù)據(jù)概況---前一次活動(dòng)結(jié)果precome_pct = data.poutcome.value_counts()*100/len(data) fig, axes = plt.subplots(nrows = 1,ncols = 2,figsize = (16,6)) sns.countplot(x = "poutcome", data = data, order = data.poutcome.value_counts().index, ax = axes[0]) axes[1].pie(x = precome_pct, autopct = '%1.1f%%',shadow = True,explode=(0.1,0,0,0),startangle=90,labels = precome_pct.index) plt.show()

    年余額分析

    存款也是銀行的主要業(yè)務(wù)之一,可以看到客戶主要年余額峰值在1000-2000歐元左右,還有少部分人年余額超過(guò)10000歐元以上,由此可見(jiàn),用戶的貧富差距還是挺大的,大量財(cái)富掌握在少數(shù)人手中。還有極少部分人余額是負(fù)值,推斷應(yīng)該是信譽(yù)極差的用戶。

    Q1,Q3 = np.percentile(data.balance,[25,75]) IQR = Q3 - Q1 Q1,Q3,IQR (72.0, 1428.0, 1356.0) # 數(shù)據(jù)概況---存款信息fig, axes = plt.subplots(nrows = 1,ncols = 2,figsize = (16,6)) sns.histplot(data=data, x='balance', kde=True, color='#b5838d', ax=axes[0]) sns.boxplot(x = data.balance, ax = axes[1]) plt.show()


    最后通話時(shí)長(zhǎng)及活動(dòng)聯(lián)系次數(shù)分析

    一般來(lái)說(shuō),營(yíng)銷(xiāo)產(chǎn)品還是取決于銷(xiāo)售人員的推銷(xiāo)效果,為此做出kde分布圖。可以看到絕大部分用戶通話時(shí)長(zhǎng)在1000s以內(nèi),通話次數(shù)在10次以內(nèi),但是還存在通話時(shí)長(zhǎng)超過(guò)1小時(shí),通話次數(shù)超過(guò)60次的情況,一般存在三種情況:尊貴的會(huì)員、難纏的用戶、老年人理解較差,可以適當(dāng)減少這部分情況的發(fā)生概率,將更多數(shù)時(shí)間花在更有潛力的用戶群體身上。

    # 數(shù)據(jù)概況---通話時(shí)長(zhǎng)及活動(dòng)聯(lián)系次數(shù)fig, axes = plt.subplots(nrows = 1,ncols = 2,figsize = (16,6)) # 通話時(shí)間 mean_dura = data.duration.mean() median_dura = data.duration.median() mode_dura = data.duration.mode().values[0] # 聯(lián)系次數(shù) mean_camp = data.campaign.mean() median_camp = data.campaign.median() mode_camp = data.campaign.mode().values[0]sns.histplot(data = data, x = data.duration, kde = True, ax = axes[0]) axes[0].set_title('Duration Times', fontdict={'fontsize': 14}) axes[0].axvline(mean_dura, color='r', linestyle='--', label="Mean") axes[0].axvline(median_dura, color='g', linestyle='-', label="Median") axes[0].axvline(mode_dura, color='#b5838d', linestyle='-', label="Mode") axes[0].legend()sns.histplot(data = data, x = data.campaign, kde = True, ax = axes[1]) axes[1].set_title('Campaign Times', fontdict={'fontsize': 14}) axes[1].axvline(mean_camp, color='r', linestyle='--', label="Mean") axes[1].axvline(median_camp, color='g', linestyle='-', label="Median") axes[1].axvline(mode_camp, color='#b5838d', linestyle='-', label="Mode") axes[1].legend() plt.show()

    影響因素分析

    年齡與存款的聯(lián)系

    不同年齡段對(duì)存款的需求不同。我做出下聯(lián)合分布圖,并指定類(lèi)型為回歸分析,我們發(fā)現(xiàn)年存款在2000歐元左右的人數(shù)最多,并且各個(gè)年齡段的都有,主要集中在30-60歲之間,60歲以上的選擇存款的人數(shù)相對(duì)較少,并且可以依稀看出置信區(qū)間應(yīng)該也是在2000-3000歐元左右。

    # 存款和年齡之間的關(guān)系 sns.jointplot(x="age", y="balance", data=data,kind = "reg") plt.show()


    年齡、存款、訂購(gòu)銀行產(chǎn)品意愿

    我們使用聯(lián)合分布圖將訂購(gòu)產(chǎn)品意愿作為核密度圖分類(lèi),可以看出三者之間的關(guān)系,發(fā)現(xiàn)愿意訂購(gòu)銀行產(chǎn)品的主要是30-40歲之間,存款20000歐元以內(nèi)的,其中還有存款為負(fù)數(shù)的,應(yīng)該注意他們的信用情況,避免不必要的損失;并且,絕大部分人還是不愿意訂購(gòu)銀行產(chǎn)品,應(yīng)該加強(qiáng)產(chǎn)品質(zhì)量,提高優(yōu)惠力度,收攏客戶。

    # 存款和年齡是否影響人們訂購(gòu)銀行產(chǎn)品 sns.jointplot(x="age", y="balance",hue = "y",data=data) plt.show()

    職業(yè)分析

    不同職業(yè)對(duì)銀行業(yè)務(wù)需求不同。我們先對(duì)不同職業(yè)的存款情況進(jìn)行總體分析,然后在對(duì)其中前三個(gè)訂閱銀行產(chǎn)品的人數(shù)較多的職業(yè)進(jìn)行分析,因?yàn)槟鞘俏覀兊闹饕蛻簟?/p>

    職業(yè)與存款

    由于職業(yè)是分類(lèi)類(lèi)型數(shù)據(jù),所以我們采用分類(lèi)散點(diǎn)圖進(jìn)行分析,從散點(diǎn)圖可以看出管理者、技術(shù)人員、藍(lán)領(lǐng)、退休者四個(gè)職業(yè)類(lèi)型的工作人員存款人數(shù)較多,而管理者還有存款超10萬(wàn)歐元的人數(shù),而未知類(lèi)型的工作類(lèi)型者人數(shù)最少。

    # 工作和存款的關(guān)系 plt.figure(figsize = (13,6)) sns.stripplot(x = data.job, y = data.balance) plt.show()


    我們使用箱線圖將存款人數(shù)前五的工作類(lèi)型進(jìn)行展示分析,發(fā)現(xiàn)他們都有存款金額超過(guò)箱線圖上限的,但是管理者職位的人員相對(duì)較多,金額大者也更加密集,我們還發(fā)現(xiàn)了只有行政人員并沒(méi)有下限異常的數(shù)值。

    plt.figure(figsize = (12,6)) top_jobs = (data.job.value_counts().sort_values(ascending=False).head(5).index.values) sns.boxplot(y="job", x="balance", data=data[data.job.isin(top_jobs)], orient="h") plt.show()

    職業(yè)與銀行訂閱產(chǎn)品

    我們發(fā)現(xiàn)在訂閱銀行產(chǎn)品的各個(gè)職業(yè)中,管理者、技術(shù)人員和藍(lán)領(lǐng)三種類(lèi)型的工作人員人數(shù)最多,而unknown、客房服務(wù)員和企業(yè)家三種類(lèi)型工作人員最少,下面我們將對(duì)訂閱銀行產(chǎn)品人數(shù)前三的職業(yè)進(jìn)行分析,確定我們主要用戶群體。

    # 工作對(duì)訂購(gòu)銀行產(chǎn)品的影響 plt.figure(figsize = (10,6)) sns.countplot(data = data,y = data.job,hue = data.y,orient = "h",order = data.job.value_counts().index) plt.show()


    職業(yè)分析—管理者

    可以從下面直方圖看出,管理者婚姻狀態(tài)大部分是已婚或者單身,他們的絕大部分是接受過(guò)高等教育的人群,并且在訂購(gòu)銀行產(chǎn)品的管理者人群中,他們集中分布在20-60歲之間,其中30-40歲分布最密集,因此下次活動(dòng)推廣時(shí),可以優(yōu)先尋找接受過(guò)高等教育的單身或者已婚,年齡在30-40歲的管理者,他們更有可能會(huì)訂購(gòu)我們的產(chǎn)品。

    # 分析職業(yè)---管理員 manage = data[(data["job"] == "management")] manage_yes = manage[(manage["y"] == "yes")] fig, axes = plt.subplots(nrows = 1,ncols = 2,figsize = (16,6)) sns.histplot(manage_yes["marital"],ax = axes[0]) sns.histplot(manage_yes["education"],ax = axes[1]) plt.show()sns.jointplot(x = "age", y = "balance",hue = "y",data = manage_yes) plt.show()



    職業(yè)分析—技術(shù)人員

    從下面的聯(lián)合分布圖和直方圖可以看出,技術(shù)人員職業(yè)類(lèi)型與管理者特征相似,大多都是已婚或者單身狀態(tài),訂購(gòu)銀行產(chǎn)品的人群集中分布在20-60歲之間,其中30-40歲人群最為集中,不同的是,技術(shù)人員更多的學(xué)歷是中等教育,其次是高等教育,他們接觸到的社會(huì)層次可能沒(méi)有那么高,也是銀行營(yíng)銷(xiāo)策略的主要群體之一。

    # 分析職業(yè)---技術(shù)人員 tech = data[(data["job"] == "technician")] tech_yes = tech[(tech["y"] == "yes")] fig, axes = plt.subplots(nrows = 1,ncols = 2,figsize = (16,6)) sns.histplot(tech_yes["marital"],ax = axes[0]) sns.histplot(tech_yes["education"],ax = axes[1]) plt.show()sns.jointplot(x = "age", y = "balance",hue = "y",data = tech_yes) plt.show()

    職業(yè)分析 —藍(lán)領(lǐng)

    藍(lán)領(lǐng)職業(yè)特征與上面兩者相似,但教育也有很大一部分是初等教育階段,年齡分布相對(duì)來(lái)說(shuō)比較松散,沒(méi)有管理者和技術(shù)人員職業(yè)那么集中。

    # 分析職業(yè)---藍(lán)領(lǐng) bc = data[(data["job"] == "blue-collar")] bc_yes = bc[(bc["y"] == "yes")] fig, axes = plt.subplots(nrows = 1,ncols = 2,figsize = (16,6)) sns.histplot(bc_yes["marital"],ax = axes[0]) sns.histplot(bc_yes["education"],ax = axes[1]) plt.show()sns.jointplot(x = "age", y = "balance",hue = "y",data = bc_yes) plt.show()


    教育水平、存款及訂購(gòu)銀行產(chǎn)品

    無(wú)論是存款、貸款還是訂閱產(chǎn)品,跟一個(gè)人接收的教育程度都息息相關(guān),所以我們分別使用散點(diǎn)圖和聯(lián)合分布圖對(duì)人群教育程度進(jìn)行分析。

    散點(diǎn)圖

    可以看到接受過(guò)高等教育和中等教育的人群,無(wú)論在存款金額還是在訂閱銀行產(chǎn)品都有巨大的優(yōu)勢(shì),但值得注意的是,unknown訂閱產(chǎn)品的人數(shù)也比較多,需要跟進(jìn)他們的信息,提供更好的服務(wù),留下潛在客戶。

    # 教育水平和存款及訂購(gòu)銀行產(chǎn)品的關(guān)系 plt.figure(figsize = (10,6)) sns.stripplot(x = data.education, y = data.balance, hue = data.y) plt.show()

    聯(lián)合分布圖

    我們以接收的教育程度作為分類(lèi),具體的分析出他們所處的年齡段和存款多少,可以發(fā)現(xiàn),絕大部分人的學(xué)歷都是中等教育和高等教育,其中接收中等教育的人群是最多的,他們的年齡段都集中在20-60歲左右,頂峰在30-40歲之間,存款一般在20000歐元以下。

    # 存款、教育和年齡三者的關(guān)系 sns.jointplot(x = "age", y = "balance", hue = "education", data = data) plt.show()


    房子貸款、存款和訂購(gòu)銀行產(chǎn)品

    我們探索房貸會(huì)不會(huì)也是影響銀行主要業(yè)務(wù)的因素之一。可以發(fā)現(xiàn)有無(wú)房貸與銀行存款和訂閱產(chǎn)品并無(wú)太大關(guān)系,他們的數(shù)量占比相當(dāng)。

    # 房子貸款和存款及訂購(gòu)銀行產(chǎn)品的關(guān)系 sns.stripplot(x = data.housing, y = data.balance, hue = data.y) plt.show()

    sns.jointplot(x = "age", y = "balance",hue = "housing",data = data) plt.show()

    個(gè)人貸款

    一個(gè)人經(jīng)濟(jì)狀況也會(huì)影響他們對(duì)銀行業(yè)務(wù)的支持程度。我們可以發(fā)現(xiàn)沒(méi)有個(gè)人貸款的人群他們更愿意訂購(gòu)銀行產(chǎn)品,并且存款相對(duì)來(lái)說(shuō)更多,所以可以把主要關(guān)注對(duì)象放在沒(méi)有個(gè)人貸款的人群上

    # 個(gè)人貸款 sns.stripplot(x = "loan", y = "balance", hue = "y",data = data) sns.jointplot(x ="age" , y = "balance",hue = "loan",data = data) plt.show()



    最后聯(lián)系日距今時(shí)長(zhǎng)和通話時(shí)長(zhǎng)

    推銷(xiāo)手段和服務(wù)態(tài)度也有可能會(huì)影響客戶的決定。可以看到最后聯(lián)系日距今天數(shù)對(duì)于客戶的影響不大,而通話時(shí)間在1000s左右,客戶更加愿意訂閱銀行產(chǎn)品,所以應(yīng)該注意通話時(shí)間,既要保證向客戶介紹完全,時(shí)間又不能太長(zhǎng),1000s左右最佳。

    # 上次聯(lián)系時(shí)間 sns.jointplot(x = "pdays", y = "balance",hue = "y",data = data) sns.jointplot(x="duration", y="balance", hue = "y", data=data) plt.show()



    多個(gè)數(shù)字變量分布關(guān)系

    # 數(shù)字類(lèi)型分析 sns.pairplot(data = data[["age", "balance", "duration", "campaign", "y"]], hue = 'y') plt.show()


    分析總結(jié)

    經(jīng)過(guò)上述分析,為了加強(qiáng)客戶群體對(duì)銀行的業(yè)務(wù)的支持力度,增加客戶訂閱銀行相關(guān)產(chǎn)品的概率,他們應(yīng)該具備以下一些特征:

  • 首先應(yīng)該選擇管理者、技術(shù)人員、藍(lán)領(lǐng)、行政人員這幾類(lèi)職業(yè)的工作人員,他們更有可能加入銀行業(yè)務(wù)
  • 其次,應(yīng)該在這些職業(yè)中重點(diǎn)關(guān)注高等教育和中等教育的人群
  • 第三,他們的婚姻狀態(tài)應(yīng)該是已婚或者未婚,這兩個(gè)婚姻狀態(tài)在訂購(gòu)銀行業(yè)務(wù)占比最高
  • 他們的年齡主要分布在20-60歲,分布最密集的是30-40歲的區(qū)間
  • 他們最好沒(méi)有個(gè)人貸款,至于房貸,那是無(wú)所謂的,因?yàn)橘I(mǎi)房也類(lèi)似一種投資
  • 營(yíng)銷(xiāo)活動(dòng)的通話時(shí)間最好控制在1000s之內(nèi)
  • 總結(jié)

    以上是生活随笔為你收集整理的银行营销数据分析---Python(numpy、pandas、matplotlib)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。