日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

机器学习入门实战——决策树算法实战Titanic数据集

發(fā)布時(shí)間:2023/12/16 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习入门实战——决策树算法实战Titanic数据集 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

關(guān)于決策樹(shù)的理論知識(shí)可以查看:決策樹(shù)

Titanic數(shù)據(jù)集概述

??RMS泰坦尼克號(hào)的沉沒(méi)是歷史上最臭名昭著的沉船之一。 1912年4月15日,在首航期間,泰坦尼克號(hào)撞上一座冰山后沉沒(méi),2224名乘客和機(jī)組人員中有1502人遇難。這一聳人聽(tīng)聞的悲劇震撼了國(guó)際社會(huì),導(dǎo)致了更好的船舶安全條例。預(yù)測(cè)是否有乘客幸存下來(lái)的泰坦尼克號(hào)。

代碼實(shí)戰(zhàn)

首先,一如既往導(dǎo)入數(shù)據(jù)集,并查看一下部分?jǐn)?shù)據(jù)

import pandas as pdtitanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt') titanic.head()


info可以查看一下數(shù)據(jù)集的基本信息,我們可以看到數(shù)據(jù)集中有部分缺失值

titanic.info() > <class 'pandas.core.frame.DataFrame'> > RangeIndex: 1313 entries, 0 to 1312 > Data columns (total 11 columns): > row.names 1313 non-null int64 > pclass 1313 non-null object > survived 1313 non-null int64 > name 1313 non-null object > age 633 non-null float64 > embarked 821 non-null object > home.dest 754 non-null object > room 77 non-null object > ticket 69 non-null object > boat 347 non-null object > sex 1313 non-null object > dtypes: float64(1), int64(2), object(8) > memory usage: 112.9+ KB

我們從中選取三個(gè)特征來(lái)對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)

X = titanic[['pclass','age','sex']] y = titanic['survived']X.info() > <class 'pandas.core.frame.DataFrame'> > RangeIndex: 1313 entries, 0 to 1312 > Data columns (total 3 columns): > pclass 1313 non-null object > age 633 non-null float64 > sex 1313 non-null object > dtypes: float64(1), object(2) > memory usage: 30.9+ KB

age具有缺失值,所以我們要對(duì)缺失值進(jìn)行處理

X['age'].fillna(X['age'].mean(),inplace=True) X.info() > <class 'pandas.core.frame.DataFrame'> > RangeIndex: 1313 entries, 0 to 1312 > Data columns (total 3 columns): > pclass 1313 non-null object > age 1313 non-null float64 > sex 1313 non-null object > dtypes: float64(1), object(2) > memory usage: 30.9+ KB

之后就是將數(shù)據(jù)集劃分成訓(xùn)練集和測(cè)試集

from sklearn.cross_validation import train_test_split X_train,X_test,Y_train,Y_test = train_test_split(X,y,test_size=0.25,random_state=33)from sklearn.feature_extraction import DictVectorizer vec = DictVectorizer(sparse=False)X_train = vec.fit_transform(X_train.to_dict(orient='record')) print(vec.feature_names_) X_test = vec.fit_transform(X_test.to_dict(orient='record'))

[‘a(chǎn)ge’, ‘pclass=1st’, ‘pclass=2nd’, ‘pclass=3rd’, ‘sex=female’, ‘sex=male’]

導(dǎo)入決策樹(shù)模型,并進(jìn)行預(yù)測(cè)

from sklearn.tree import DecisionTreeClassifierdtc = DecisionTreeClassifier() dtc.fit(X_train,Y_train) y_predict = dtc.predict(X_test)

最后,檢查一下模型的效果

from sklearn.metrics import classification_reportprint(dtc.score(X_test,Y_test)) print(classification_report(y_predict,Y_test,target_names=['died','survived']))


代碼參考:《Python機(jī)器學(xué)習(xí)及實(shí)踐:從零開(kāi)始通往Kaggle競(jìng)賽之路》

總結(jié)

以上是生活随笔為你收集整理的机器学习入门实战——决策树算法实战Titanic数据集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。