日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[Kaggle] Housing Prices 房价预测

發(fā)布時間:2024/7/5 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 [Kaggle] Housing Prices 房价预测 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

    • 1. Baseline
      • 1. 特征選擇
      • 2. 異常值剔除
      • 3. 建模預(yù)測
    • 2. 待優(yōu)化特征工程

房價預(yù)測 kaggle 地址

參考文章:kaggle比賽:房價預(yù)測(排名前4%)

1. Baseline

import numpy as np import pandas as pd %matplotlib inline import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.model_selection import StratifiedShuffleSplit from sklearn.impute import SimpleImputer from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import OneHotEncoder from sklearn.preprocessing import LabelBinarizer from sklearn.base import BaseEstimator, TransformerMixin from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler from sklearn.pipeline import FeatureUnion from sklearn.model_selection import GridSearchCV from sklearn.model_selection import cross_val_score train = pd.read_csv("./train.csv") test = pd.read_csv("./test.csv") # RangeIndex: 1460 entries, 0 to 1459 # Data columns (total 81 columns):

1. 特征選擇

  • 數(shù)據(jù)有79個特征,我們選出相關(guān)系數(shù)最高的10個
abs(train.corr()['SalePrice']).sort_values(ascending=False).plot.bar()

most_10_important = abs(corrmat["SalePrice"]).sort_values(ascending=False)[1:11].index

最相關(guān)的特征 ['OverallQual', 'GrLivArea', 'GarageCars', 'GarageArea', otalBsmtSF', '1stFlrSF', 'FullBath', 'TotRmsAbvGrd', 'YearBuilt', 'YearRemodAdd']

2. 異常值剔除

  • 部分數(shù)據(jù)異常,刪除
sns.pairplot(x_vars=most_10_important[0:5], y_vars=['SalePrice'], data=train, dropna=True) sns.pairplot(x_vars=most_10_important[5:], y_vars=['SalePrice'], data=train, dropna=True) # help(sns.pairplot)

#刪除異常值 train = train.drop(train[(train['OverallQual']<5)&(train['SalePrice']>200000)].index) train = train.drop(train[(train['GrLivArea']>4000)&(train['SalePrice']<300000)].index) train = train.drop(train[(train['YearBuilt']<1900)&(train['SalePrice']>400000)].index) train = train.drop(train[(train['TotalBsmtSF']>6000)&(train['SalePrice']<200000)].index) sns.pairplot(x_vars=most_10_important[0:5], y_vars=['SalePrice'], data=train, dropna=True) sns.pairplot(x_vars=most_10_important[5:], y_vars=['SalePrice'], data=train, dropna=True) # help(sns.pairplot)

X_train = train[most_10_important] X_test = test[most_10_important] y_train = train['SalePrice']
  • 年份數(shù)據(jù)作為文字變量
X_train['YearBuilt'] = X_train['YearBuilt'].astype(str) X_train['YearRemodAdd'] = X_train['YearRemodAdd'].astype(str) X_test['YearBuilt'] = X_test['YearBuilt'].astype(str) X_test['YearRemodAdd'] = X_test['YearRemodAdd'].astype(str) def num_cat_splitor(X_train):s = (X_train.dtypes == 'object')object_cols = list(s[s].index)num_cols = list(set(X_train.columns) - set(object_cols))return num_cols, object_cols num_cols, object_cols = num_cat_splitor(X_train) class DataFrameSelector(BaseEstimator, TransformerMixin):def __init__(self, attribute_names):self.attribute_names = attribute_namesdef fit(self, X, y=None):return selfdef transform(self, X):return X[self.attribute_names].valuesnum_pipeline = Pipeline([('selector', DataFrameSelector(num_cols)),('imputer', SimpleImputer(strategy="median")),('std_scaler', StandardScaler()),]) cat_pipeline = Pipeline([('selector', DataFrameSelector(object_cols)),('cat_encoder', OneHotEncoder(sparse=False,handle_unknown='ignore')),]) full_pipeline = FeatureUnion(transformer_list=[("num_pipeline", num_pipeline),("cat_pipeline", cat_pipeline),]) X_prepared = full_pipeline.fit_transform(X_train)

3. 建模預(yù)測

prepare_select_and_predict_pipeline = Pipeline([('preparation', full_pipeline),('forst_reg', RandomForestRegressor(random_state=0)) ]) param_grid = [{'preparation__num_pipeline__imputer__strategy': ['mean', 'median', 'most_frequent'],'forst_reg__n_estimators' : [50,100, 150, 200,250,300,330,350],'forst_reg__max_features':[45,50, 55, 65] }]grid_search_prep = GridSearchCV(prepare_select_and_predict_pipeline, param_grid, cv=7,scoring='neg_mean_squared_error', verbose=2, n_jobs=-1) grid_search_prep.fit(X_train,y_train) grid_search_prep.best_params_ final_model = grid_search_prep.best_estimator_ y_pred_test = final_model.predict(X_test) result = pd.DataFrame() result['Id'] = test['Id'] result['SalePrice'] = y_pred_test result.to_csv('housing_price_10_features.csv',index=False)


得分:19154.16762

2. 待優(yōu)化特征工程

待學習 My Top 1% Approach: EDA, New Models and Stacking

總結(jié)

以上是生活随笔為你收集整理的[Kaggle] Housing Prices 房价预测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 娇小tube性极品娇小 | 久久大伊人 | 香蕉久草 | 性生交大片免费看女人按摩 | 婷婷激情网站 | 九色91蝌蚪 | 亚洲精品久久一区二区三区777 | 亚洲永久精品在线观看 | 欧美日韩xxx | 99精品黄色 | 色一区二区三区 | 美日韩在线视频 | 日韩精品系列 | 亚洲午夜无码久久久久 | 日美韩一区二区三区 | 8x8ⅹ成人永久免费视频 | 先锋影音在线 | 亚洲第一福利网站 | 日本国产高清 | jizz亚洲女人 | 99精品视频一区二区三区 | 亚洲综合小说网 | av狠狠| 亚洲午夜久久久久久久久红桃 | 午夜777 | 爱涩av | 色臀av| 国产wwwwwww | 日毛片 | 香蕉久久影院 | 综合人人 | 色伊人久久 | 中国新婚夫妻性猛交 | 少妇性l交大片免潘金莲 | 国产精品久久久久三级 | 99久久99久久精品国产片 | 东北少妇av | 一区二区高清视频 | 少妇高潮一区二区三区99 | 国产偷人 | 五月综合激情日本mⅴ | 99久热 | 久久久少妇 | 波多野结衣乳巨码无在线 | 欧美一级爱爱 | 一区二区欧美视频 | 久草免费福利视频 | 国产成人久久婷婷精品流白浆 | 国产熟妇乱xxxxx大屁股网 | tube日本69第一次 | 国产精品久久久久999 | 精品国产aⅴ一区二区三区东京热 | www.久久色 | 黄色一级大片在线免费看国产一 | 国产亚洲精品久久久久久久久动漫 | 日韩精品久久久久 | 国产情侣自拍小视频 | a v在线视频 | 992tv在线影院 | 亚洲色精品三区二区一区 | 欧美一级做a爰片久久高潮 久热国产精品视频 | 国产情侣酒店自拍 | 久久av导航| 中文字幕无码毛片免费看 | 欧美在线视频一区二区 | 五月婷婷狠狠干 | 超碰1000| 亚洲自拍偷拍网 | 羞羞色院91蜜桃 | 成人国产精品免费观看视频 | 久久亚洲精少妇毛片午夜无码 | 国产精品一区二区三区免费在线观看 | 欧洲精品久久 | 国产r级在线| 久久久久久久国产精品 | 黄色成人免费网站 | 无码人妻h动漫 | 成人国产片| 图片区亚洲 | 亚洲无线观看 | 亚洲九九爱 | japan高清日本乱xxxxx | 性色av蜜臀av色欲av | 一级片黄色片 | 久久一道本 | 精品视频专区 | 久久国产这里只有精品 | h部分肌肉警猛淫文 | 97在线免费观看 | 成人免费观看在线视频 | 亚洲成人免费视频 | 毛片在线不卡 | 欧美日韩加勒比 | 在线免费看毛片 | 777奇米色 | 中文字幕成人在线观看 | 78日本xxxxxxxxx59 亚洲图片小说视频 | 伊人五月综合 | 亚洲一区二区三区四区av |