数据挖掘竞赛-美国King County房价预测训练赛
生活随笔
收集整理的這篇文章主要介紹了
数据挖掘竞赛-美国King County房价预测训练赛
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
美國(guó)King County房?jī)r(jià)預(yù)測(cè)訓(xùn)練賽
- 簡(jiǎn)介
- DC上的一個(gè)回歸題(正經(jīng)的回歸題)。
- 比較簡(jiǎn)單。
- 時(shí)間原因(暫時(shí)沒什么時(shí)間看國(guó)內(nèi)舊賽),看了一下網(wǎng)上的解答,改善了一下神經(jīng)網(wǎng)絡(luò)就提交了。
- 過程
- 數(shù)據(jù)獲取
- 報(bào)名成功后到官網(wǎng)提供的入口下載,或者我的Github也上傳了。
- 數(shù)據(jù)探索
- 簡(jiǎn)單了解數(shù)據(jù)格式。
- 訓(xùn)練集有10000條記錄,14個(gè)特征,描述如下。(注意,官方數(shù)據(jù)集沒有表頭)
- 其中,第二列“銷售價(jià)格”就是目標(biāo)。
- 測(cè)試集有3000條記錄,利用訓(xùn)練好的模型預(yù)測(cè)這3000條記錄的房?jī)r(jià)。
- 訓(xùn)練集有10000條記錄,14個(gè)特征,描述如下。(注意,官方數(shù)據(jù)集沒有表頭)
- 簡(jiǎn)單了解數(shù)據(jù)格式。
- 數(shù)據(jù)預(yù)處理
- 設(shè)置表頭
- 原數(shù)據(jù)沒有表頭,自己補(bǔ)充即可。
- 顯然,實(shí)際數(shù)據(jù)銷售日期是有意義的,但是,對(duì)模型建立不方便,提取年份,刪除月日。
- 利用銷售日期組合修理及建造日期構(gòu)建新特征。
- 處理后數(shù)據(jù)集落地。
- 設(shè)置表頭
- 數(shù)據(jù)挖掘建模
- 幾種回歸嘗試
- 隨機(jī)森林(RFR)
- 線性回歸
- 神經(jīng)網(wǎng)絡(luò)
- 由于幾種回歸表現(xiàn)一般,沒有再嘗試,看網(wǎng)上分享很多神經(jīng)網(wǎng)絡(luò)做法,參考設(shè)計(jì)了一個(gè)前饋網(wǎng)絡(luò)。
- 使用Keras(TensorFlow作為后端,GPU訓(xùn)練)
- 訓(xùn)練5000次左右提交為100名成績(jī)。
- 注意:**5000次之前就已經(jīng)收斂,為了效率可以加入EarlyStopping。(時(shí)間原因,沒有處理)
- 網(wǎng)絡(luò)代碼
- model = Sequential()input_size = len(df_train.columns)model.add(Dense(units=90, activation='relu', input_shape=(input_size, )))model.add(Dropout(0.5))model.add(Dense(units=45, activation='relu'))model.add(Dropout(0.5))model.add(Dense(units=30,activation='relu'))model.add(Dropout(0.25))model.add(Dense(units=15, activation='relu'))model.add(Dropout(0.1))# 此處不能使用激活函數(shù),因?yàn)榉偶偈欠派涞?/span>model.add(Dense(units=1,activation=None))# 官網(wǎng)使用mse計(jì)算損失model.compile(loss='mean_squared_error',optimizer='adam',metrics=[metrics.mae])model.summary()
- 幾種回歸嘗試
- 數(shù)據(jù)獲取
- 補(bǔ)充說(shuō)明
- 排名靠前的應(yīng)該不少使用機(jī)器學(xué)習(xí)算法回歸調(diào)參,有時(shí)間的不妨一試。
- 具體數(shù)據(jù)集和代碼見我的Github,歡迎Star或者Fork(環(huán)境為Jupyter)。
- 附上提交時(shí)的排名。
總結(jié)
以上是生活随笔為你收集整理的数据挖掘竞赛-美国King County房价预测训练赛的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 广度优先遍历算法-01寻找制高点问题
- 下一篇: 广度优先遍历算法-02合法的括号问题