华为LAB实验室3-机器学习实验:(线性回归)美国King County房价预测训练赛
各位好,我是乾頤堂大堂子。領取完整實戰指南可以私信我,關鍵詞:實戰指南
導入相關python庫
2.數據處理
下載的是兩個數據文件,一個是真實數據,一個是測試數據,打開kc_train.csv,能夠看到第二列是銷售價格,而我們要預測的就是銷售價格,所以在訓練過程中是不需要銷售價格的,把第二列刪除掉,新建一個csv文件存放銷售價格這一列,作為后面的結果對比。
2.1數據說明
?數據主要包括2014年5月至2015年5月美國King County的房屋銷售價格以及房屋的基本信息。 數 據分為訓練數據和測試數據, 分別保存在kc_train.csv和kc_test.csv兩個文件中。 其中訓練數據主要包括10000條記錄, 14個字段, 主要字段說明如下:
第一列 “銷售日期” : 2014年5月到2015年5月房屋出售時的日期
第二列 “銷售價格” : 房屋交易價格, 單位為美元, 是目標預測值
第三列 “臥室數” : 房屋中的臥室數目
第四列 “浴室數” : 房屋中的浴室數目
第五列 “房屋面積” : 房屋里的生活面積
第六列 “停車面積” : 停車坪的面積
第七列 “樓層數” : 房屋的樓層數
第八列 “房屋評分” : King County房屋評分系統對房屋的總體評分
第九列 “建筑面積” : 除了地下室之外的房屋建筑面積
第十列 “地下室面積” : 地下室的面積
第十一列“建筑年份” : 房屋建成的年份
第十二列“修復年份” : 房屋上次修復的年份
第十三列"緯度": 房屋所在緯度
第十四列“經度” : 房屋所在經度
測試數據主要包括3000條記錄, 13個字段, 跟訓練數據的不同是測試數據并不包括房屋銷售價格, 學員需要通過由訓練數據所建立的模型以及所給的測試數據,得出測試數據相應的房屋銷售價格預測值。
3.特征預處理常用方法:歸一化、標準
把數據進行無量綱化,使不同規格的數據轉換到同一規格。
(選做)3.1特征縮放/數據歸一化MinMaxScaler()
3.1.1將數據放縮到給定的范圍
fit_transform(self, X[,y])計算并將數據放縮到給定的范圍:
fit():計算給定數據集X的最大值/最小值用于后面的放縮;
transform():將數據集X放縮到給定的范圍內。
fit_transform(),包含上述兩個功能。
3.1.2恢復給定范圍的數據
inverse_transfom(self, X)
3.1.3歸一化解釋
3.1.4為什么訓練集用fit_transform而測試集用transform
訓練集已經通過fit_transform求出了一些固有屬性,測試集可沿用上述屬性直接標準化,不必重新再求
3.1.5歸一化使用局限
因為歸一化是通過最大值、最小值的把數據映射到一個新的區間里,所以如果數據中有異常值(最大或者最小值是異常的、離譜的),這樣機會影響整個數據的映射分布。所以這種方法魯棒性較差,只適合傳統精確小數據場景。
有沒有更加通用的一種數據規范化方式呢?下面是標準化StandardScaler()。
(選做)3.2數據標準化StandardScaler()
數據標準化StandardScaler()是把數據變換到均值為0,標準差為1的范圍內。標準化StandardScaler()不易受異常值的影響。在已有樣本足夠多的情況下比較穩定,適合現代嘈雜大數據場景。
4.模型訓練
使用sklearn庫的線性回歸函數進行調用訓練。梯度下降法獲得誤差最小值。
最后使用MSE和R2來評價模型的好壞程度并畫圖進行比較。
4.1(選做)線性回歸
4.2(選做)隨機梯度下降SGD
4.3(選做)嶺回歸Ridge
5.模型評估(注意替換參數)
6.繪制圖像
7.輸出結果
更多網工提升干貨,請關注公眾號:乾頤堂網絡實驗室
總結
以上是生活随笔為你收集整理的华为LAB实验室3-机器学习实验:(线性回归)美国King County房价预测训练赛的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 鱼眼摄像头标定与畸变校正(双OPENCV
- 下一篇: 第二周 体验复杂度--汉诺塔