日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

华为LAB实验室3-机器学习实验:(线性回归)美国King County房价预测训练赛

發布時間:2023/12/29 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 华为LAB实验室3-机器学习实验:(线性回归)美国King County房价预测训练赛 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

各位好,我是乾頤堂大堂子。領取完整實戰指南可以私信我,關鍵詞:實戰指南

  • 導入相關python庫

  • 2.數據處理

    下載的是兩個數據文件,一個是真實數據,一個是測試數據,打開kc_train.csv,能夠看到第二列是銷售價格,而我們要預測的就是銷售價格,所以在訓練過程中是不需要銷售價格的,把第二列刪除掉,新建一個csv文件存放銷售價格這一列,作為后面的結果對比。

    2.1數據說明

    ?數據主要包括2014年5月至2015年5月美國King County的房屋銷售價格以及房屋的基本信息。 數 據分為訓練數據和測試數據, 分別保存在kc_train.csv和kc_test.csv兩個文件中。 其中訓練數據主要包括10000條記錄, 14個字段, 主要字段說明如下:

    第一列 “銷售日期” : 2014年5月到2015年5月房屋出售時的日期

    第二列 “銷售價格” : 房屋交易價格, 單位為美元, 是目標預測值

    第三列 “臥室數” : 房屋中的臥室數目

    第四列 “浴室數” : 房屋中的浴室數目

    第五列 “房屋面積” : 房屋里的生活面積

    第六列 “停車面積” : 停車坪的面積

    第七列 “樓層數” : 房屋的樓層數

    第八列 “房屋評分” : King County房屋評分系統對房屋的總體評分

    第九列 “建筑面積” : 除了地下室之外的房屋建筑面積

    第十列 “地下室面積” : 地下室的面積

    第十一列“建筑年份” : 房屋建成的年份

    第十二列“修復年份” : 房屋上次修復的年份

    第十三列"緯度": 房屋所在緯度

    第十四列“經度” : 房屋所在經度

    測試數據主要包括3000條記錄, 13個字段, 跟訓練數據的不同是測試數據并不包括房屋銷售價格, 學員需要通過由訓練數據所建立的模型以及所給的測試數據,得出測試數據相應的房屋銷售價格預測值。

    3.特征預處理常用方法:歸一化、標準

    把數據進行無量綱化,使不同規格的數據轉換到同一規格。

    (選做)3.1特征縮放/數據歸一化MinMaxScaler()

    3.1.1將數據放縮到給定的范圍

    fit_transform(self, X[,y])計算并將數據放縮到給定的范圍:

    fit():計算給定數據集X的最大值/最小值用于后面的放縮;

    transform():將數據集X放縮到給定的范圍內。

    fit_transform(),包含上述兩個功能。

    3.1.2恢復給定范圍的數據

    inverse_transfom(self, X)

    3.1.3歸一化解釋

    3.1.4為什么訓練集用fit_transform而測試集用transform

    訓練集已經通過fit_transform求出了一些固有屬性,測試集可沿用上述屬性直接標準化,不必重新再求

    3.1.5歸一化使用局限

    因為歸一化是通過最大值、最小值的把數據映射到一個新的區間里,所以如果數據中有異常值(最大或者最小值是異常的、離譜的),這樣機會影響整個數據的映射分布。所以這種方法魯棒性較差,只適合傳統精確小數據場景。

    有沒有更加通用的一種數據規范化方式呢?下面是標準化StandardScaler()。

    (選做)3.2數據標準化StandardScaler()

    數據標準化StandardScaler()是把數據變換到均值為0,標準差為1的范圍內。標準化StandardScaler()不易受異常值的影響。在已有樣本足夠多的情況下比較穩定,適合現代嘈雜大數據場景。

    4.模型訓練

    使用sklearn庫的線性回歸函數進行調用訓練。梯度下降法獲得誤差最小值。

    最后使用MSE和R2來評價模型的好壞程度并畫圖進行比較。

    4.1(選做)線性回歸

    4.2(選做)隨機梯度下降SGD

    4.3(選做)嶺回歸Ridge

    5.模型評估(注意替換參數)

    6.繪制圖像

    7.輸出結果

    更多網工提升干貨,請關注公眾號:乾頤堂網絡實驗室

    總結

    以上是生活随笔為你收集整理的华为LAB实验室3-机器学习实验:(线性回归)美国King County房价预测训练赛的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。