波士顿房价数据集
數據集
- Keras中常見的集成數據集
- 波士頓房價數據集
- 1. 加載數據集
- 2. 訪問數據集
- 3. 數據可視化
Keras是一個高層的神經網絡和深度學習庫,可以快速搭建神經網絡,易于調試和從擴展,是TensorFlow的官方API,內置了常用的公共數據集,可通過 keras.datasets模塊來加載和訪問。
Keras中常見的集成數據集
| boston_sousing | 波士頓房價數據集 |
| CIFAR10 | 10種類別的圖片集 |
| CIFAR100 | 100種類別的圖片集 |
| MNIST | 手寫數字圖片集 |
| Fashion-MNIST | 10重時尚類別的圖片集 |
| IMDB | 電影點評數據集 |
| reuters | 路透社新聞數據集 |
波士頓房價數據集
1. 加載數據集
import tensorflow as tfboston_housing=tf.keras.datasets.boston_housing #train_x和train_y分別接收訓練數據集的屬性和房價 #test_x和test_y分別接收測試數據集的屬性和房價 #(train_x,train_y),(test_x,test_y)=boston_housing.load_data() #默認test_split=0.2,即train數據占比0.8,test數據占比0.2 (train_x,train_y),(test_x,test_y)=boston_housing.load_data(test_split=0)#所有數據劃分為訓練數據print("Training set:",len(train_x)) print("Testing set:",len(test_x)) print("Dim of train_x:",train_x.ndim)#維度 print("Dim of train_x:",train_x.shape)#形狀 print("Dim of train_y:",train_y.ndim) print("Dim of train_y:",train_y.shape)輸出結果如下:
Training set: 506 Testing set: 0 Dim of train_x: 2 Dim of train_x: (506, 13) Dim of train_y: 1 Dim of train_y: (506,)數據集下載經常因為網絡問題而下載錯誤,多試幾次就好了,數據集下載提示如下圖:
也可以自己在網上找鏈接下載后放到文件夾中(推薦),默認路徑是:
C:\Users\Administrator\.keras\datasets\boston_housing.npz
我的路徑是:C:\Users\覃忠原\.keras\datasets\boston_housing.npz
2. 訪問數據集
- 輸出行數據
由輸出結果可看出是二維數組,一個維度對應一條房屋信息數據,每條信息中包括13個屬性,如下:
[[1.23247e+00 0.00000e+00 8.14000e+00 0.00000e+00 5.38000e-01 6.14200e+009.17000e+01 3.97690e+00 4.00000e+00 3.07000e+02 2.10000e+01 3.96900e+021.87200e+01][2.17700e-02 8.25000e+01 2.03000e+00 0.00000e+00 4.15000e-01 7.61000e+001.57000e+01 6.27000e+00 2.00000e+00 3.48000e+02 1.47000e+01 3.95380e+023.11000e+00][4.89822e+00 0.00000e+00 1.81000e+01 0.00000e+00 6.31000e-01 4.97000e+001.00000e+02 1.33250e+00 2.40000e+01 6.66000e+02 2.02000e+01 3.75520e+023.26000e+00]]- 輸出列數據
返回一個一維數組,分別是每條數據中的平均房間數,結果如下:
[6.142 7.61 4.97 6.037 6.376 5.708 5.536 5.468 5.628 5.019 6.404 4.6285.572 6.251 5.613 5.957 7.016 6.345 6.162 6.727 6.202 6.595 7.135 6.5755.895 6.794 6.012 7.185 5.813 5.569 6.315 6.297 6.301 5.935 7.024 6.415....... #太多了這里就不一一列出來了5.885 6.375 6.968 4.88 5.981 7.52 5.593 6.485 5.705 6.172 6.229 5.9516.593 7.061 6.03 5.884 6.897 8.259 6.812 6.122 7.333 8.78 6.273 7.8026.951 6.101]- 輸出全部數據
3. 數據可視化
- 波士頓房價屬性描述
| CRIM | 城鎮人口犯罪率 |
| ZN | 超過25000平方英尺的住宅用地所占比例 |
| INDUS | 城鎮非零售業務地區的比例 |
| CHAS | 查爾斯河虛擬變量(如果土地在河邊=1;否則是0) |
| NOX | 一氧化氮濃度(每1000萬份) |
| RM | 平均每居民房數 |
| AGE | 在1940年之前建成的所有者占用單位的比例 |
| DIS | 與五個波士頓就業中心的加權距離 |
| RAD | 輻射狀公路的可達性指數 |
| TAX | 每10,000美元的全額物業稅率 |
| RTRATIO | 城鎮師生比例 |
| B | 1000(Bk-0.63)^2其中Bk是城鎮黑人的比例 |
| LSTAT | 人口中地位較低人群的百分數 |
| MEDV | (目標變量/類別屬性)以1000美元計算的自有住房的中位數 |
- scatter()函數:展示平均房間數與房價之間的關系
輸出結果如下(總體上趨于數量越多價格越高):
- 循環語句:輸出所有屬性關系圖
輸出結果如下:
總結
- 上一篇: Linux 内核通知链和例程代码
- 下一篇: 国庆节快乐