日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2.Explore Your Data

發布時間:2023/12/10 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2.Explore Your Data 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Using Pandas to Get Familiar With Your Data

任何機器學習項目的第一步都是熟悉數據。 您將使用Pandas庫。 Pandas是科學家用于挖掘和處理數據的主要工具。 大多數人在他們的代碼中將pandas縮寫為pd。 我們使用如下命令執行此操作。

[1]

import pandas as pd

Pandas庫中最重要的部分是DataFrame。 DataFrame包含您可能認為是表格的數據類型。 這類似于Excel中的工作表或SQL數據庫中的表。
對于您希望使用此類數據進行的大多數事情,Pandas都有強大的方法。
例如,我們將查看澳大利亞墨爾本的房價數據。 在動手練習中,您將相同的處理方法應用于新的數據集,該數據集含有愛荷華州的房價。
示例(墨爾本)數據位于文件路徑../input/melbourne-housing-snapshot/melb_data.csv。
我們使用以下命令加載和挖掘數據:

【2】

# save filepath to variable for easier access melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' # read the data and store data in DataFrame titled melbourne_data melbourne_data = pd.read_csv(melbourne_file_path) # print a summary of the data in Melbourne data melbourne_data.describe() ?RoomsPriceDistancePostcodeBedroom2BathroomCarLandsizeBuildingAreaYearBuiltLattitudeLongtitudePropertycountcountmeanstdmin25%50%75%max
13580.0000001.358000e+0413580.00000013580.00000013580.00000013580.00000013518.00000013580.0000007130.0000008205.00000013580.00000013580.00000013580.000000
2.9379971.075684e+0610.1377763105.3019152.9147281.5342421.610075558.416127151.9676501964.684217-37.809203144.9952167454.417378
0.9557486.393107e+055.86872590.6769640.9659210.6917120.9626343990.669241541.01453837.2737620.0792600.1039164378.581772
1.0000008.500000e+040.0000003000.0000000.0000000.0000000.0000000.0000000.0000001196.000000-38.182550144.431810249.000000
2.0000006.500000e+056.1000003044.0000002.0000001.0000001.000000177.00000093.0000001940.000000-37.856822144.9296004380.000000
3.0000009.030000e+059.2000003084.0000003.0000001.0000002.000000440.000000126.0000001970.000000-37.802355145.0001006555.000000
3.0000001.330000e+0613.0000003148.0000003.0000002.0000002.000000651.000000174.0000001999.000000-37.756400145.05830510331.000000
10.0000009.000000e+0648.1000003977.00000020.0000008.00000010.000000433014.00000044515.0000002018.000000-37.408530145.52635021650.000000

Interpreting Data Description

結果顯示原始數據集中每列的8個數字。 第一個數字(計數)顯示有多少行具有有效值。
由于許多原因而出現缺失值。 例如,在調查單臥室房屋時,不會收集第二間臥室的大小。 我們將回到缺失數據的主題。
第二個值是平均值,?在此之下,std是標準差,它衡量數值如何展開。
要解釋最小值,25%,50%,75%和最大值,請設想將每列從最低值到最高值進行排序。 第一個(最小)值是min。 如果你在列表中走四分之一,這就是25%的值。 第50和第75百分位數也是同樣定義。

?

Your Turn

開始的第一個編程練習。

?

總結

以上是生活随笔為你收集整理的2.Explore Your Data的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。