當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2.Explore Your Data

發布時間：2023/12/10 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 2.Explore Your Data 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Using Pandas to Get Familiar With Your Data

任何機器學習項目的第一步都是熟悉數據。您將使用Pandas庫。 Pandas是科學家用于挖掘和處理數據的主要工具。大多數人在他們的代碼中將pandas縮寫為pd。我們使用如下命令執行此操作。

[1]

import pandas as pd

Pandas庫中最重要的部分是DataFrame。 DataFrame包含您可能認為是表格的數據類型。這類似于Excel中的工作表或SQL數據庫中的表。
對于您希望使用此類數據進行的大多數事情，Pandas都有強大的方法。
例如，我們將查看澳大利亞墨爾本的房價數據。在動手練習中，您將相同的處理方法應用于新的數據集，該數據集含有愛荷華州的房價。
示例（墨爾本）數據位于文件路徑../input/melbourne-housing-snapshot/melb_data.csv。
我們使用以下命令加載和挖掘數據：

【2】

# save filepath to variable for easier access melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' # read the data and store data in DataFrame titled melbourne_data melbourne_data = pd.read_csv(melbourne_file_path) # print a summary of the data in Melbourne data melbourne_data.describe() ?RoomsPriceDistancePostcodeBedroom2BathroomCarLandsizeBuildingAreaYearBuiltLattitudeLongtitudePropertycountcountmeanstdmin25%50%75%max

13580.000000	1.358000e+04	13580.000000	13580.000000	13580.000000	13580.000000	13518.000000	13580.000000	7130.000000	8205.000000	13580.000000	13580.000000	13580.000000
2.937997	1.075684e+06	10.137776	3105.301915	2.914728	1.534242	1.610075	558.416127	151.967650	1964.684217	-37.809203	144.995216	7454.417378
0.955748	6.393107e+05	5.868725	90.676964	0.965921	0.691712	0.962634	3990.669241	541.014538	37.273762	0.079260	0.103916	4378.581772
1.000000	8.500000e+04	0.000000	3000.000000	0.000000	0.000000	0.000000	0.000000	0.000000	1196.000000	-38.182550	144.431810	249.000000
2.000000	6.500000e+05	6.100000	3044.000000	2.000000	1.000000	1.000000	177.000000	93.000000	1940.000000	-37.856822	144.929600	4380.000000
3.000000	9.030000e+05	9.200000	3084.000000	3.000000	1.000000	2.000000	440.000000	126.000000	1970.000000	-37.802355	145.000100	6555.000000
3.000000	1.330000e+06	13.000000	3148.000000	3.000000	2.000000	2.000000	651.000000	174.000000	1999.000000	-37.756400	145.058305	10331.000000
10.000000	9.000000e+06	48.100000	3977.000000	20.000000	8.000000	10.000000	433014.000000	44515.000000	2018.000000	-37.408530	145.526350	21650.000000

Interpreting Data Description

結果顯示原始數據集中每列的8個數字。第一個數字（計數）顯示有多少行具有有效值。
由于許多原因而出現缺失值。例如，在調查單臥室房屋時，不會收集第二間臥室的大小。我們將回到缺失數據的主題。
第二個值是平均值，?在此之下，std是標準差，它衡量數值如何展開。
要解釋最小值，25％，50％，75％和最大值，請設想將每列從最低值到最高值進行排序。第一個（最小）值是min。如果你在列表中走四分之一，這就是25%的值。第50和第75百分位數也是同樣定義。

Your Turn

開始的第一個編程練習。

總結

以上是生活随笔為你收集整理的2.Explore Your Data的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

data
Explore

上一篇：索尼新品牌INZONE推出4K144Hz
下一篇：重读经典《Quaternion kine