日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

pandas的自带数据集_盘点 | Python自带的那些数据集

發布時間:2025/3/20 python 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 pandas的自带数据集_盘点 | Python自带的那些数据集 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

01

?Seaborn自帶數據集

在學習Pandas透視表的時候,大家應該注意到,我們使用的案例數據"泰坦尼克號"來自于seaborn自帶的在線數據庫,我們可以通過seaborn提供的函數load_dataset("數據集名稱")來獲取線上相應的數據,返回給我們的是一個pandas的DataFrame對象。

import?seaborn?as?sns
df?=?sns.load_dataset('titanic')
df.sample(5)

返回的DataFrame對象非常便于我們更加深入地了解數據,示例代碼:

df?=?sns.load_dataset("tips")
print("
[數據集基本信息]
")
print(df.info())
print("
[數值變量信息]
")
print(df.describe())
print("
[離散變量信息]
")for?name?in?df.dtypes[(df.dtypes?==?"category")?|?(df.dtypes?==?"object")].index:
????print("{}?特征值?:??{}".format(name,?str(df[name].unique())))

數據集描述信息如下:

[數據集基本信息]RangeIndex:?244?entries,?0?to?243Data?columns?(total?7?columns):total_bill????244?non-null?float64tip???????????244?non-null?float64sex???????????244?non-null?categorysmoker????????244?non-null?categoryday???????????244?non-null?categorytime??????????244?non-null?categorysize??????????244?non-null?int64dtypes:?category(4),?float64(2),?int64(1)
[數值變量信息]total_bill?????????tip????????sizecount?? 244.000000??244.000000??244.000000mean???19.785943????2.998279????2.569672std?????? 8.902412????1.383638????0.951100min??????3.070000????1.000000????1.000000
25%?????13.347500????2.000000????2.000000
50%?????17.795000????2.900000????2.000000
75%?????24.127500????3.562500????3.000000max?????50.810000???10.000000????6.000000[離散變量信息]sex?特征值?:??[Female,?Male]smoker?特征值?:??[No,?Yes]day?特征值?:??[Sun,?Sat,?Thur,?Fri]time?特征值?:??[Dinner,?Lunch]

seaborn自帶的全量數據集,如下所示:

seaborn示例數據集鏈接:https://github.com/mwaskom/seaborn-data

02

?Sklearn自帶數據集

1. 小型數據集

數據加載、觀察示例:

from?sklearn?import?datasetsimport?pandas?as?pd,?numpy?as?np
dataset?=?datasets.load_iris()
print("數據集包含的信息項:")
print("??".join(dataset.keys()))
print("
數據集描述信息:
")
print(dataset["DESCR"])
data?=?dataset["data"]
target?=?dataset["target"]
df?=?pd.DataFrame(data,?columns=dataset["feature_names"])
df["target"]?=?target
df.sample(10)
df.info()
df.describe()sklearn小型數據集詳細介紹:https://scikit-learn.org/stable/datasets/index.html#toy-datasets

2. 較大型數據集(在線下載)

20個新聞組數據集加載示例:

from?sklearn.datasets?import?fetch_20newsgroupsfrom?pprint?import?pprint
newsgroups_train?=?fetch_20newsgroups(subset='train')
pprint(list(newsgroups_train.targernames))print(newsgroups_train.filenames.shape)?#?(11314,)print(newsgroups_train.target.shape)?#?(11314,)print(newsgroups_train.target[:10])?#?[?7??4??4??1?14?16?13??3??2??4]print(newsgroups_train['data'][:2])?#?前三篇文章["From:?lerxst@wam.umd.edu?(where's?my?thin...

sklearn大型數據集詳細介紹:https://scikit-learn.org/stable/datasets/index.html#real-world-datasetssklearn

新聞數據文本分類實戰:https://www.jianshu.com/p/244180c064cf

03

?其他數據源

1. UCL機器學習知識庫

UCL機器學習數據庫,包括了多個不同大小和類型的數據集,可用于分類、回歸、聚類和推薦系統任務。

鏈接:https://archive.ics.uci.edu/ml/index.php

2. weka數據集

鏈接:https://www.cs.waikato.ac.nz/ml/weka/datasets.html

3. KD-nuggets數據集

鏈接:https://www.kdnuggets.com/datasets/index.html

4. UCI KDD Archive數據集

鏈接:http://kdd.ics.uci.edu/

請掃碼關注:

總結

以上是生活随笔為你收集整理的pandas的自带数据集_盘点 | Python自带的那些数据集的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。