日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自带的数据集_机器学习练习数据哪里找?两行代码搞定!

發(fā)布時間:2025/3/21 编程问答 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自带的数据集_机器学习练习数据哪里找?两行代码搞定! 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

初學(xué)者學(xué)習(xí)機器學(xué)習(xí)的時候,經(jīng)常會找不到練習(xí)的數(shù)據(jù),實際上scikit-learn內(nèi)置了很多可以用于機器學(xué)習(xí)的數(shù)據(jù),可以用兩行代碼就可以使用這些數(shù)據(jù)。

一、自帶數(shù)據(jù)集

自帶的小的數(shù)據(jù)集為:sklearn.datasets.load_<name>

  • fetch_20newsgroups:用于文本分類、文本挖據(jù)和信息檢索研究的國際標(biāo)準(zhǔn)數(shù)據(jù)集之一。數(shù)據(jù)集收集了大約20,000左右的新聞組文檔,均勻分為20個不同主題的新聞組集合。返回一個可以被文本特征提取器
  • fetch_20newsgroups_vectorized:這是上面這個文本數(shù)據(jù)的向量化后的數(shù)據(jù),返回一個已提取特征的文本序列,即不需要使用特征提取器
  • fetch_california_housing:加利福尼亞的房價數(shù)據(jù),總計20640個樣本,每個樣本8個屬性表示,以及房價作為target,所有屬性值均為number,詳情可調(diào)用fetch_california_housing()['DESCR']了解每個屬性的具體含義;
  • fetch_covtype:森林植被類型,總計581012個樣本,每個樣本由54個維度表示(12個屬性,其中2個分別是onehot4維和onehot40維),以及target表示植被類型1-7,所有屬性值均為number,詳情可調(diào)用fetch_covtype()['DESCR']了解每個屬性的具體含義
  • fetch_kddcup99:KDD競賽在1999年舉行時采用的數(shù)據(jù)集,KDD99數(shù)據(jù)集仍然是網(wǎng)絡(luò)入侵檢測領(lǐng)域的事實Benckmark,為基于計算智能的網(wǎng)絡(luò)入侵檢測研究奠定基礎(chǔ),包含41項特征
  • fetch_lfw_pairs:該任務(wù)稱為人臉驗證:給定一對兩張圖片,二分類器必須預(yù)測這兩個圖片是否來自同一個人。
  • fetch_lfw_people:打好標(biāo)簽的人臉數(shù)據(jù)集
  • fetch_mldata:從 http://mldata.org 中下載數(shù)據(jù)集
  • fetch_olivetti_faces:Olivetti 臉部圖片數(shù)據(jù)集
  • fetch_rcv1:路透社新聞?wù)Z聊數(shù)據(jù)集
  • fetch_species_distributions:物種分布數(shù)據(jù)集

怎么用:
數(shù)據(jù)集的信息關(guān)鍵字:

  • DESCR:
    數(shù)據(jù)集的描述信息
  • data:
    內(nèi)部數(shù)據(jù)(即:X)
  • feature_names:
    數(shù)據(jù)字段名
  • target:
    數(shù)據(jù)標(biāo)簽(即:y)
  • target_names:
    標(biāo)簽字段名(回歸數(shù)據(jù)集無此項)

使用方法(以load_iris為例)

數(shù)據(jù)介紹:

  • 一般用于做分類測試
  • 有150個數(shù)據(jù)集,共分為3類,每類50個樣本。每個樣本有4個特征。
  • 每條記錄都有 4 項特征:包含4個特征(Sepal.Length(花萼長度)、Sepal.Width(花萼寬度)、Petal.Length(花瓣長度)、Petal.Width(花瓣寬度)),特征值都為正浮點數(shù),單位為厘米。
  • 可以通過這4個特征預(yù)測鳶尾花卉屬于(iris-setosa(山鳶尾), iris-versicolour(雜色鳶尾), iris-virginica(維吉尼亞鳶尾))中的哪一品種。

第一步:

導(dǎo)入數(shù)據(jù)

from sklearn.datasets import load_iris iris = load_iris()第二步:定義X和y X, y = iris.data, iris.target 此外,可以看下數(shù)據(jù)的維度:X.shape,y.shape輸出為:((150, 4), (150,))查看特征名:iris.feature_names輸出為: ['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width (cm)']查看標(biāo)簽名:iris.target_names

輸出為:

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

劃分訓(xùn)練集和測試集:

from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

這樣就把訓(xùn)練集和測試集按照3比1劃分了,接下來就可以用機器學(xué)習(xí)算法進(jìn)行訓(xùn)練和測試了。

小技巧:將數(shù)據(jù)轉(zhuǎn)換為Dataframe格式(兩種方法都可以):

import pandas as pd df_X = pd.DataFrame(iris.data, columns=iris.feature_names) #這個是X df_y = pd.DataFrame(iris.target, columns=["target"]) #這個是y df=pd.concat([df_X,df2],axis=1)#橫向合并 df.head()

或者:

import numpy as np import pandas as pd col_names = iris['feature_names'] + ['target'] df = pd.DataFrame(data= np.c_[iris['data'], iris['target']], columns=col_names) df.head()

輸出結(jié)果一致:

二、可在線下載的數(shù)據(jù)集(需要下載)

下載的數(shù)據(jù)集為:sklearn.datasets.fetch_<name>

這類數(shù)據(jù)需要在線下載,有點慢

  • fetch_20newsgroups

用于文本分類、文本挖據(jù)和信息檢索研究的國際標(biāo)準(zhǔn)數(shù)據(jù)集之一。數(shù)據(jù)集收集了大約20,000左右的新聞組文檔,均勻分為20個不同主題的新聞組集合。返回一個可以被文本特征提取器

  • fetch_20newsgroups_vectorized

這是上面這個文本數(shù)據(jù)的向量化后的數(shù)據(jù),返回一個已提取特征的文本序列,即不需要使用特征提取器

  • fetch_california_housing

加利福尼亞的房價數(shù)據(jù),總計20640個樣本,每個樣本8個屬性表示,以及房價作為target,所有屬性值均為number,詳情可調(diào)用fetch_california_housing()['DESCR']了解每個屬性的具體含義;

  • fetch_covtype

森林植被類型,總計581012個樣本,每個樣本由54個維度表示(12個屬性,其中2個分別是onehot4維和onehot40維),以及target表示植被類型1-7,所有屬性值均為number,詳情可調(diào)用fetch_covtype()['DESCR']了解每個屬性的具體含義

  • fetch_kddcup99

KDD競賽在1999年舉行時采用的數(shù)據(jù)集,KDD99數(shù)據(jù)集仍然是網(wǎng)絡(luò)入侵檢測領(lǐng)域的事實Benckmark,為基于計算智能的網(wǎng)絡(luò)入侵檢測研究奠定基礎(chǔ),包含41項特征

  • fetch_lfw_pairs

該任務(wù)稱為人臉驗證:給定一對兩張圖片,二分類器必須預(yù)測這兩個圖片是否來自同一個人。

  • fetch_lfw_people

打好標(biāo)簽的人臉數(shù)據(jù)集

  • fetch_mldata

從 http://mldata.org 中下載數(shù)據(jù)集

  • fetch_olivetti_faces

Olivetti 臉部圖片數(shù)據(jù)集

  • fetch_rcv1

路透社新聞?wù)Z聊數(shù)據(jù)集

  • fetch_species_distributions

物種分布數(shù)據(jù)集

使用方法與自帶數(shù)據(jù)集一致,只是多了下載過程(示例:fetch_20newsgroups)

from sklearn.datasets import fetch_20newsgroups news = fetch_20newsgroups(subset='all') #本次使用的數(shù)據(jù)需要到互聯(lián)網(wǎng)上下載 from sklearn.model_selection import train_test_split #對數(shù)據(jù)訓(xùn)練集和測試件進(jìn)行劃分 X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)

三、生成數(shù)據(jù)集

可以用來分類任務(wù),可以用來回歸任務(wù),可以用來聚類任務(wù),用于流形學(xué)習(xí)的,用于因子分解任務(wù)的,用于分類任務(wù)和聚類任務(wù)的:這些函數(shù)產(chǎn)生樣本特征向量矩陣以及對應(yīng)的類別標(biāo)簽集合

  • make_blobs:多類單標(biāo)簽數(shù)據(jù)集,為每個類分配一個或多個正態(tài)分布的點集
  • make_classification:多類單標(biāo)簽數(shù)據(jù)集,為每個類分配一個或多個正態(tài)分布的點集,提供了為數(shù)據(jù)添加噪聲的方式,包括維度相關(guān)性,無效特征以及冗余特征等
  • make_gaussian-quantiles:將一個單高斯分布的點集劃分為兩個數(shù)量均等的點集,作為兩類
  • make_hastie-10-2:產(chǎn)生一個相似的二元分類數(shù)據(jù)集,有10個維度
  • make_circle和make_moons:產(chǎn)生二維二元分類數(shù)據(jù)集來測試某些算法的性能,可以為數(shù)據(jù)集添加噪聲,可以為二元分類器產(chǎn)生一些球形判決界面的數(shù)據(jù)

舉例:

import matplotlib.pyplot as plt from sklearn.datasets import make_moons X, y = make_moons(n_samples=100, noise=0.15, random_state=42) plt.title('make_moons function example') plt.scatter(X[:,0],X[:,1],marker='o',c=y) plt.show()

四、其它數(shù)據(jù)集

kaggle:https://www.kaggle.com

天池:https://tianchi.aliyun.com/dataset

搜狗實驗室:http://www.sogou.com/labs/resource/list_pingce.php

DC競賽:https://www.pkbigdata.com/common/cmptIndex.html

DF競賽:https://www.datafountain.cn/datasets

總結(jié)

本文為機器學(xué)習(xí)初學(xué)者提供了使用scikit-learn內(nèi)置數(shù)據(jù)的方法,用兩行代碼就可以使用這些數(shù)據(jù),可以進(jìn)行大部分的機器學(xué)習(xí)實驗了。

參考

https://scikit-learn.org/stable/datasets/index.html

關(guān)于本站

“機器學(xué)習(xí)初學(xué)者”公眾號由是黃海廣博士創(chuàng)建,黃博個人知乎粉絲23000+,github排名全球前110名(32000+)。本公眾號致力于人工智能方向的科普性文章,為初學(xué)者提供學(xué)習(xí)路線和基礎(chǔ)資料。原創(chuàng)作品有:吳恩達(dá)機器學(xué)習(xí)個人筆記、吳恩達(dá)深度學(xué)習(xí)筆記等。

總結(jié)

以上是生活随笔為你收集整理的自带的数据集_机器学习练习数据哪里找?两行代码搞定!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 久久老熟女一区二区三区 | 国产美女白浆 | 国产欧美视频一区二区三区 | 久久精品人妻一区二区 | 求个黄色网址 | 小嫩嫩精品导航 | 国产日韩欧美视频 | 国产精品无码一区 | 欧美日韩性 | 欧美bbbbb性bbbbb视频 | 天天做日日做 | 超碰97在线免费观看 | 久久精品亚洲a | 大肉大捧一进一出好爽 | 欧美日韩视频免费 | 午夜视频入口 | 最近中文字幕无免费 | 中文字幕av专区 | 九一天堂 | 欧美日韩在线播放三区四区 | 91国产在线免费观看 | 久久影院一区 | 日韩精品偷拍 | 免费在线视频一区二区 | 久久综合网址 | 少妇 av| 国产在线激情视频 | 欧美有码在线观看 | 特黄网站 | 色福利hd写真video | 1区2区视频| 亚洲精品一区二区二区 | 成人h视频在线观看 | 亚洲尤物视频 | 欧美激情久久久久久久 | 欧美交换国产一区内射 | 干干天天 | 美女狠狠干 | 美女搞黄在线观看 | 少妇一级1淫片 | 不卡av一区二区 | 高清国产在线 | 女生隐私免费看 | 亚洲最色网站 | 天天干视频在线观看 | 国产一卡二卡 | 美女av免费在线观看 | 九九影视理伦片 | 精品人妻aV中文字幕乱码色欲 | 4438x全国最大成人 | 久久久久久久免费 | youjizz自拍| 欧美日韩人妻精品一区 | 美女免费av | 欧美精品亚洲一区 | 变态 另类 国产 亚洲 | 欧美春色| 中文字幕亚洲乱码 | 亚洲图片二区 | 免费网站在线观看人数在哪动漫 | 七仙女欲春2一级裸体片 | 肉性天堂| 日大逼| www.久久99| 春色导航 | 邵氏电影《金莲外传2》免费观看 | 一级黄色毛毛片 | 就操在线| 五月婷婷俺也去 | 中文字幕亚洲第一 | 久久精品亚洲一区 | 女生隐私免费看 | 人妻少妇久久中文字幕 | 高清日韩 | freesex性hd公交车上 | 美国毛片基地 | 国产精品卡一卡二 | 波多野结衣办公室33分钟 | 国产精品久久久久久久免费 | 成人在线小视频 | 一级看片| 欧美日本三级 | 国产综合区 | 国产成人在线免费 | 日本高清不卡二区 | 国产精品视频999 | 丝袜人妖 | 日本一区二区三区免费视频 | 手机在线精品视频 | 午夜激情毛片 | 久久噜噜噜| 超碰在线免费97 | 在线cao| 高清一区二区在线 | 午夜激情久久久 | av在线成人| 久久精品视频一区 | 欧美性白人极品1819hd | 国产伦精品一区二区三区视频女 |