日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

sklearn数据集与估计器

發布時間:2024/7/5 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 sklearn数据集与估计器 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?sklearn數據集與估計器

1 sklearn數據集

(1)數據來源:大多數以文件的形式? (csv文件..), 因為mysql有性能瓶頸、讀取速度遭到限制,數據大的時候很費時間

(2)讀取數據的工具:Python中很強大的模塊?pandas:讀取工具、numpy(數據計算模塊,計算速度非常快,因為釋放了Python中的GIL)

(3)可用數據集:

①Kaggle網址:https://www.kaggle.com/datasets

? ? ? ? ? ?Kaggle特點:大數據競賽平臺;80萬科學家;真實數據;數據量巨大

②UCI數據集網址: http://archive.ics.uci.edu/ml/

? ? ? ? ? ?UCI特點:收錄了360個數據集;覆蓋科學、生活、經濟等領域?;數據量幾十萬

③scikit-learn網址:http://scikit-learn.org/stable/datasets/index.html#datasets

? ? ? ? ? ?scikit-learn特點:1數據量較小?;方便學習

(4)數據集的結構

機器學習中數據集的結構:特征值+目標值

特征值:就是DataFrame(他的特點是有行索引和列索引)中的列索引

目標值:很據特征值得到的結果值,就為目標值,就是想要做的事情的目的的分類

樣本:每一行數據可以作為一個樣本

2?sklearn.datasets

機器學習一般的數據集會劃分為兩個部分:

訓練數據:用于訓練,構建模型

測試數據:在模型檢驗時使用,用于評估模型是否有效

一般在進行模型的測試時,我們會將數據分為訓練集和測試集。在給定的樣本空間中,拿出大部分樣本作為訓練集來訓練模型,剩余的小部分樣本使用剛建立的模型進行預測。

sklearn數據集劃分API:sklearn.model_selection.train_test_split

sklearn.datasets 加載獲取流行數據集

datasets.load_*() 獲取小規模數據集,數據包含在datasets里

datasets.fetch_*(data_home=None) 獲取大規模數據集,需要從網絡上下載,函數的第一個參數是data_home,表示數據集 ?? ?下載的目錄

datasets.make_*()本地生成數據集

datasets.get_data_home()獲取數據集目錄,這個文件夾被一些大的數據集裝載器使用,以避免下載數據。默認情況下,數據目錄設置為用戶主文件夾中名為“scikit_learn_data”的文件夾。或者,可以通過“SCIKIT_LEARN_DATA”環境變量或通過給出顯式的文件夾路徑以編程方式設置它。

clear_data_home(data_home=None)刪除所有下載數據

load*和fetch*返回的數據類型datasets.base.Bunch(字典格式)如下:

data特征數據數組,是 [n_samples * n_features] 的二維numpy.ndarray 數組
target標簽數組,是 n_samples 的一維 numpy.ndarray 數組
DESCR數據描述
feature_names特征名,新聞數據,手寫數字、回歸數據集沒有
target_names標簽名,回歸數據集沒有

?

2.1 獲取小數據集

(1)分類數據集

①sklearn.datasets.load_iris():加載并返回鳶尾花數據集

名稱數量
類別3
特征4
樣本數量150
每個類別數量50

參數:return_X_y: 如果為True,則返回而不是Bunch對象,默認為False

返回值Bunch對象,如果return_X_y為True,那么返回tuple,(data,target)

from sklearn.datasets import load_iris ld = load_iris() print(ld)

②sklearn.datasets.load_digits():加載并返回數字數據集

名稱數量
類別10
特征64
樣本數量1797

(2)回歸數據集

①sklearn.datasets.load_boston():加載并返回波士頓房價數據集

名稱數量
目標類別5-50
特征13
樣本數量506

②sklearn.datasets.load_diabetes() : 加載和返回糖尿病數據集

名稱數量
目標范圍25-346
特征10
樣本數量442

2.2 獲取大數據集

sklearn.datasets.fetch_20newsgroups():加載20個新聞組數據集中的文件名和數據

data_home

默認值:無,指定數據集的下載和緩存文件夾。如果沒有,所有scikit學習數據都存儲在'?/ scikit_learn_data'子文件夾中
subset'train'或者'test','all',可選,選擇要加載的數據集:訓練集的“訓練”,測試集的“測試”,兩者的“全部”,具有洗牌順序
categories無或字符串或Unicode的集合,如果沒有(默認),加載所有類別。如果不是無,要加載的類別名稱列表(忽略其他類別)
shuffle是否對數據進行洗牌
random_statenumpy隨機數生成器或種子整數
remove元組
download_if_missing默認為True,如果False,如果數據不在本地可用而不是嘗試從源站點下載數據,則引發IOError

sklearn.datasets.fetch_20newsgroups_vectorized():加載20個新聞組數據集并將其轉換為tf-idf向量

2.3 生成本地數據

sklearn.datasets.make_classification():生成本地分類數據

n_samples:int

(default = 100),樣本數量
n_features(默認= 20),特征總數
n_classes類(或標簽)的分類問題的數量
random_stateRandomState實例或無,可選(默認=無)

sklearn.datasets.make_regression():生成本地回歸數據

3 估計器

在sklearn中,估計器(estimator)是一個重要的角色,分類器和回歸器都屬于estimator,是一類實現了算法的API,是sklearn機器學習算法的實現。

在估計器中有有兩個重要的方法是fit和transform:①fit方法用于從訓練集中學習模型參數,②transform用學習到的參數轉換數據。

用于分類的估計器:

sklearn.neighbors?? ?k-近鄰算法

sklearn.naive_bayes ? ? ?貝葉

sklearn.linear_model.LogisticRegression ? ? 邏輯回歸

用于回歸的估計器:

sklearn.linear_model.LinearRegression ? ? 線性回歸

sklearn.linear_model.Ridge ? ? ?嶺回歸

總結

以上是生活随笔為你收集整理的sklearn数据集与估计器的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。