日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

标准机器学习数据集

發布時間:2023/12/14 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 标准机器学习数据集 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

學好機器學習的關鍵是用許多不同的數據集來練習。因為對不同的問題,需要有不同的數據準備和建模方法。本文介紹了10個更受歡迎的標準機器學習數據集,可以用作練習的資源。

每個數據集均按照一定的格式介紹,以使讀者相對容易比較,為他們的特定練習任務選擇數據集或建模方法。

格式:
名稱:如何引用數據集 問題類型:是回歸問題還是分類問題 輸入和輸出:輸入和輸出特征的數量和名稱 性能:使用零規則算法(Zero Rule Algorithm)的基準性能比較,以及已知的較佳性能 示例:原始數據前5行的快照 鏈接:下載數據集及了解更多的鏈接
標準數據集 下面是本文將介紹的 10 個數據集的列表。每個數據集都不大,能夠適應內存或使用電子表格查看。所有數據集都由表格數據組成,并且沒有(顯式的)缺失值。
瑞典汽車保險數據集 葡萄酒質量數據集 比馬印第安人糖尿病數據集 聲納數據集 鈔票數據集 鳶尾花卉數據集 鮑魚數據集 電離層數據集 小麥種子數據集 波士頓房價數據集

1.

瑞典汽車保險數據集 瑞典汽車保險數據集( Swedish Auto Insurance Dataset)包含了對所有索賠要求的總賠付預測,以千瑞典克朗計,給定的條件是索賠要求總數。
這是一個回歸問題。它由 63 個觀察值組成,包括1個輸入變量和1個輸出變量。變量名分別是:
索賠要求數量 對所有索賠的總賠付,以千瑞典克朗計
預測平均值的基準性能的均方根誤差(RMSE)約為 72.251 千克朗。
前5行的示例如下:

下面是整個數據集的散點圖:


下載地址:http://t.cn/RfHWAbI

2.

葡萄酒質量數據集
葡萄酒質量數據集(Wine Quality Dataset )涉及根據每種葡萄酒的化學度量值來預測白葡萄酒的質量。
它是一個多類分類問題,但也可以定義為回歸問題。每個類的觀察值數量不均等。一共有 4898個觀察值,11個輸入變量和一個輸出變量。變量名如下:
非揮發性酸度 揮發性酸度 檸檬酸 殘留糖 氯化物 游離二氧化硫 總二氧化硫 濃度 pH值 硫酸鹽 酒精度 質量(得分在 0 和 10 之間)
預測平均值的基準性能的均方根誤差(RMSE)為 0.148 的質量分數。
數據集前5行的示例如下:

3. 比馬印第安人糖尿病數據集 比馬印第安人糖尿病數據集(Pima Indians Diabetes Dataset)涉及根據醫療記錄預測比馬印第安人5年內糖尿病的發病情況。
它是一個二元分類問題。每個類的觀察值數量不均等。一共有 768 個觀察值,8個輸入變量和1個輸出變量。缺失值通常用零值編碼。變量名如下:
4. 懷孕次數 口服葡萄糖耐受試驗中,2小時的血漿葡萄糖濃度。 舒張壓(mm Hg) 三頭肌皮膚褶層厚度(mm) 2小時血清胰島素含量(μU/ ml) 體重指數(體重,kg /(身高,m)^ 2) 糖尿病家族史 年齡(歲) 類變量(0 或 1)
預測最普遍類的基準性能是約 65% 的分類準確率,較佳結果達到約 77% 的分類準確率。 數據集前5行的示例如下:

下載地址:http://t.cn/RfaFfq8


5.

聲納數據集 聲納數據集(Sonar Dataset )涉及預測根據給定聲納從不同角度返回的強度預測目標物體是巖石還是礦井。
它是一個二元分類問題。每個類的觀察值數量不均等。一共有208個觀察值,60個輸入變量和1個輸出變量。變量名如下:
從不同角度返回的聲納 ... ... 類(M為礦井,R為巖石)
預測最普遍類的基準性能是約 53% 的分類準確率,較佳結果達到約 88% 的分類準確率。
該數據集前5行的示例如下:

下載地址:http://t.cn/Rf8GrP7


6.

鈔票數據集 鈔票數據集(Banknote Dataset)涉及根據給定鈔票的數個度量的照片預測是真鈔還是假鈔。
它是一個二元分類問題。每個類的觀測值數量不均等。一共有 1372 個觀察值,4個輸入變量和1個輸出變量。變量名如下:
小波變換圖像(連續) 小波偏斜變換圖像(連續) 小波峰度變換圖像(連續) 圖像熵(連續)。 類(0 為真鈔,1 為假鈔)
預測最普遍類的基準性能是約 50% 的分類準確率。
該數據集前5行的示例如下:

下載地址:http://t.cn/Rf8GdQo


7.

鳶尾花卉數據集 鳶尾花卉數據集(Iris Flowers Dataset )涉及根據鳶尾花的測量數據預測花卉品種。
它是一個多類分類問題。每個類的觀察值數量是均等的。一共有 150 個觀察值,4個輸入變量和1個輸出變量。變量名如下:
萼片長度(cm) 萼片寬度(cm) 花瓣長度(cm) 花瓣寬度(cm) 類(Iris Setosa,Iris Versicolour,Iris Virginica)
預測最普遍類的基準性能是約 26% 的分類準確率。
該數據集前5行的示例如下:

下載地址:http://t.cn/Rf8GeUq


8.

鮑魚數據集 鮑魚數據集(Abalone Dataset)涉及根據鮑魚個體的測量數據來預測鮑魚的年齡(環的數量)。
它是一個多類分類(multi-class classification)問題,但也可以作為回歸問題。每個類的觀察值數量不均等。該數據集有 4177 個觀察值,8個輸入變量和1個輸出變量。 變量名如下:
性別(M,F,I) 長度 直徑 高度 總重量 剝殼重量 內臟重量 殼重 環的數量
預測最普遍類的基準性能是約 16% 的分類準確率,預測平均值的基準性能的均方根誤差(RMSE)是約 3.2 個環。
該數據集前5行的示例如下:

下載地址:http://t.cn/Rf8GDdu


9.

電離層數據集 電離層數據集(Ionosphere Dataset)需要根據給定的電離層中的自由電子的雷達回波預測大氣結構。
它是一個二元分類問題。每個類的觀察值數量不均等,一共有 351 個觀察值,34 個輸入變量和1個輸出變量。變量名如下:
1 17對雷達回波數據。 2 ... ... 3 類(g 表示好,b 表示壞)。
預測最普遍類的基準性能是約 64% 的分類準確率,較佳結果達到約 94% 的分類準確率。
該數據集前5行的示例如下:

下載地址:http://t.cn/Rf8GFY4


10.

小麥種子數據集 小麥種子數據集(Wheat Seeds Dataset)涉及對不同品種的小麥種子進行預測,給定的是種子的計量數據。
它是一個二元分類問題。每個類的觀察值是均等的,一共 210 個觀察值,7個輸入變量和1個輸出變量。變量名如下:
區域 周長 壓實度 籽粒長度 籽粒寬度 不對稱系數 籽粒腹溝長度 類(1,2,3)
預測最普遍類的基準性能是約 28% 的分類準確率。
數據集前5行的示例如下:

下載地址:http://t.cn/RfHHbzw


11.

波士頓房價數據集 波士頓房價數據集(Boston House Price Dataset)包含對房價的預測,以千美元計,給定的條件是房屋及其相鄰房屋的詳細信息。
該數據集是一個回歸問題。每個類的觀察值數量是均等的,共有 506 個觀察,13 個輸入變量和1個輸出變量。變量名如下:
CRIM:城鎮人均犯罪率。 ZN:住宅用地超過 25000 sq.ft. 的比例。 INDUS:城鎮非零售商用土地的比例。 CHAS:查理斯河空變量(如果邊界是河流,則為1;否則為0)。 NOX:一氧化氮濃度。 RM:住宅平均房間數。 AGE:1940 年之前建成的自用房屋比例。 DIS:到波士頓五個中心區域的加權距離。 RAD:輻射性公路的接近指數。 TAX:每 10000 美元的全值財產稅率。 PTRATIO:城鎮師生比例。 B:1000(Bk-0.63)^ 2,其中 Bk 指代城鎮中黑人的比例。 LSTAT:人口中地位低下者的比例。 MEDV:自住房的平均房價,以千美元計。
預測平均值的基準性能的均方根誤差(RMSE)是約 9.21 千美元。
數據集前5行的示例如下:

下載地址:http://t.cn/RfHTAgY


12.

時間序列數據集 機器學習可以在時間序列數據集上應用。這些屬于需要預測數值或分類的問題,但數據是按時間排序的。下面介紹7個標準時間序列數據集,可用于使用機器學習進行時間序列預測的實踐。
12.1單變量時間序列數據集 只有一個變量的時間序列數據集稱為單變量數據集(univariate datasets),其優點是:
簡單且容易理解; 支持Excel或其他繪圖工具; 易于預測結果和期望結果的比較; 易于嘗試你并評估新的方法。
以下是4個單變量時間序列數據集,均可從datamarket上下載。
12.1.1 洗發水銷售數據集(Shampoo Sales Dataset)

該數據集描述了3年期間的洗發水月銷售量,單位是銷售量,有36個觀察值。下面是該數據集前5行的示例,包括標題行:

12.1.2
日較低溫度數據集(Minimum Daily Temperatures Dataset)


該數據集描述了澳大利亞墨爾本市10年間(1981-1990)的日較低溫度。單位是攝氏度,有3650個觀察值,數據來源為澳大利亞氣象局。
下面是該數據集前5行數據的示例:

12.1.3 每月太陽黑子數數據集(Monthly Sunspot Dataset)


該數據集描述了230年間(1749-1983)觀測到的每月太陽黑子數量。單位是太陽黑子數量,有2820個觀察值。數據集的來源為 Andrews&Herzberg(1985)。
下面是前5行數據的示例:

12.1.4

每日女嬰出生人數數據集

該數據集描述了1959年加利福尼亞州每日出生的女嬰人數。單位是人數,有365個觀察值。數據集來源自 Newton(1988)。
下面是前5行的示例:

12.2 多變量時間序列數據集 多變量數據集(Multivariate datasets)通常更具挑戰性,多變量時間序列數據的主要來源是 UCI 機器學習庫(http://archive.ics.uci.edu/ml/),下文推薦的3個數據集均可下載。 12.2.1 EEG 人眼狀態數據集 該數據集描述個體的 EEG 數據,以及他們的眼睛是睜著還是閉著。這個問題是為了根據跟定的 EEG 數據預測眼睛的狀態。
這是一個分類預測模型問題,共有14980個觀察值和15個輸入變量。 分類值“1”表示眼睛閉著,“0”表示眼睛睜開著。 數據按時間排序,記錄觀察結果的時間是117秒。
下面是數據集前5行的示例:

12.2.2 使用檢測數據集(Occupancy Detection Dataset) 這個數據集描述有關房間特征的數據,目的是預測房間是否在使用中。數據集包含幾個星期期間,共10560個一分鐘的觀察,屬于分類預測問題。數據集包括7個特征值,例如房間的光線、氣溫、濕度等。
下面是前5行數據的示例,包括標題行:

12.2.3 臭氧水平檢測數據集
這個數據集描述了6年期間的地面臭氧濃度數據,目的是預測是否“臭氧日”。數據集包含2,536個觀察值,73個特征。 這是分類預測問題,類別值為“1”表示這天是臭氧日,為“0”表示正常日。
下面是前5行的示例:

總結 本文介紹了 10 個更受歡迎的標準數據集,你可以用它們來進行機器學習的應用練習。 可以采取以下步驟:
選擇一個數據集。 選擇你最喜歡的工具(例如 Weka,scikit-learn 或 R) 看看你的結果比基準分數高多少。

總結

以上是生活随笔為你收集整理的标准机器学习数据集的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。