日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

下载kaggle数据集的小妙招

發(fā)布時間:2024/9/15 编程问答 62 豆豆
生活随笔 收集整理的這篇文章主要介紹了 下载kaggle数据集的小妙招 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

kaggle是很多數(shù)據(jù)分析和機器學(xué)習(xí)初學(xué)者非常喜愛的數(shù)據(jù)科學(xué)競賽平臺。

這個平臺上有很多接近現(xiàn)實業(yè)務(wù)場景的數(shù)據(jù)集,非常適合練手。

今天向大家推薦一個下載kaggle數(shù)據(jù)集的小工具——kaggleAPI?

配置好之后,可以寫個腳本,以后下載數(shù)據(jù)就方便多了。

安裝

pip?install?kaggle

安裝完畢之后執(zhí)行

kaggle?compeitions?list

然后就會報錯,提示沒有kaggle.json文件,不用理他。
這一步主要是讓其運行后生成配置文件夾,一般在C盤-用戶-用戶名下的.kaggle

配置

登錄kaggle官網(wǎng)右上角頭像處點擊,選擇Account進去之后滾動到最下面API處,選擇Create New API Token

然后就會自動下載一個kaggle.json文件,另存到第一步那個.kaggle文件夾

下載數(shù)據(jù)集

再執(zhí)行以下

kaggle?compeitions?list

可以看到近期的一些競賽,重點關(guān)注以下獎金????

除了list,kaggle competitions 還有一些其他用法,不展開講了。

kaggle?competitions?{list,?files,?download,?submit,?submissions,?leaderboard}

大家最關(guān)心的數(shù)據(jù)集下載

kaggle?datasets{list,files,download,create,version,init,metadata,status}

比較常用的是:list(可用數(shù)據(jù)集列表)、files(數(shù)據(jù)文件)、download(下載)

kaggle?datasets?list

用法

usage:?kaggle?datasets?list?[-h]?[--sort-by?SORT_BY] [--size?SIZE]?[--file-type?FILE_TYPE]?[--license?LICENSE_NAME]? [--tags?TaG_IDS]?[-s?SEARCH]?[-m]?[--user?USER]?[-p?PAGE]?[-v]

這個里面還有2個常用的參數(shù):-s 搜索,后面可以加關(guān)鍵詞;-p 展示多少行,默認是20

kaggle?datasets?download

用法

usage:?kaggle?datasets?download? [-h]?[-f?FILE_NAME]?[-p?PATH]?[-w]?[--unzip] [-o]?[-q][dataset]

更真實的用法

如果單純在cmd執(zhí)行個下載指令就大材小用了,我們還可以用kaggleAPI寫shell腳本完成更復(fù)雜的用法,比如:

#!/bin/sh DATASET="noxmoon/chinese-official-daily-news-since-2016" ARCHIVE_FILE="chinese-official-daily-news-since-2016.zip" DATA_FILE="chinese_news.csv" DATA_DIR="data" COL_NAME="headline" LINES=3000 OUTPUT_FILE="headlines.txt"if?[?-d?${DATA_DIR}?];?thenecho?${DATA_DIR}'?exists,?please?remove?it?before?running?the?script'exit?1 fiecho?"Creating?dir" mkdir?-p?${DATA_DIR} cd?${DATA_DIR} kaggle?datasets?download?-d?${DATASET} unzip?${ARCHIVE_FILE}echo?"Deleting?original?dataset?archive" rm?-f?${ARCHIVE_FILE}echo?"Extracting,?cutting,?shuffling?data" awk??-v?col=$COL_NAME?-F?"\"*,\"*"?'{print?$COL_NAME}'?$DATA_FILE?|?shuf?-n?3000?>?${OUTPUT_FILE}

下載-解壓一氣呵成!

如有收獲,歡迎給個在看!轉(zhuǎn)發(fā)!

推薦閱讀 誤執(zhí)行了rm -fr /*之后,除了跑路還能怎么辦?!程序員必備58個網(wǎng)站匯總大幅提高生產(chǎn)力:你需要了解的十大Jupyter Lab插件

總結(jié)

以上是生活随笔為你收集整理的下载kaggle数据集的小妙招的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。