下载kaggle数据集的小妙招
kaggle是很多數(shù)據(jù)分析和機器學(xué)習(xí)初學(xué)者非常喜愛的數(shù)據(jù)科學(xué)競賽平臺。
這個平臺上有很多接近現(xiàn)實業(yè)務(wù)場景的數(shù)據(jù)集,非常適合練手。
今天向大家推薦一個下載kaggle數(shù)據(jù)集的小工具——kaggleAPI?
配置好之后,可以寫個腳本,以后下載數(shù)據(jù)就方便多了。
安裝
pip?install?kaggle安裝完畢之后執(zhí)行
kaggle?compeitions?list然后就會報錯,提示沒有kaggle.json文件,不用理他。
這一步主要是讓其運行后生成配置文件夾,一般在C盤-用戶-用戶名下的.kaggle
配置
登錄kaggle官網(wǎng)右上角頭像處點擊,選擇Account進去之后滾動到最下面API處,選擇Create New API Token
然后就會自動下載一個kaggle.json文件,另存到第一步那個.kaggle文件夾
下載數(shù)據(jù)集
再執(zhí)行以下
kaggle?compeitions?list可以看到近期的一些競賽,重點關(guān)注以下獎金????
除了list,kaggle competitions 還有一些其他用法,不展開講了。
kaggle?competitions?{list,?files,?download,?submit,?submissions,?leaderboard}大家最關(guān)心的數(shù)據(jù)集下載
kaggle?datasets{list,files,download,create,version,init,metadata,status}比較常用的是:list(可用數(shù)據(jù)集列表)、files(數(shù)據(jù)文件)、download(下載)
kaggle?datasets?list用法
usage:?kaggle?datasets?list?[-h]?[--sort-by?SORT_BY] [--size?SIZE]?[--file-type?FILE_TYPE]?[--license?LICENSE_NAME]? [--tags?TaG_IDS]?[-s?SEARCH]?[-m]?[--user?USER]?[-p?PAGE]?[-v]這個里面還有2個常用的參數(shù):-s 搜索,后面可以加關(guān)鍵詞;-p 展示多少行,默認是20
kaggle?datasets?download用法
usage:?kaggle?datasets?download? [-h]?[-f?FILE_NAME]?[-p?PATH]?[-w]?[--unzip] [-o]?[-q][dataset]更真實的用法
如果單純在cmd執(zhí)行個下載指令就大材小用了,我們還可以用kaggleAPI寫shell腳本完成更復(fù)雜的用法,比如:
#!/bin/sh DATASET="noxmoon/chinese-official-daily-news-since-2016" ARCHIVE_FILE="chinese-official-daily-news-since-2016.zip" DATA_FILE="chinese_news.csv" DATA_DIR="data" COL_NAME="headline" LINES=3000 OUTPUT_FILE="headlines.txt"if?[?-d?${DATA_DIR}?];?thenecho?${DATA_DIR}'?exists,?please?remove?it?before?running?the?script'exit?1 fiecho?"Creating?dir" mkdir?-p?${DATA_DIR} cd?${DATA_DIR} kaggle?datasets?download?-d?${DATASET} unzip?${ARCHIVE_FILE}echo?"Deleting?original?dataset?archive" rm?-f?${ARCHIVE_FILE}echo?"Extracting,?cutting,?shuffling?data" awk??-v?col=$COL_NAME?-F?"\"*,\"*"?'{print?$COL_NAME}'?$DATA_FILE?|?shuf?-n?3000?>?${OUTPUT_FILE}下載-解壓一氣呵成!
如有收獲,歡迎給個在看!轉(zhuǎn)發(fā)!
推薦閱讀 誤執(zhí)行了rm -fr /*之后,除了跑路還能怎么辦?!程序員必備58個網(wǎng)站匯總大幅提高生產(chǎn)力:你需要了解的十大Jupyter Lab插件總結(jié)
以上是生活随笔為你收集整理的下载kaggle数据集的小妙招的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据分析最重要的 3 种特征编码,你真
- 下一篇: 数据分析师被老板问住了——场面一度非常尴