Data Collection
眾所周知,計算機領(lǐng)域論文是要以實驗為基礎(chǔ)的,而實驗的原料就是數(shù)據(jù)。不管是在圖像,文字或者語音領(lǐng)域,開源的數(shù)據(jù)都十分寶貴和重要。這里主要收集各領(lǐng)域的一些常用的公開數(shù)據(jù)集。
?
計算機視覺:
?【ImageNet】
?
【Caltech Pedestrian Dataset】
簡介:行人檢測數(shù)據(jù)集
網(wǎng)址:https://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/
細(xì)節(jié):
(1)攝像頭位于車上
(2)圖片模糊
(3)行人少而小,大多數(shù)圖片不包含行人
(4)原始數(shù)據(jù)為視頻,可以采樣為圖片
(5)官網(wǎng)給出了各種方法的性能,給出了evaluation的代碼。
?
自然語言處理:
【維基百科簡體中文語料】
簡介:較大規(guī)模的中文語料
網(wǎng)址:http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
細(xì)節(jié):
(1)這個壓縮包包含標(biāo)題和正文
(2)用http://medialab.di.unipi.it/wiki/Wikipedia_Extractor抽取數(shù)據(jù)
(3)抽取命令?bzcat zhwiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -b1000M -o extracted >output.txt
(4)內(nèi)容為簡繁體混雜,需要https://github.com/BYVoid/OpenCC,https://code.google.com/archive/p/opencc/wikis/Install.wiki解決,運行命令opencc -i wiki_00 -o wiki_chs -c zht2zhs.ini
(5)參考使用網(wǎng)站:http://licstar.net/archives/262
?
語音處理:
?
數(shù)字醫(yī)學(xué)數(shù)據(jù):
?
總結(jié)
以上是生活随笔為你收集整理的Data Collection的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pythonchallenge_leve
- 下一篇: Kubernetes基础组件概述