python爬取股票大单历史记录_利用bs4爬取股票的历史交易数据
聽起來,爬取股票的所有歷史交易數(shù)據(jù)跟高大上,有木有?
不過寫這個(gè)爬蟲的時(shí)候,發(fā)現(xiàn)基于網(wǎng)易財(cái)經(jīng)的股票歷史數(shù)據(jù)的爬取其實(shí)挺簡(jiǎn)單,最后再寫到txt文檔里(暫時(shí)寫txt,以后會(huì)寫csv的。可以在用機(jī)器學(xué)習(xí)干一些酷酷的事情~)
爬數(shù)據(jù)之前,先要看看url怎么構(gòu)造啊,看了網(wǎng)易財(cái)經(jīng)的url的構(gòu)造,還真的是很親民。
下面假設(shè)我們要爬取中國石油(601857)的2016年第4季度的數(shù)據(jù),url就是下面這樣。
url = 'http://quotes.money.163.com/trade/lsjysj_601857.html?year=2016&season=4'
仔細(xì)一看,構(gòu)造url只需要3個(gè)參數(shù)就夠了。
股票的代碼:601857,年度:2016,季度:4 。
第一個(gè)參數(shù),可以手動(dòng)輸入,后兩個(gè)參數(shù),可以用循環(huán)出多年度的多季度數(shù)據(jù)。
這個(gè)爬蟲最重要的也就是循環(huán)爬取這些構(gòu)造出來的url,
然后我們開始寫爬取單個(gè)頁面數(shù)據(jù)的函數(shù):
爬取的過程呢,就是用BeautifulSoup來過濾源代碼。
date = soup.select('div.inner_box > table > tr > td')
就可以獲取當(dāng)前頁面,也就是一個(gè)年度中一個(gè)季度的所有股票交易數(shù)據(jù),
然后循環(huán)處理一下,在每條數(shù)據(jù)中的每個(gè)數(shù)字之后加上空格,每條數(shù)據(jù)后加上換行,拼接成字符串,返回。
最后在循環(huán)url的函數(shù)中,循環(huán)調(diào)用單頁面爬取函數(shù),就可以爬取所有的股票數(shù)據(jù)了。
f = open('./' + title + '.txt', 'wb')
最后再寫入一個(gè)以股票代碼為文件名的txt文檔里。
總結(jié)
以上是生活随笔為你收集整理的python爬取股票大单历史记录_利用bs4爬取股票的历史交易数据的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: sqli-labs安装及常见问题,(推荐
- 下一篇: python刷题总结_【python刷题