【Python】基于Python的百度迁徙(2020年10月21日更)
目錄
- 簡(jiǎn)介
- 基于前幾篇博文的代碼改變
簡(jiǎn)介
百度遷徙
之前瞎投的中國人口地理學(xué)會(huì)的匯報(bào)居然中了,本菜雞居然居然居然被邀請(qǐng)上去匯報(bào)。。。
這幾天因?yàn)橐獪?zhǔn)備匯報(bào)的PPT,所以又登上去看看百度遷徙大數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)更新了!
從9月22日開始到昨天(10月20日)的數(shù)據(jù)都有。然后我就拿上半年寫的代碼試著爬取了一下,發(fā)現(xiàn)舊的代碼不太適用了,于是乎我研究了一下就寫了這篇博客。
舊代碼及爬取效果可以看我前幾篇文章,鏈接在下面。
基于python的百度遷徙1——遷入、遷出數(shù)據(jù)(附代碼)
基于python的百度遷徙2——遷徙規(guī)模指數(shù)(附代碼)
基于python的百度遷徙3——城內(nèi)出行強(qiáng)度(附代碼)
基于前幾篇博文的代碼改變
我研究了一下,主要是requests返回的文本數(shù)據(jù)和以前不一樣了。
新返回的文本好像在一開始的地方多了一個(gè)字母(之前什么樣具體我也忘記了),如下圖。
所以,在進(jìn)行json化處理之前,需要重新提取一下文本。也就是說把之前的r=response.text[3:-1]全部更改為r=response.text[4:-1]。意思就是說之前提取的是從第3個(gè)字符到倒數(shù)第2個(gè)字符之間的內(nèi)容,現(xiàn)在要提取第4個(gè)字符到倒數(shù)第2個(gè)字符之間的內(nèi)容。
更更更簡(jiǎn)單的說,就是按ctrl+H把代碼里r=response.text[3:-1]全部替換為r=response.text[4:-1]。
-----------------------分割線(以下是乞討內(nèi)容)-----------------------
總結(jié)
以上是生活随笔為你收集整理的【Python】基于Python的百度迁徙(2020年10月21日更)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文件下载时,文件名乱码问题
- 下一篇: python学习第11天(2)