什么,3行Python代码就能获取海量数据?
本文轉載自公眾號【法納斯特】,詳情可以點擊上方卡片,關注該公眾號,獲取更多好文推薦。
一談起數據分析,首先想到的就是數據,沒有數據,談何分析。
畢竟好的菜肴,沒有好的原材料,是很難做的~
所以本期小F就給大家分享一個獲取數據的方法,只需三行代碼就能搞定。
「GoPUP」,大佬造的輪子,大概有100+的免費數據接口。
GitHub:https://github.com/justinzm/gopup
使用文檔:http://doc.gopup.cn/#/README
主要有指數數據、宏觀經濟數據、新經濟數據、微博KOL數據、信息數據、生活數據、疫情數據等。
#?安裝gopup pip?install?gopup??--upgrade安裝成功后,就能使用了。
01 微博指數
獲取指定關鍵詞的微博指數。
#?微博指數 import?gopup?as?gp df_index?=?gp.weibo_index(word="馬保國",?time_type="1month") print(df_index)time_type="1month"; 1hour, 1day, 1month, 3month 選其一。
三行Python代碼實現數據獲取。
02?百度指數
獲取指定關鍵詞的百度搜索指數。
#?百度指數 import?gopup?as?gp cookie?=?"此處輸入您在網頁端登錄百度指數后的?cookie?數據" index_df?=?gp.baidu_search_index(word="馬保國",?start_date='2020-11-15',?end_date='2020-11-25',?cookie=cookie) print(index_df)需要登陸百度指數,獲取你的Cookie。
設置關鍵詞,時間起始,就能獲取到馬保國老師的熱度數據了。
后面還有百度資訊、媒體、需求圖譜、人群年齡、性別、興趣分布數據接口,就不一一介紹了。
感興趣的同學可以自行去查看文檔。
03 頭條指數
獲取指定關鍵詞的頭條指數。
#?頭條指數 import?gopup?as?gp index_df?=?gp.toutiao_index(keyword="馬保國",?start_date='20201115',?end_date='20201125') print(index_df)接口掛了,不知為何~
還有相關性、情感、地域、城市、年齡、性別、用戶閱讀興趣分析數據等接口。
04?谷歌數據
需要通過代理才能使用,不過上面這三類已經完全夠用了。
#?谷歌數據 import?gopup?as?gp index_df?=?gp.google_index(keyword="馬保國",?start_date='2020-11-15T10',?end_date='2020-11-25T23') print(index_df)05 宏觀經濟數據
有一個杠桿率的數據可以使用。
#?杠桿數據 import?gopup?as?gp df_index?=?gp.marco_cmlrd() print(df_index)不懂經濟學,所以不明覺厲。
06 新經濟數據
這個數據倒是蠻有趣的,主要是公司數據。
比如獨角獸和倒閉公司的數據。
一共是240家獨角獸公司。
螞蟻、字節、阿里云、滴滴,都是行業中的大佬。
倒閉的公司一共有6921家。
看到不少P2P的公司。
剩下還有有一個特許經營許可數據,好像是吊牌銷售的意思。
前段時間看到一篇文章,講的就是南極人吊牌銷售的事情,南極人都不自己搞生產,而是代工。
07 KOL數據&信息數據
主要是微博的KOL,所以沒啥用。
#?KOL數據 import?gopup?as?gp g?=?gp.pro_api(token?=?"……") df_index?=?g.weibo_user(keyword="雷軍") print(df_index)信息數據是新聞聯播文字稿。
08 中國油價數據
包含汽油和柴油的調價信息數據。
時間從2000年直到2020年,細數20年油價變化。
09 百度遷徙數據
可以用來做飛線圖或者OD圖。
#?遷徙數據 import?gopup?as?gp migration_area_baidu_df?=?gp.migration_area_baidu(area="湖北省",?indicator="move_in",?date="20200201") print(migration_area_baidu_df)單次返回100個城市的數據。
10 影視數據
實時電影票房數據,最近又有病例出現,數據應該也比較慘淡。
這里需要一個WebDES.js文件,才能請求成功。
#?實時電影票房數據 import?gopup?as?gp df_index?=?gp.realtime_boxoffice() print(df_index)「如果聲音不記得」當日1千萬的票房,太少了。
單日影院數據,今年影院能倒閉一大堆。
#?單日影院數據 import?gopup?as?gp df_index?=?gp.day_cinema(date="2020-12-08") print(df_index)得到票房前100的數據。
最高應該是8萬多的收入。
實時電視劇播映指數,天氣冷了選個好劇或者綜藝,窩在被窩刷起來。
#?電視劇數據 import?gopup?as?gp df_index?=?gp.realtime_tv() print(df_index)大秦賦,小F也在看,感覺還不錯。
還有實時綜藝播映指數、藝人商業價值、流量價值等數據。
11 全國高等學校數據
普通高等學校名單,包含名稱、主管部門,所在省市、所在地、辦學層次等信息。
#?普通高等學校數據 import?gopup?as?gp df_index?=?gp.university() print(df_index)一共是2631所高校。
還有成人高等學校以及高等學校詳情數據。
12 疫情數據
有網易、丁香園、百度三家的疫情數據。
目前累計207個國家有疫情出現。
全世界總共就233個國家和地區,快接近90%了。
由于數據接口太多了,小F就不一一介紹了,可以點擊左下角的閱讀原文,查看文檔。
? 文末贈書??
本次小F聯合【機械工業出版社華章公司】給大家帶來2本計算機視覺相關的書籍。
《OpenCV 4計算機視覺項目實戰》介紹OpenCV的入門知識及安裝,然后介紹OpenCV的基礎知識,包括用戶界面、矩陣運算、濾波器和直方圖等,之后介紹復雜的計算機視覺算法,包括對象分割和分類、視頻監控、對象跟蹤等,最后探討對象跟蹤、文本識別、機器學習和人臉檢測等高級技術。點擊下圖可看詳情/購買????
贈書規則:給本文點贊后("在看"不作要求),掃描下方二維碼,添加小F的微信。把點贊截圖發給我,我會發送抽獎碼給大家,時間截止至12月11號 21:00。
感謝大家對小F的支持!
總結
以上是生活随笔為你收集整理的什么,3行Python代码就能获取海量数据?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [译]ng指令中的compile与lin
- 下一篇: 去除重复字母Python解法