python 赚钱 知乎_爬虫实战:抓取知乎问题 “大学生如何赚到一万元”
最近對(duì)賺錢的話題很感興趣,在知乎上關(guān)注了很多“賺錢”相關(guān)的問題,高質(zhì)量的有不少,但是夾雜著私貨的也不少。不過知乎的數(shù)據(jù)比較全,我們完全可以用來做文本分析。
爬蟲的原理我就不細(xì)講了,如果大家對(duì)爬蟲的原理和相關(guān)庫不甚了解,又想快速入門,不妨看看我們這門課。
待爬網(wǎng)址
問題:如何在大學(xué)賺到一萬元?
大學(xué)里面學(xué)費(fèi)加一年開銷最少就是10000元,所以如何賺到10000 鏈接 https://www.zhihu.com/question/34011097
分析請(qǐng)求
因?yàn)槲覀冎乐醯捻憫?yīng)數(shù)據(jù)都是 json 型網(wǎng)站,所以我們想找到j(luò)son對(duì)應(yīng)的鏈接規(guī)律。F12鍵打開開發(fā)者工具,選中XHR,不停地往下滑動(dòng)頁面,開發(fā)者工具Network會(huì)不停的閃過很多鏈接。
經(jīng)過排查我們發(fā)現(xiàn)這個(gè)鏈接很特殊,點(diǎn)擊進(jìn)去詳情如下
對(duì)應(yīng)的數(shù)據(jù)是json格式
里面果然是用戶的回答數(shù)據(jù)
現(xiàn)在我們將找到的網(wǎng)址復(fù)制下來分析分析
我們發(fā)現(xiàn)網(wǎng)址中有 34011097 和 offset 兩個(gè)參數(shù)是可以調(diào)整的,分別代表 話題id 和 回答的id 。我們將上面的網(wǎng)址整理一下,設(shè)計(jì)成網(wǎng)址模板base_url
偽裝請(qǐng)求
我們還要注意的一點(diǎn)是寫爬蟲一般是需要偽裝請(qǐng)求頭headers,而在知乎這種網(wǎng)站,我們可能還需要cookies。我新建了一個(gè) settings.py 文件,用來存放cookies、headers、網(wǎng)址模板base url和question id
數(shù)據(jù)存儲(chǔ)
接下來我們新建 zhihu.py 用于設(shè)計(jì)爬蟲邏輯,因?yàn)橹醯臄?shù)據(jù)都是json格式,相對(duì)于 html 而言json的數(shù)據(jù)更有層次性更加的干凈。為了保證后續(xù)數(shù)據(jù)分析的可擴(kuò)展性,我們盡量保存原始。所以這里用到了jsonlines庫用于存儲(chǔ)json數(shù)據(jù)(以行的方式存儲(chǔ)每個(gè)json),如果不熟悉可以把 jsonlines庫:高效率的保存多個(gè)python 對(duì)象 這篇文章收藏起來。
知乎爬蟲代碼
在 zhihu.py 文件中
程序運(yùn)行
讀取抓取json數(shù)據(jù)
這里使用jsonlines庫,該庫以行的方式讀取,得到的是可迭代對(duì)象。如果不熟悉可以把 jsonlines庫:高效率的保存多個(gè)python對(duì)象 這篇文章收藏起來。將其轉(zhuǎn)化為dataframe類型,這樣我們就可以用pandas庫進(jìn)行讀取
兩小時(shí)視頻課程
精選文章
后臺(tái)回復(fù) 20190228 ,得本教程項(xiàng)目代碼。
原創(chuàng)不易,如果覺得內(nèi)容不錯(cuò),記得AD、轉(zhuǎn)發(fā)、好看
總結(jié)
以上是生活随笔為你收集整理的python 赚钱 知乎_爬虫实战:抓取知乎问题 “大学生如何赚到一万元”的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 排队问题解题思路_高考文科数学是最“拉分
- 下一篇: python多线程gil_Python