當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python 赚钱知乎_爬虫实战：抓取知乎问题 “大学生如何赚到一万元”

發(fā)布時(shí)間：2025/3/12 python 22 豆豆

生活随笔收集整理的這篇文章主要介紹了 python 赚钱知乎_爬虫实战：抓取知乎问题 “大学生如何赚到一万元” 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

最近對(duì)賺錢的話題很感興趣，在知乎上關(guān)注了很多“賺錢”相關(guān)的問題，高質(zhì)量的有不少，但是夾雜著私貨的也不少。不過知乎的數(shù)據(jù)比較全，我們完全可以用來做文本分析。

爬蟲的原理我就不細(xì)講了，如果大家對(duì)爬蟲的原理和相關(guān)庫不甚了解，又想快速入門，不妨看看我們這門課。

待爬網(wǎng)址

問題：如何在大學(xué)賺到一萬元？

大學(xué)里面學(xué)費(fèi)加一年開銷最少就是10000元，所以如何賺到10000 鏈接 https://www.zhihu.com/question/34011097

分析請(qǐng)求

因?yàn)槲覀冎乐醯捻憫?yīng)數(shù)據(jù)都是 json 型網(wǎng)站，所以我們想找到j(luò)son對(duì)應(yīng)的鏈接規(guī)律。F12鍵打開開發(fā)者工具，選中XHR,不停地往下滑動(dòng)頁面，開發(fā)者工具Network會(huì)不停的閃過很多鏈接。

經(jīng)過排查我們發(fā)現(xiàn)這個(gè)鏈接很特殊，點(diǎn)擊進(jìn)去詳情如下

對(duì)應(yīng)的數(shù)據(jù)是json格式

里面果然是用戶的回答數(shù)據(jù)

現(xiàn)在我們將找到的網(wǎng)址復(fù)制下來分析分析

我們發(fā)現(xiàn)網(wǎng)址中有 34011097 和 offset 兩個(gè)參數(shù)是可以調(diào)整的，分別代表話題id 和回答的id 。我們將上面的網(wǎng)址整理一下，設(shè)計(jì)成網(wǎng)址模板base_url

偽裝請(qǐng)求

我們還要注意的一點(diǎn)是寫爬蟲一般是需要偽裝請(qǐng)求頭headers，而在知乎這種網(wǎng)站，我們可能還需要cookies。我新建了一個(gè) settings.py 文件，用來存放cookies、headers、網(wǎng)址模板base url和question id

數(shù)據(jù)存儲(chǔ)

接下來我們新建 zhihu.py 用于設(shè)計(jì)爬蟲邏輯，因?yàn)橹醯臄?shù)據(jù)都是json格式，相對(duì)于 html 而言json的數(shù)據(jù)更有層次性更加的干凈。為了保證后續(xù)數(shù)據(jù)分析的可擴(kuò)展性，我們盡量保存原始。所以這里用到了jsonlines庫用于存儲(chǔ)json數(shù)據(jù)(以行的方式存儲(chǔ)每個(gè)json)，如果不熟悉可以把 jsonlines庫：高效率的保存多個(gè)python 對(duì)象這篇文章收藏起來。

知乎爬蟲代碼

在 zhihu.py 文件中

程序運(yùn)行

讀取抓取json數(shù)據(jù)

這里使用jsonlines庫，該庫以行的方式讀取，得到的是可迭代對(duì)象。如果不熟悉可以把 jsonlines庫：高效率的保存多個(gè)python對(duì)象這篇文章收藏起來。將其轉(zhuǎn)化為dataframe類型，這樣我們就可以用pandas庫進(jìn)行讀取

兩小時(shí)視頻課程

精選文章

后臺(tái)回復(fù) 20190228 ，得本教程項(xiàng)目代碼。

原創(chuàng)不易，如果覺得內(nèi)容不錯(cuò)，記得AD、轉(zhuǎn)發(fā)、好看

總結(jié)

以上是生活随笔為你收集整理的python 赚钱知乎_爬虫实战：抓取知乎问题 “大学生如何赚到一万元”的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：排队问题解题思路_高考文科数学是最“拉分
下一篇： python多线程gil_Python

python

python 赚钱 知乎_爬虫实战：抓取知乎问题 “大学生如何赚到一万元”

總結(jié)

python 赚钱知乎_爬虫实战：抓取知乎问题 “大学生如何赚到一万元”