當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

python3安装scrapy及使用方法（爬虫框架）

發(fā)布時(shí)間：2025/3/15 python 16 豆豆

生活随笔收集整理的這篇文章主要介紹了 python3安装scrapy及使用方法（爬虫框架）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

安裝：

sudo pip3 install lxml

sudo apt-get install python-dev

sudo apt-get install build-essential

sudo apt-get install libxml2-dev

sudo apt-get install libxslt1-dev

sudo pip3 install scrapy

?

介紹：

Scrapy運(yùn)行流程大概如下：

引擎從調(diào)度器中取出一個(gè)鏈接(URL)用于接下來(lái)的抓取

引擎把URL封裝成一個(gè)請(qǐng)求(Request)傳給下載器

下載器把資源下載下來(lái)，并封裝成應(yīng)答包(Response)

爬蟲(chóng)解析Response

解析出實(shí)體（Item）,則交給實(shí)體管道進(jìn)行進(jìn)一步的處理

解析出的是鏈接（URL）,則把URL交給調(diào)度器等待抓取

開(kāi)發(fā)?Scrapy?爬蟲(chóng)步驟：

新建項(xiàng)目 (scrapy startproject xxx)：新建一個(gè)新的爬蟲(chóng)項(xiàng)目

明確目標(biāo) （編寫(xiě)items.py）：明確你想要抓取的目標(biāo)

制作爬蟲(chóng) （spiders/xxspider.py）：制作爬蟲(chóng)開(kāi)始爬取網(wǎng)頁(yè)

存儲(chǔ)內(nèi)容（pipelines.py）：設(shè)計(jì)管道存儲(chǔ)爬取內(nèi)容

簡(jiǎn)單實(shí)例?

1. 創(chuàng)建工程

scrapy startproject mySpider #創(chuàng)建scrapy工程 cd mySpider #進(jìn)入工程目錄 scrapy genspider itcast "www.itcast.cn" #創(chuàng)建爬蟲(chóng)（spider名不能與project名相同）

2. 編寫(xiě)代碼

item文件編寫(xiě)：items用于存儲(chǔ)字段的定義。即爬取的內(nèi)容存與item類(lèi)中。

spider文件編寫(xiě)：編寫(xiě)爬蟲(chóng)規(guī)則，頭，等請(qǐng)求后的返回信息處理

pipeline文件編寫(xiě)：pipeline文件用于將數(shù)據(jù)存儲(chǔ)到文件中。

setting文件的修改：其他配置暫且不用修改，只修改pipeline配置。

啟動(dòng)測(cè)試：

scrapy crawl itcast #運(yùn)行爬蟲(chóng)

總結(jié)

以上是生活随笔為你收集整理的python3安装scrapy及使用方法（爬虫框架）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： HexorBase 登陆、执行语句、
下一篇： websocket python爬虫_p