當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

scrapy框架架构

發布時間：2025/3/17 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 scrapy框架架构小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

介紹

Scrapy一個開源和協作的框架，其最初是為了頁面抓取 (更確切來說, 網絡抓取 )所設計的，使用它可以以快速、簡單、可擴展的方式從網站中提取所需的數據。但目前Scrapy的用途十分廣泛，可用于如數據挖掘、監測和自動化測試等領域，也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。

Scrapy 是基于twisted框架開發而來，twisted是一個流行的事件驅動的python網絡框架。因此Scrapy使用了一種非阻塞（又名異步）的代碼來實現并發。

架構

流程解析

The Engine gets the initial Requests to crawl from the Spider. （引擎從爬蟲獲取初始Requests ）

The Engine schedules the Requests in the Scheduler and asks for the next Requests to crawl. （引擎將該Requests 放入調度器中，并請求下一個Requests來爬取）

The Scheduler returns the next Requests to the Engine. （調度器將下一個Requests 返回給引擎）

The Engine sends the Requests to the Downloader, passing through the Downloader Middlewares (see process_request()). （經過中間件，引擎將Requests發送給下載器，）

Once the page finishes downloading the Downloader generates a Response (with that page) and sends it to the Engine, passing through the Downloader Middlewares (see process_response()). （一旦頁面爬取完成，下載器就會生成一個Response，再經過中間件，發送給引擎）

The Engine receives the Response from the Downloader and sends it to the Spider for processing, passing through the Spider Middleware (see process_spider_input()). （引擎收到下載器返回的Response 后，經過中間件，發送給爬蟲處理）

The Spider processes the Response and returns scraped items and new Requests (to follow) to the Engine, passing through the Spider Middleware (see process_spider_output()). （爬蟲處理Response，經過中間件，返回處理后的items 或新的Requests給引擎）

The Engine sends processed items to Item Pipelines, then send processed Requests to the Scheduler and asks for possible next Requests to crawl. （引擎將處理后的items發送給項目管道，將Requests 發送給調度器，并請求下一個Requests 來爬取）

The process repeats (from step 1) until there are no more requests from the Scheduler. （不斷重復以上流程，直到調度器中沒有requests 為止）

組件說明

引擎(EGINE)：

引擎負責控制系統所有組件之間的數據流，并在某些動作發生時觸發事件。

調度器(SCHEDULER)：

用來接受引擎發過來的請求, 壓入隊列中, 并在引擎再次請求的時候返回. 可以想像成一個URL的優先級隊列, 由它來決定下一個要抓取的網址是什么, 同時去除重復的網址

下載器(DOWLOADER)

用于下載網頁內容, 并將網頁內容返回給EGINE，下載器是建立在twisted這個高效的異步模型上的

爬蟲(SPIDERS)

SPIDERS是開發人員自定義的類，用來解析responses，并且提取items，或者發送新的請求

項目管道(ITEM PIPLINES)

在items被提取后負責處理它們，主要包括清理、驗證、持久化（比如存到數據庫）等操作

下載器中間件(Downloader Middlewares)

位于Scrapy引擎和下載器之間，主要用來處理從EGINE傳到DOWLOADER的請求request，已經從DOWNLOADER傳到EGINE的響應response，你可用該中間件做以下幾件事：

在request發往下載器之前對requests進行處理（也就是在爬取網站之前）
在response 傳遞給爬蟲之前，修改response
不給爬蟲發送收到的response，而是給它發送新的request，
不爬取網頁，直接給爬蟲返回response
丟棄一些request

爬蟲中間件(Spider Middlewares)

位于EGINE和SPIDERS之間，主要工作是處理SPIDERS的輸入（即responses）和輸出（即requests）

命令行工具

全局命令

startproject 創建項目

genspider: scrapy genspider [-t template] <name> <domain>生成爬蟲，-l 查看模板； -t 指定模板，name爬蟲名，domain域名

settings 查看設置

runspider 運行爬蟲（運行一個獨立的python文件，不必創建項目）

shell ：scrapy shell [url]進入交互式命令行，可以方便調試

–spider=SPIDER 忽略爬蟲自動檢測，強制使用指定的爬蟲

-c 評估代碼，打印結果并退出：

$ scrapy shell --nolog http://www.example.com/ -c '(response.status, response.url)' (200, 'http://www.example.com/')

–no-redirect 拒絕重定向

–nolog 不打印日志

response.status 查看響應碼

response.url

response.text; response.body 響應文本；響應二進制

view(response) 打開下載到本地的頁面,方便分析頁面（比如非靜態元素）

fetch 查看爬蟲是如何獲取頁面的，常見選項如下：

–spider=SPIDER 忽略爬蟲自動檢測，強制使用指定的爬蟲

–headers 查看響應頭信息

–no-redirect 拒絕重定向

view 同交互式命令中的view

version

項目命令

crawl : scrapy crawl <spider> 指定爬蟲開始爬取（確保配置文件中ROBOTSTXT_OBEY = False）

check: scrapy check [-l] <spider>檢查語法錯誤

list 爬蟲list

edit 命令行模式編輯爬蟲（沒啥用）

parse: scrapy parse <url> [options] 爬取并用指定的回掉函數解析（可以驗證我們的回調函數是否正確）

–callback 或者 -c 指定回調函數

bench 測試爬蟲性能

項目結構和爬蟲應用簡介

scrapy startproject tutorial tutorial/scrapy.cfg # 項目的主配置信息，用來部署scrapy時使用，爬蟲相關的配置信息在settings.py文件中tutorial/ # 項目模塊__init__.pyitems.py # 設置數據存儲模板，用于結構化數據，類似Django的Modelpipelines.py # 數據處理行為，如：一般結構化的數據持久化settings.py # project settings filespiders/ # a directory where you'll later put your spiders__init__.py

待更新

總結

以上是生活随笔為你收集整理的scrapy框架架构的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： NumPy基本使用
下一篇： BuildIt： Visual Stud