日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

scrapy框架架构

發布時間:2025/3/17 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 scrapy框架架构 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

介紹

Scrapy一個開源和協作的框架,其最初是為了頁面抓取 (更確切來說, 網絡抓取 )所設計的,使用它可以以快速、簡單、可擴展的方式從網站中提取所需的數據。但目前Scrapy的用途十分廣泛,可用于如數據挖掘、監測和自動化測試等領域,也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。

Scrapy 是基于twisted框架開發而來,twisted是一個流行的事件驅動的python網絡框架。因此Scrapy使用了一種非阻塞(又名異步)的代碼來實現并發。

架構

流程解析

  • The Engine gets the initial Requests to crawl from the Spider. (引擎從爬蟲獲取初始Requests )
  • The Engine schedules the Requests in the Scheduler and asks for the next Requests to crawl. (引擎將該Requests 放入調度器中,并請求下一個Requests來爬取 )
  • The Scheduler returns the next Requests to the Engine. (調度器將下一個Requests 返回給引擎)
  • The Engine sends the Requests to the Downloader, passing through the Downloader Middlewares (see process_request()). (經過中間件,引擎將Requests發送給下載器,)
  • Once the page finishes downloading the Downloader generates a Response (with that page) and sends it to the Engine, passing through the Downloader Middlewares (see process_response()). (一旦頁面爬取完成,下載器就會生成一個Response,再經過中間件,發送給引擎 )
  • The Engine receives the Response from the Downloader and sends it to the Spider for processing, passing through the Spider Middleware (see process_spider_input()). (引擎收到下載器返回的Response 后,經過中間件,發送給爬蟲處理)
  • The Spider processes the Response and returns scraped items and new Requests (to follow) to the Engine, passing through the Spider Middleware (see process_spider_output()). (爬蟲處理Response,經過中間件,返回處理后的items 或新的Requests給引擎)
  • The Engine sends processed items to Item Pipelines, then send processed Requests to the Scheduler and asks for possible next Requests to crawl. (引擎將處理后的items發送給項目管道,將Requests 發送給調度器,并請求下一個Requests 來爬取)
  • The process repeats (from step 1) until there are no more requests from the Scheduler. (不斷重復以上流程,直到調度器中沒有requests 為止)
  • 組件說明

  • 引擎(EGINE):

    引擎負責控制系統所有組件之間的數據流,并在某些動作發生時觸發事件。

  • 調度器(SCHEDULER):

    用來接受引擎發過來的請求, 壓入隊列中, 并在引擎再次請求的時候返回. 可以想像成一個URL的優先級隊列, 由它來決定下一個要抓取的網址是什么, 同時去除重復的網址

  • 下載器(DOWLOADER)

    用于下載網頁內容, 并將網頁內容返回給EGINE,下載器是建立在twisted這個高效的異步模型上的

  • 爬蟲(SPIDERS)

    SPIDERS是開發人員自定義的類,用來解析responses,并且提取items,或者發送新的請求

  • 項目管道(ITEM PIPLINES)

    在items被提取后負責處理它們,主要包括清理、驗證、持久化(比如存到數據庫)等操作

  • 下載器中間件(Downloader Middlewares)

    位于Scrapy引擎和下載器之間,主要用來處理從EGINE傳到DOWLOADER的請求request,已經從DOWNLOADER傳到EGINE的響應response,你可用該中間件做以下幾件事:

    • 在request發往下載器之前對requests進行處理(也就是在爬取網站之前)
    • 在response 傳遞給爬蟲之前,修改response
    • 不給爬蟲發送收到的response, 而是給它發送新的request,
    • 不爬取網頁,直接給爬蟲返回response
    • 丟棄一些request
  • 爬蟲中間件(Spider Middlewares)

    位于EGINE和SPIDERS之間,主要工作是處理SPIDERS的輸入(即responses)和輸出(即requests)

  • 命令行工具

    全局命令

  • startproject 創建項目

  • genspider: scrapy genspider [-t template] <name> <domain>生成爬蟲,-l 查看模板; -t 指定模板,name爬蟲名,domain域名

  • settings 查看設置

  • runspider 運行爬蟲(運行一個獨立的python文件,不必創建項目)

  • shell :scrapy shell [url]進入交互式命令行,可以方便調試

  • –spider=SPIDER 忽略爬蟲自動檢測,強制使用指定的爬蟲

  • -c 評估代碼,打印結果并退出:

    $ scrapy shell --nolog http://www.example.com/ -c '(response.status, response.url)' (200, 'http://www.example.com/')
  • –no-redirect 拒絕重定向

  • –nolog 不打印日志

  • response.status 查看響應碼

  • response.url

  • response.text; response.body 響應文本;響應二進制

  • view(response) 打開下載到本地的頁面,方便分析頁面(比如非靜態元素)

    ?

  • fetch 查看爬蟲是如何獲取頁面的,常見選項如下:

  • –spider=SPIDER 忽略爬蟲自動檢測,強制使用指定的爬蟲
  • –headers 查看響應頭信息
  • –no-redirect 拒絕重定向
  • view 同交互式命令中的view

  • version

  • 項目命令

  • crawl : scrapy crawl <spider> 指定爬蟲開始爬取(確保配置文件中ROBOTSTXT_OBEY = False)
  • check: scrapy check [-l] <spider>檢查語法錯誤
  • list 爬蟲list
  • edit 命令行模式編輯爬蟲(沒啥用)
  • parse: scrapy parse <url> [options] 爬取并用指定的回掉函數解析(可以驗證我們的回調函數是否正確)
  • –callback 或者 -c 指定回調函數
  • bench 測試爬蟲性能
  • 項目結構和爬蟲應用簡介

    scrapy startproject tutorial tutorial/scrapy.cfg # 項目的主配置信息,用來部署scrapy時使用,爬蟲相關的配置信息在settings.py文件中tutorial/ # 項目模塊__init__.pyitems.py # 設置數據存儲模板,用于結構化數據,類似Django的Modelpipelines.py # 數據處理行為,如:一般結構化的數據持久化settings.py # project settings filespiders/ # a directory where you'll later put your spiders__init__.py

    待更新

    總結

    以上是生活随笔為你收集整理的scrapy框架架构的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 五月天在线 | 萌白酱在线观看 | 日韩欧美亚洲 | 日本www在线 | 色吧五月天 | ⅹxxxxhd亚洲日本hd老师 | 国产午夜精品理论片 | 看国产黄色片 | 亚洲AV成人无码网站天堂久久 | 性色av蜜臀av浪潮av老女人 | 久久精品无码一区 | 国产日韩欧美成人 | 青青草中文字幕 | 老熟妇精品一区二区三区 | 免费av手机在线观看 | 欲求不满在线小早川怜子 | 国产成人精品av | 播放灌醉水嫩大学生国内精品 | 亚洲国产成人精品一区二区三区 | 最好看的电影2019中文字幕 | 精品国产免费观看 | www.男人的天堂 | 国产东北露脸精品视频 | 亚洲国产三级 | 一区二区三区四区亚洲 | 69精品人人| 成人网站在线进入爽爽爽 | 亚洲免费av网 | 色婷婷色婷婷 | 午夜理伦三级做爰电影 | 欧洲亚洲一区二区三区 | 美女隐私无遮挡免费 | 久久蜜臀| 欧美激情喷水 | 99av视频| 综合色导航 | 日本美女交配 | 亚洲综合中文字幕在线 | 一级日韩一级欧美 | 在线一级片| 三级三级久久三级久久18 | 国产午夜精品一区二区三区视频 | 淫妹妹影院 | 91精品视频一区二区三区 | 少妇脚交调教玩男人的视频 | 少妇裸体淫交视频免费看高清 | 黄污视频网站 | 国产乱码在线 | 日本激情一区二区三区 | 狠狠人妻久久久久久综合 | 假日游船 | 国产一区二区精品在线 | 中文字幕一区二区三区人妻四季 | 河北彩花av在线播放 | gai视频在线观看资源 | 久久e热 | 国产午夜亚洲精品午夜鲁丝片 | 四虎在线视频免费观看 | 亚洲无套| 日本色呦呦 | 日韩激情一区二区 | 男人看的网站 | 香蕉久久网站 | 国产亚洲久久 | 国产乱性 | 日韩v欧美 | 男女在线免费观看 | 国产精品丝袜黑色高跟鞋 | 台湾无码一区二区 | 日本一二区视频 | av黄色成人 | 成人免费一级 | 一女三黑人理论片在线 | 就去色av| 日韩三级视频在线播放 | 久久精品在线观看 | 日韩国产欧美在线观看 | 肉嫁高柳家在线看 | 在线免费黄| 色老妹| 99成人在线观看 | caopeng在线 | 欧美极品少妇×xxxbbb | 日日干天天爽 | 亚洲女人网 | 一级欧美日韩 | 中文字幕精品一区 | 欧美黑人精品一区二区不卡 | 夜色一区二区 | 精品欧美一区二区三区久久久 | 四川黄色一级片 | 丁香花在线影院观看在线播放 | 中文字幕资源在线 | 久久精品国产99国产精品 | 国产一区二区三区视频在线播放 | 久久久999成人 | 欧亚av| 成年人视频网站 | 男女啪啪毛片 |