日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

框架下载_25. Scrapy 框架-下载中间件Middleware

發布時間:2023/12/3 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 框架下载_25. Scrapy 框架-下载中间件Middleware 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. Spider 下載中間件(Middleware)

Spider 中間件(Middleware) 下載器中間件是介入到 Scrapy 的 spider 處理機制的鉤子框架,您可以添加代碼來處理發送給 Spiders 的 response 及 spider 產生的 item 和 request

2. 激活一個下載DOWNLOADER_MIDDLEWARES

要激活一個下載器中間件組件,將其添加到 DOWNLOADER_MIDDLEWARES設置中,該設置是一個字典,其鍵是中間件類路徑,它們的值是中間件命令

該DOWNLOADER_MIDDLEWARES設置與DOWNLOADER_MIDDLEWARES_BASEScrapy中定義的設置(并不意味著被覆蓋)合并, 然后按順序排序,以獲得最終的已啟用中間件的排序列表:第一個中間件是靠近引擎的第一個中間件,最后一個是靠近引擎的中間件到下載器。換句話說,process_request() 每個中間件的方法將以增加中間件的順序(100,200,300,...)process_response()被調用,并且每個中間件的方法將以降序調用

要決定分配給中間件的順序,請參閱 DOWNLOADER_MIDDLEWARES_BASE設置并根據要插入中間件的位置選擇一個值。順序很重要,因為每個中間件都執行不同的操作,而您的中間件可能依賴于之前(或后續)正在使用的中間件

如果要禁用內置中間件(DOWNLOADER_MIDDLEWARES_BASE默認情況下已定義和啟用的中間件 ),則必須在項目DOWNLOADER_MIDDLEWARES設置中定義它,并將“ 無” 作為其值。例如,如果您要禁用用戶代理中間件

最后,請記住,某些中間件可能需要通過特定設置啟用

3. 編寫你自己的下載中間件

每個中間件組件都是一個Python類,它定義了一個或多個以下方法

class scrapy.downloadermiddlewares.DownloaderMiddleware

任何下載器中間件方法也可能返回一個延遲

3.1 process_request(self, request, spider)

當每個request通過下載中間件時,該方法被調用

process_request()必須返回其中之一

  • 返回 None
    • Scrapy 將繼續處理該 request,執行其他的中間件的相應方法,直到合適的下載器處理函數(download handler)被調用,該 request 被執行(其 response 被下載)
  • 返回一個 Response 對象
    • Scrapy 將不會調用 任何 其他的 process_request()或 process_exception()方法,或相應地下載函數; 其將返回該 response。已安裝的中間件的 process_response()方法則會在每個 response 返回時被調用
  • 返回一個 Request 對象
    • Scrapy 則停止調用 process_request 方法并重新調度返回的 request。當新返回的 request 被執行后, 相應地中間件鏈將會根據下載的 response 被調用
  • raise IgnoreRequest
    • 如果拋出 一個 IgnoreRequest 異常,則安裝的下載中間件的 process_exception() 方法會被調用。如果沒有任何一個方法處理該異常, 則 request 的 errback(Request.errback)方法會被調用。如果沒有代碼處理拋出的異常, 則該異常被忽略且不記錄(不同于其他異常那樣)

參數:

  • request (Request 對象) – 處理的request
  • spider (Spider 對象) – 該request對應的spider

3.2 process_response(self, request, response, spider)

當下載器完成http請求,傳遞響應給引擎的時候調用
  • process_request() 必須返回以下其中之一: 返回一個 Response 對象、 返回一個 Request 對象或raise一個 IgnoreRequest 異常
    • 如果其返回一個 Response (可以與傳入的response相同,也可以是全新的對象), 該response會被在鏈中的其他中間件的 process_response() 方法處理。
    • 如果其返回一個 Request 對象,則中間件鏈停止, 返回的request會被重新調度下載。處理類似于 process_request() 返回request所做的那樣。
    • 如果其拋出一個 IgnoreRequest 異常,則調用request的errback(Request.errback)。 如果沒有代碼處理拋出的異常,則該異常被忽略且不記錄(不同于其他異常那樣)。
  • 參數:
    • request (Request 對象) – response所對應的request
    • response (Response 對象) – 被處理的response
    • spider (Spider 對象) – response所對應的spider

4 使用代理

寫一個spider測試

總結

以上是生活随笔為你收集整理的框架下载_25. Scrapy 框架-下载中间件Middleware的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。