三十四、Scrapy中的CrawlSpider
生活随笔
收集整理的這篇文章主要介紹了
三十四、Scrapy中的CrawlSpider
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
@Author:Runsen
Scrapy框架中分兩類爬蟲,Spider類和CrawlSpider類。
目前騰訊招聘的官網改變了,因此本文只能了解,不能實戰
創建CrawlSpider模板:
scrapy genspider -t crawl spider名稱 www.xxxx.com
具體參數:
- callback: 從link_extractor中每獲取到鏈接時,參數所指定的值作為回調函數,該回調函數接受一個response作為其第一個參數。 注意:當編寫爬蟲規則時,避免使用parse作為回調函數。由于CrawlSpider使用parse方法來實現其邏輯,如果覆蓋了
- parse方法,crawl spider將會運行失敗。
- follow:是一個布爾(boolean)值,指定了根據該規則從response提取的鏈接是否需要跟進。 如果callback為None,follow 默認設置為True ,否則默認為False。
- process_links:指定該spider中哪個的函數將會被調用,從link_extractor中獲取到鏈接列表時將會調用該函數。該方法主要用來過濾。
- process_request:指定該spider中哪個的函數將會被調用, 該規則提取到每個request時都會調用該函數。 (用來過濾request)
很久之前的練習網站
爬取目標職位的名稱和它的詳情頁
因為有2個url
總結
以上是生活随笔為你收集整理的三十四、Scrapy中的CrawlSpider的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pyspider爬链家网入库遇到的坑
- 下一篇: 怎么进入虚拟机pe系统 进入虚拟机PE操