當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Scrapy中Spiders的用法

發布時間：2023/12/16 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 Scrapy中Spiders的用法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文來自官方文檔
包括Spiders的簡介、一些參數的實例講解和一些例子。

Spiders

Spider類定義了如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進鏈接)以及如何從網頁的內容中提取結構化數據(爬取item)。換句話說，Spider就是您定義爬取的動作及分析某個網頁(或者是有些網頁)的地方。

對spider來說，爬取的循環類似下文:

以初始的URL初始化Request，并設置回調函數。當該request下載完畢并返回時，將生成response，并作為參數傳給該回調函數。

spider中初始的request是通過調用 start_requests() 來獲取的。 start_requests() 讀取 start_urls 中的URL，并以 parse 為回調函數生成 Request 。
在回調函數內分析返回的(網頁)內容，返回 Item 對象或者 Request 或者一個包括二者的可迭代容器。返回的Request對象之后會經過Scrapy處理，下載相應的內容，并調用設置的callback函數(函數可相同)。
在回調函數內，您可以使用選擇器(Selectors) (您也可以使用BeautifulSoup, lxml 或者您想用的任何解析器) 來分析網頁內容，并根據分析的數據生成item。
最后，由spider返回的item將被存到數據庫(由某些 Item Pipeline 處理)或使用 Feed exports 存入到文件中。

雖然該循環對任何類型的spider都(多少)適用，但Scrapy仍然為了不同的需求提供了多種默認spider。之后將討論這些spider。

Spider參數

Spider是最簡單的spider。每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。 Spider并沒有提供什么特殊的功能。其僅僅請求給定的 start_urls/start_requests ，并根據返回的結果(resulting responses)調用spider的 parse 方法。

name

定義spider名字的字符串(string)。spider的名字定義了Scrapy如何定位(并初始化)spider，所以其必須是唯一的。不過您可以生成多個相同的spider實例(instance)，這沒有任何限制。 name是spider最重要的屬性，而且是必須的。

如果該spider爬取單個網站(single domain)，一個常見的做法是以該網站(domain)(加或不加后綴 )來命名spider。例如，如果spider爬取 mywebsite.com ，該spider通常會被命名為 mywebsite 。

allowed_domains

這是一個可選屬性。包含了spider允許爬取的域名(domain)列表(list)。當 OffsiteMiddleware 啟用時，域名不在列表中的URL不會被跟進。

比如之前的例子，如果yield生成的url不在allowed_domains的域名范圍內則不會生效。

start_urls

URL列表。當沒有制定特定的URL時，spider將從該列表中開始進行爬取。因此，第一個被獲取到的頁面的URL將是該列表之一。后續的URL將會從獲取到的數據中提取。

custom_settings

運行此爬蟲時將從項目范圍配置中覆蓋setting里面的設置。必須將其定義為類屬性，因為在實例化之前更新了設置。

有關可用內置設置的列表，請參閱：內置設定參考手冊。

下面舉例試驗一下：
先新建一個“知乎”爬蟲

scrapy genspider zhihu www.zhihu.com

可以在settings.py中看到DEFAULT_REQUEST_HEADERS屬性，我們先把它注釋掉。
注釋之后的爬蟲是沒有默認請求頭的。
現在直接在命令行執行

scrapy crawl zhihu

由于現在的請求沒有請求頭，對于知乎網站來說會返回400錯誤碼：

現在我們把注釋取消，重新運行爬蟲：

可以看到運行成功了（得到了200狀態碼）

現在我們在ZhihuSpider這個類中定義custom_settings屬性，看看是否能把settings覆蓋掉，這里以字典的形式來定義custom_settings，將settings里面的一個變量在這里作為一個鍵，并且將User-Agent設置為空：

重新運行，可以看到與第一次運行如出一轍，放回了400狀態碼，這說明我們的覆蓋生效了。
以上例子說明，當執行某個爬蟲時需要進行特定的設置，可以在custom_settings屬性中進行自定義，以此來覆蓋掉全局性的設置。

from_crawler(crawler, *args, **kwargs)

這是Scrapy用于創建爬蟲的類方法。

我們可能不需要直接覆蓋它，因為默認實現充當__init __（）方法的代理，使用給定參數args和命名參數kwargs調用它。

盡管如此，此方法在新實例中設置了crawler和settings屬性，因此可以在spider的代碼中稍后訪問它們。我們經常用它來獲得一些全局配置的實例。

start_requests()

該方法必須返回一個可迭代對象(iterable)。該對象包含了spider用于爬取的第一個Request。

當spider啟動爬取并且未制定URL時，該方法被調用。當指定了URL時，make_requests_from_url() 將被調用來創建Request對象。該方法僅僅會被Scrapy調用一次，因此您可以將其實現為生成器。

該方法的默認實現是使用 start_urls 的url生成Request。

如果您想要修改最初爬取某個網站的Request對象，您可以重寫(override)該方法。例如，如果您需要在啟動時以POST登錄某個網站，你可以這么寫:

def start_requests(self):return [scrapy.FormRequest("http://www.example.com/login",formdata={'user': 'john', 'pass': 'secret'},callback=self.logged_in)]def logged_in(self, response):# here you would extract links to follow and return Requests for# each of them, with another callbackpass

我們新建一個爬蟲（之前提到的常用的測試網站）來演示一下：

運行爬蟲，可以發現start_requests()方法通過 start_urls 的url生成了一個GET請求的對象。

我們在url后面加上post看看能否把請求方式改成post：

可以看到拋出了405錯誤代碼，因為start_requests()默認是用GET方式請求的，所以要想用POST方式請求，就必須要改寫start_requests()方法：
這里將第一次請求的方法改為POST，并且將回調函數指定為一個打印出“hello 狀態碼”的方法，運行后可以看到成功實現了。

make_requests_from_url(url)

該方法接受一個URL并返回用于爬取的 Request 對象。該方法在初始化request時被 start_requests() 調用，也被用于轉化url為request。

默認未被復寫(overridden)的情況下，該方法返回的Request對象中， parse() 作為回調函數，dont_filter參數也被設置為開啟。

下面依然舉例演示一下，新建一個爬蟲用于爬取百度首頁：

scrapy genspider baidu www.baidu.com

修改：

運行后報錯：

不推薦使用Spider.make_requests_from_url方法; 它將不會在未來的Scrapy版本中調用。

好吧，那就忽略掉吧…

parse(response)

當response沒有指定回調函數時，該方法是Scrapy處理下載的response的默認方法。

parse 負責處理response并返回處理的數據以及(/或)跟進的URL。 Spider 對其他的Request的回調函數也有相同的要求。

該方法及其他的Request回調函數必須返回一個包含 Request 及(或) Item 的可迭代的對象

log(message[, level, component])

使用 scrapy.log.msg() 方法記錄(log)message。 log中自動帶上該spider的 name 屬性。此外可以自定義更多的數據被紀錄。

self.logger.info(response.status)

Spider樣例

讓我們來看一個例子:
這個例子里， start_urls中定義了多個url。

import scrapyclass MySpider(scrapy.Spider):name = 'example.com'allowed_domains = ['example.com']start_urls = ['http://www.example.com/1.html','http://www.example.com/2.html','http://www.example.com/3.html',]def parse(self, response):self.log('A response from %s just arrived!' % response.url)

再看看源碼中如何使用它們：

可以看到在start_requests函數中，遍歷了這個列表。

另一個在單個回調函數中返回多個Request以及Item的例子:

import scrapy from myproject.items import MyItemclass MySpider(scrapy.Spider):name = 'example.com'allowed_domains = ['example.com']start_urls = ['http://www.example.com/1.html','http://www.example.com/2.html','http://www.example.com/3.html',]def parse(self, response):sel = scrapy.Selector(response)for h3 in response.xpath('//h3').extract():yield MyItem(title=h3)for url in response.xpath('//a/@href').extract():yield scrapy.Request(url, callback=self.parse)

更多信息請參考官方文檔

總結

以上是生活随笔為你收集整理的Scrapy中Spiders的用法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python-玩转数据-Scrapy中S
下一篇：病毒分类