Scrapy中的yield使用
Scrapy中yield的使用
- 背景
- yield的理解
- scrapy中的yield的使用
- scrapy.Request對象
- scrapy.Item對象
- scrapy中的傳值的問題
- 從持久化數據源(數據庫/表格)中獲取數據
- 使用cb_kwargs在request和callback回調函數之間進行傳參
- 參考
背景
yield和協程總是相伴出現。
scrapy使用yield進行數據解析和爬取request。
yield的理解
yield的解釋都比較復雜,一段典型的yield的使用如下:
def foo(): print("starting...")while True:res = yield 4print("res:",res) g = foo() print(next(g)) print("*"*20) print(g.send(7))這邊有幾個要點:
scrapy中的yield的使用
在scrapy中典型的yield場景主要是使用scrapy.Request對象和scrapy.Item對象。
scrapy.Request對象
def start_requests(self):urlfront = 'http://www.example.com/XYPT/score/scoreInfoList?objectType=1&pageSize=100&scoreUnitId='csv_reader = csv.reader(open("./Requirement.csv"))for line in csv_reader:#根據數據生成爬取地址url = urlfront + self.punishment_numberyield scrapy.Request(url=url, callback=self.parse2)scrapy框架會去獲得Requese對象指向的鏈接,并進行爬取請求,在請求完成后調用該對象的回調函數。
這里我們查表獲取鏈接,并拼裝,在循環內通過yield來發起請求,并且還將函數parse2注冊為回調函數,parse2中應提取響應所需的數據。
scrapy.Item對象
#存儲結構化數據 for company in response.css('tbody').css("tr"):field = company.css("td")yield {'Number': field[0].css("::text").get(),'CompanyName': field[1].css("a::text").get().split(" ")[-1],'UnifiedCreditCode': field[2].css("::text").get(),'Address': field[3].css("::text").get(),'EstablishmentNumber': field[4].css("a::text").get().split(" ")[-1],'EIAEngineersNumber': field[5].css("a::text").get().split(" ")[-1],'Status': field[6].get().split(" ")[-1].split("<")[0],'PunishmentDetail': field[7].css("a.amend-see::attr(href)").get().split("'")[-2],}{}中間構建了一個scrapy.Item對象,scrapy框架會將這個對象傳遞給pipelines.py進行下一步處理,如果沒有編寫pipelines.py,就是單純對item進行返回。
這里我們通過yield返回了一個8個key的scrapy.Item對象。
scrapy中的傳值的問題
在scrapy中,callback同spider是在不同的進程中執行的,所以如果使用全局變量會遇到多進程讀寫的毛病。
對于這一點,我們有兩種解決方案。
從持久化數據源(數據庫/表格)中獲取數據
這一塊的作法是根據url中的關鍵字進行解碼,采用解碼后的結果從持久化數據源中進行查表并獲取所需的關聯數據。
def parse(self, response):punish_id = response.url.split("=")[-1]with open("./Requirement.csv") as csvfile:reader = csv.DictReader(csvfile)for row in reader:if row["PunishmentID"] == punish_id:unified_credit_code = row["UnifiedCreditCode"]company_code = row['技術單位名稱']上述例子是
使用cb_kwargs在request和callback回調函數之間進行傳參
# 在Request發起端定義cb_kwargs,注意參數需要用dict來進行定義yield scrapy.Request(url=url, callback=self.parse2, cb_kwargs=dict(company_code=self.company_name, punish_id=self.punishment_number, unified_credit_code=self.unified_creditcode))#在callback函數中需要對應地聲明cb_kwargs的參數 def parse2(self, response, company_code, punish_id, unified_credit_code):這里,將全局變量self.company_name, self.punishment_number和self.unified_creditcode通過傳值的方式參數傳遞給回調函數,并確保了上述全局變量被改變后,不影響回調函數中對這些值的使用。
注意:
Request.cb_kwargs是在scrapy 1.7 版本后被引入的。之前的版本使用Request.meta給回調函數傳遞信息,但meta的下屬結構定義是固定的。1.7版本后,通常我們使用Request.cb_kwargs來處理用戶信息,而Request.meta作為中間件和擴展組件的通信使用。
參考
https://towardsdatascience.com/web-scraping-with-scrapy-theoretical-understanding-f8639a25d9cd
https://docs.scrapy.org/en/latest/topics/request-response.html#topics-request-meta
https://www.cnblogs.com/chenxi188/p/10848690.html
總結
以上是生活随笔為你收集整理的Scrapy中的yield使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python中出现TabError: i
- 下一篇: XPath初探笔记