Scrapy详解
一、爬蟲(chóng)生態(tài)框架
在管道傳數(shù)據(jù)只能傳字典和items類型。
將 上一return語(yǔ)句注釋則會(huì)報(bào)錯(cuò)? 如:
?
?
如上圖,爬蟲(chóng)文件中有一個(gè)name屬性,如果多個(gè)爬蟲(chóng)可以通過(guò)這個(gè)屬性在管道控制分析的是哪個(gè)爬蟲(chóng)的數(shù)據(jù)
日志文件
添加紅框里面的一條代碼,讓打印結(jié)果只顯示warning級(jí)別及以上的警告
?
如何保存日志信息
發(fā)現(xiàn)運(yùn)行后沒(méi)有任何輸出
項(xiàng)目中多了log.log日志文件
打開(kāi)log.log日志文件即日志信息
?items類型對(duì)象
在items文件中聲明了name、last的鍵在爬蟲(chóng)文件中聲明即可用
?
scrapy shell 用法
scrapy shell + 網(wǎng)址? 會(huì)進(jìn)入一個(gè)ipython可以測(cè)試response? 如:
模仿瀏覽器
改為自己瀏覽器的user_agent信息
?
更改遵守robots規(guī)則
將True改為False
?提取下一頁(yè)url: scrapy.Request(url, callback)用來(lái)獲取網(wǎng)頁(yè)里的地址
?callback:指定由那個(gè)函數(shù)去處理
?分布式爬蟲(chóng):
1.多臺(tái)機(jī)器爬到的數(shù)據(jù)不能重復(fù)
2.多臺(tái)機(jī)器爬到的數(shù)據(jù)不能丟失
?
1.redis是什么?
Redis是一個(gè)開(kāi)源的、內(nèi)存數(shù)據(jù)庫(kù),他可以用作數(shù)據(jù)庫(kù)、緩存、消息中間件。它支持多種數(shù)據(jù)類型的數(shù)據(jù)結(jié)構(gòu),如字符串、哈希、列表、集合、有序集合(可能存在數(shù)據(jù)丟失)
? redis安裝? Ubuntu: sudo apt-get install redis-server? ? Centos:sudo yum install redis-server
檢測(cè)redis狀態(tài)
redis服務(wù)的開(kāi)啟:sudo /etc/init.d/redis-server start
重啟:sudo /etc/init.d/redis-server restart
關(guān)閉:sudo /etc/init.d/redis-server stop
redis連接客戶端:redis-cli
redis遠(yuǎn)程連接客戶端:redis-cli -h<hostname> -p? <port>(默認(rèn)6379)
redis常用命令:
選擇數(shù)據(jù)庫(kù):select 1? (第一個(gè)數(shù)據(jù)庫(kù)為0 ,默認(rèn)16個(gè)數(shù)據(jù)庫(kù),可修改配置文件修改數(shù)據(jù)庫(kù)個(gè)數(shù)且個(gè)數(shù)沒(méi)有上限)
查看數(shù)據(jù)庫(kù)里的內(nèi)容:keys *
向數(shù)據(jù)庫(kù)加列表:lpush mylist a b c d (數(shù)據(jù)可重復(fù))
查看列表數(shù)據(jù):lrange mylist 0 -1
查看列表元素個(gè)數(shù):llen mylist
?
向set中加數(shù)據(jù):sadd myset a b c d(不能重復(fù),無(wú)序)
查看set中的數(shù)據(jù):smembers myset
查看set中的元素個(gè)數(shù):scard myset
向有序zset中添加數(shù)據(jù):zadd myzset 1 a 2 b 3 c 4 d
查看zset編號(hào)和數(shù)據(jù):zrange myzset 0 -1 withscores
?
查看zset數(shù)據(jù)
改變編號(hào) 如改變a的編號(hào):
統(tǒng)計(jì)zset元素的個(gè)數(shù)zcard myzset
刪除當(dāng)前數(shù)據(jù)庫(kù):flushdb
清楚所有數(shù)據(jù)庫(kù):flushall
安裝scrapy-redis
sudo pip install scrapy_redis
下載scrapy-redis例子:git clone https://github.com/rolando/scrapy-redis.git
setting.py中:
# 去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 調(diào)度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 調(diào)度器內(nèi)容持久化
SCHEDULER_PERSIST = True
ITEM_PIPELINES = {
'example.pipelines.ExamplePipeline': 300,
# 負(fù)責(zé)把數(shù)據(jù)存儲(chǔ)到redis數(shù)據(jù)庫(kù)里
'scrapy_redis.pipelines.RedisPipeline': 400,
}
最后需把redis加上
序列化:把一個(gè)類的對(duì)象變成字符串最后保存到文件
反序列化:保存到文件的對(duì)象是字符串格式? -->? 讀取字符串 --> 對(duì)象
?
?
?
注:后臺(tái)打印的數(shù)據(jù)較雜亂,我只想要自己爬到的東西怎么辦?
第一步:
setting.py中加? LOG_LEVEL = 'WARNING'??
這句代碼會(huì)將不必要的數(shù)據(jù)屏蔽,屏蔽的數(shù)據(jù)如下:
?
第二步:
然而現(xiàn)在還不是最簡(jiǎn)潔的,還有雜項(xiàng)。這樣做,將response.xpath('*********')變成response.xpath('*********').extract()
怎么樣是不是你想要的。
?
轉(zhuǎn)載于:https://www.cnblogs.com/DonCharles/p/9930004.html
總結(jié)
- 上一篇: 【对讲机的那点事】如何使用阿里通信云对讲
- 下一篇: 小程序wx.createInnerAud