當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python笔记之scrapy

發(fā)布時間：2024/1/23 python 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 python笔记之scrapy 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Scrapy的基本命令

基本命令分兩種: 全局命令和項目命令

全局命令(在命令行中執(zhí)行的指令)

fetch
主要用來顯示爬蟲爬取的過程

scrapy fetch http://www.taobao.com

如果他在scrapy項目之外使用,會調(diào)用scrapy默認的爬蟲進行網(wǎng)頁的爬取
如果他在scrapy項目中使用,會使用scrapy項目中的爬蟲進行網(wǎng)頁的爬取

runspider
不依托scrapy項目來直接運行一個爬蟲文件
創(chuàng)建first.py文件編寫代碼,執(zhí)行指令

scrapy runspider first.py from scrapy.spider import Spiderclass FirstSpider(Spider):name = "first" # 爬蟲名allowed_domains = ["baidu.com"] # 設(shè)置允許爬取的域名start_urls = ["http://www.baidu.com" # 設(shè)置爬取的起始網(wǎng)頁# 可以有多個]def parse(self, response):pass

settings
查看scrapy默認的配置信息
如果是在項目下查看,是項目的配置信息

shell
啟動scrapy的交互終端,shell經(jīng)常在開發(fā)以及調(diào)試中用到
使用scrapy的交互終端,可以在不啟動scrapy爬蟲的情況下,對網(wǎng)站響應(yīng)進行調(diào)試
也可以在交互終端中寫一些python的代碼

scrapy shell http://www.baidu.com --nolog ti = sel.xpath("/html/head/title") print(ti)

startproject
用于創(chuàng)建一個scrapy爬蟲項目

scrapy startproject first

version
查看scrpay的版本信息

scrapy version

view
下載某個網(wǎng)頁并用瀏覽器查看

scrapy view http://www.baidu.com

項目命令(在scrapy項目中執(zhí)行的指令)

bench
可以測試本地硬件性能,會創(chuàng)建一個本地服務(wù)器并且以最大的爬行速度爬行

scrapy bench

genspider
用于在項目下創(chuàng)建爬蟲文件
使用該指令可以基于現(xiàn)有爬蟲模板來生成一個爬蟲文件

-l 來查看當(dāng)前可以使用的模板 scrapy genspider -l -t 使用某個爬蟲模板來生成一個爬蟲文件 scrapy genspider -t basic txl baidu.com txl : 爬蟲文件名 baidu.com : 可以爬取的域名

crawl
使用crawl指令可以啟動某一個爬蟲

scrapy scrawl 爬蟲名

list
使用list命令來列出當(dāng)前項目可使用的爬蟲文件

scrapy list

edit
使用edit指令直接打開對應(yīng)的編輯器對爬蟲文件進行編寫
這條指令對linux比較友好
對windows沒什么卵用,因為會出現(xiàn)問題

scrapy edit 爬蟲名

總結(jié)

以上是生活随笔為你收集整理的python笔记之scrapy的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python之.py生成.exe可执行文
下一篇： websocket python爬虫_p