日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

python3安装scrapy及使用方法(爬虫框架)

發(fā)布時(shí)間:2025/3/15 python 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python3安装scrapy及使用方法(爬虫框架) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

安裝:

  • sudo pip3 install lxml
  • sudo apt-get install python-dev
  • sudo apt-get install build-essential
  • sudo apt-get install libxml2-dev
  • sudo apt-get install libxslt1-dev
  • sudo pip3 install scrapy
  • ?

    介紹:

    Scrapy運(yùn)行流程大概如下:

  • 引擎從調(diào)度器中取出一個(gè)鏈接(URL)用于接下來(lái)的抓取
  • 引擎把URL封裝成一個(gè)請(qǐng)求(Request)傳給下載器
  • 下載器把資源下載下來(lái),并封裝成應(yīng)答包(Response)
  • 爬蟲(chóng)解析Response
  • 解析出實(shí)體(Item),則交給實(shí)體管道進(jìn)行進(jìn)一步的處理
  • 解析出的是鏈接(URL),則把URL交給調(diào)度器等待抓取
  • 開(kāi)發(fā)?Scrapy?爬蟲(chóng)步驟:

  • 新建項(xiàng)目 (scrapy startproject xxx):新建一個(gè)新的爬蟲(chóng)項(xiàng)目
  • 明確目標(biāo) (編寫(xiě)items.py):明確你想要抓取的目標(biāo)
  • 制作爬蟲(chóng) (spiders/xxspider.py):制作爬蟲(chóng)開(kāi)始爬取網(wǎng)頁(yè)
  • 存儲(chǔ)內(nèi)容 (pipelines.py):設(shè)計(jì)管道存儲(chǔ)爬取內(nèi)容
  • ?

    簡(jiǎn)單實(shí)例?

    1. 創(chuàng)建工程

    scrapy startproject mySpider #創(chuàng)建scrapy工程 cd mySpider #進(jìn)入工程目錄 scrapy genspider itcast "www.itcast.cn" #創(chuàng)建爬蟲(chóng)(spider名不能與project名相同)

    2. 編寫(xiě)代碼

    item文件編寫(xiě):items用于存儲(chǔ)字段的定義。即爬取的內(nèi)容存與item類(lèi)中。

    spider文件編寫(xiě):編寫(xiě)爬蟲(chóng)規(guī)則,頭,等請(qǐng)求后的返回信息處理

    pipeline文件編寫(xiě):pipeline文件用于將數(shù)據(jù)存儲(chǔ)到文件中。

    setting文件的修改:其他配置暫且不用修改,只修改pipeline配置。

    ?

    啟動(dòng)測(cè)試:

    scrapy crawl itcast #運(yùn)行爬蟲(chóng)

    ?

    ?

    總結(jié)

    以上是生活随笔為你收集整理的python3安装scrapy及使用方法(爬虫框架)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。