日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python爬虫专家_Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider

發布時間:2025/3/21 python 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫专家_Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. 微醫掛號網專家團隊數據----寫在前面

今天嘗試使用一個新的爬蟲庫進行數據的爬取,這個庫叫做pyspider,國人開發的,當然支持一下。

安裝起來是非常簡單的

pip install pyspider

安裝之后,啟動 在CMD控制臺里面敲入命令

pyspider

出現如下界面,代表運行成功,一般情況下,你的電腦如果沒有安裝 phantomjs 他會先給你安裝一下。

接下來打開瀏覽器,訪問地址輸入 127.0.0.1:5000, 應該顯示如下界面,就可以愉快的進行編碼了~

3步創建一個項目

2. 微醫掛號網專家團隊數據----庫基本使用入門

這款工具的詳細使用,給你提供一個非常好的博文,寫的很完善了,我就不在贅述了。咱們直接進入到編碼的部分。

https://blog.csdn.net/weixin_37947156/article/details/76495144

3. 微醫掛號網專家團隊數據----爬蟲源碼

我們要爬取的目標站點是微醫掛號網專家團隊數據 網頁地址https://www.guahao.com/eteam/index

分析AJAX鏈接地址,尋找爬取規律

經過分析之后獲取到的鏈接為 https://www.guahao.com/json/white/search/eteams?q=&dept=&page=2&cid=&pid=&_=1542794523454

其中page參數最重要,表示頁碼,實際測試中發現,當代碼翻頁到 84頁的時候,數據竟然開始重復了,應該是網站本身系統的問題,這個沒有辦法。

爬蟲流程獲取總頁數

循環爬取每頁的數據

爬取總頁數

在入口函數on_start的位置去爬取第一頁數據,爬取成功之后調用index_page函數

from pyspider.libs.base_handler import *

import pandas as pd

class Handler(BaseHandler):

crawl_config = {

}

@every(minutes=24 * 60)

def on_start(self):

self.crawl('https://www.guahao.com/json/white/search/eteams?page=1', callback=self.index_page,validate_cert=False)

index_page函數用來獲取頁碼總數,并且將所有待爬取的地址存放到self.crawl中,這個地方因為數據重復的原因,最終硬編碼為84頁數據了

@config(age=10 * 24 * 60 * 60)

def index_page(self, response):

doctors = response.json

if doctors:

if doctors["data"]:

page_count = doctors["data"]["pageCount"]

#for page in range(1,page_count+1):

for page in range(1,85):

self.crawl('https://www.guahao.com/json/white/search/eteams?page={}'.format(page),callback=self.detail_page,validate_cert=False)

最后一步,解析數據,數據爬取完畢,存放到 csv 文件里面

@config(priority=2)

def detail_page(self, response):

doctors = response.json

data = doctors["data"]["list"]

return data

def on_result(self,result):

if result:

print("正在存儲數據....")

data = pd.DataFrame(result)

data.to_csv("專家數據.csv", mode='a', header=False, encoding='utf_8_sig')

完成的代碼預覽

回到主頁面,此時看到任務列表顯示了我們剛剛創建的任務,設置 status 為 running,然后點擊 Run 按鈕執行

執行完成后,點擊 Results 按鈕,進入到爬取結果的頁面

等著就可以了

4. 微醫掛號網專家團隊數據----最后幾步Web UI 控制臺上的 rate/burst 參數來調節速度,rate 是 每秒抓取的數量,burst 是并發的數量

pyspider 爬取完畢之后,你在點擊run是不會在運行的。解決辦法如下,停止 pyspider,找到下圖的幾個文件 project.db 和 result.db 兩個文件不要刪除,刪除其他文件即可。

寫完啦~ 得到了 ·1000·多個專家團隊。

總結

以上是生活随笔為你收集整理的python爬虫专家_Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 五月天婷婷丁香 | 男女男精品网站 | 香蕉小视频 | 欧美第一夜 | 色中色综合 | 婚后打屁股高h1v1调教 | 最新日韩av | 国产免费无码一区二区 | 国产人成视频在线观看 | 久久sp | 国产精品无码一区二区三区三 | 欧美成人aaaaⅴ片在线看 | 久久作爱 | 私人网站 | 麻豆传媒网页 | 绿帽单男| 福利在线一区二区三区 | 日韩精品电影一区 | 一区二区 中文字幕 | 美女视频一区二区三区 | 欧美性猛交xxxx乱大交蜜桃 | 久久久久久久亚洲av无码 | 亚洲国产精品成人无久久精品 | 午夜精品久久久久久久 | 成年人免费在线 | 妻色成人网 | 聚色av| 制服 丝袜 激情 欧洲 亚洲 | 男女激情实录 | 国产欧美日韩三级 | 中文字幕在线观看免费视频 | 欧美综合另类 | 黄色网页入口 | 日韩黄色影院 | 欧洲一区二区在线观看 | 日本视频在线观看 | 国产精品免费一区二区三区在线观看 | 在线观看国产免费视频 | 国产区二区| 少妇人妻综合久久中文字幕 | 亚洲男人的天堂网 | 久久丫精品国产亚洲av不卡 | 成人无码av片在线观看 | 在线免费观看中文字幕 | 青青草手机在线观看 | 国产情侣在线视频 | 中文字幕日韩欧美一区二区三区 | 五月丁香 | 综合久久网| 国产v综合v亚洲欧美久久 | 欧美乱大交xxxxx潮喷l头像 | 久久久久这里只有精品 | 肉色丝袜小早川怜子av | 亚洲永久精品视频 | 欧美高清二区 | 成人无码视频 | 午夜整容室 | 乳罩脱了喂男人吃奶视频 | 午夜成年视频 | 红桃视频网站 | 捆绑裸体绳奴bdsm亚洲 | 国产又粗又猛又黄又爽的视频 | 国产日日操| 欧美三级午夜理伦三级 | 国产精品日 | 亚洲激情视频在线播放 | 久久爱影视 | 亚洲成人h | www黄色在线观看 | 欧美日韩一级视频 | 一本色综合 | 国产精品免费91 | 日韩精品免费在线视频 | 国产极品在线观看 | 国产精品免费一区二区 | 久久久欧美 | 岛国毛片在线观看 | 91国模少妇一区二区三区 | 神马午夜dy888| 欧美成人亚洲 | 黄色av网页 | 国产精品无码999 | 蜜桃av导航| 国产女人18水真多毛片18精品 | h小视频在线观看 | 射区导航 | 日韩有码中文字幕在线 | 中文在线字幕 | 啪啪网站视频 | 秒拍福利视频 | 三区四区| 波多野结衣二区 | 日日夜夜精品免费视频 | 草逼免费视频 | chinese hd av | 亚洲爽爆| 日本不卡一区二区三区在线观看 | 啪啪福利| 偷拍精品一区二区三区 |