爬虫技术python流程图_基于Python的网络爬虫技术研究
基于
Python
的網絡爬蟲技術研究
王碧瑤
【摘
要】
摘要:專用型的網絡爬蟲能夠得到想要的返回結果
,
本文就以拉勾網作
為例子
,
對基于
Python
的網絡爬蟲技術進行研究和分析。
【期刊名稱】
數字技術與應用
【年
(
卷
),
期】
2017(000)005
【總頁數】
1
【關鍵詞】
Python
;網絡爬蟲技術;搜索引擎
【
文
獻
來
源
】
https://www.zhangqiaokeyan.com/academic-journal-cn_digital-technology-
application_thesis/0201236700381.html
1
爬蟲系統需求的分析和設計
利用模塊化的設計來對網絡爬蟲系統進行開發
,
一個通用的爬蟲架構需要有爬蟲
調度端
,URL
管理器
,
網頁下載器
,
網頁解析器這
4
個模塊。爬蟲調度端去啟動、
停止或者監視爬蟲運行情況
,URL
管理器去對將要爬取的
URL
和已經爬取過的
URL
進行管理
,
網頁下載器將
URL
管理器指定的
URL
網頁下載下來存儲為字符
串
,
字符串傳送給網頁解析器進行解析
,
并將其中未被抓取過的
URL
送入
URL
管
理器中。
公司名、地址以及薪水等都需要被抓取然后保存到文件中。拉勾網加載職位信
息
采
用
異
步
加
載
方
式
,
所
以
對
一
系
列
網
絡
請
求
分
析
之
后
,
發
現
是
positionAjax.json
請求去響應職位信息
,
網頁存儲職位信息采用的是
json
格式
,
并且
jso
n
的層級結構為
contentpositionResult-result,
所以采用
json
格式讀
取這種層級結構下的數據。其次就是分頁的設計
,
在
json
格式
content-
總結
以上是生活随笔為你收集整理的爬虫技术python流程图_基于Python的网络爬虫技术研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 留意这种开头的来电!这些电话千万不能接
- 下一篇: python各版本区别_关于python