Python网络爬虫从入门到实践 -- chapter 1 -- 网络爬虫入门
生活随笔
收集整理的這篇文章主要介紹了
Python网络爬虫从入门到实践 -- chapter 1 -- 网络爬虫入门
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1 Robots協議
Robots協議(爬蟲協議)全稱網絡爬蟲排除標準,網站通過Robots協議告訴搜索引擎哪些頁面可以抓取(Allow:/),哪些不能抓取(Disallow:/)。這個協議是國際互聯網界遵守的道德規范。
在進行爬蟲時要對自己的爬蟲行為自我管理,過快或者過于密集的網絡爬蟲會對服務器產生巨大的壓力。因此要遵守Robots協議,約束爬蟲速度;使用爬到的數據時遵守網站的知識產權。
?
2 Python爬蟲的流程
① 獲取網頁
給網站發送一個請求,網站返回整個網頁的數據
② 解析網頁(提取數據)
從整個網頁的數據中提取想要的數據
③ 存儲數據
?
3 三個流程的技術實現
① 獲取網頁
基礎技術:request、urllib、selenium(模擬瀏覽器)
進階技術:多進程多線程抓取、登錄抓取、突破IP封禁和服務器抓取
② 解析網頁(提取數據)
基礎技術:re正則表達式、BeautifulSoup和lxml
進階技術:解決中文亂碼
③ 存儲數據
基礎技術:存入txt文件和存入csv文件
進階技術:存入mysql數據庫和存入MongoDB數據庫
?
?
?
總結
以上是生活随笔為你收集整理的Python网络爬虫从入门到实践 -- chapter 1 -- 网络爬虫入门的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一些知识点
- 下一篇: eval?python顺序列表模拟栈实现