當前位置：首頁 > 编程语言 > python >内容正文

python

Python网络爬虫从入门到实践 -- chapter 1 -- 网络爬虫入门

發布時間：2024/2/28 python 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python网络爬虫从入门到实践 -- chapter 1 -- 网络爬虫入门小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Robots協議（爬蟲協議）全稱網絡爬蟲排除標準，網站通過Robots協議告訴搜索引擎哪些頁面可以抓取（Allow：/），哪些不能抓取（Disallow：/）。這個協議是國際互聯網界遵守的道德規范。

在進行爬蟲時要對自己的爬蟲行為自我管理，過快或者過于密集的網絡爬蟲會對服務器產生巨大的壓力。因此要遵守Robots協議，約束爬蟲速度；使用爬到的數據時遵守網站的知識產權。

① 獲取網頁

給網站發送一個請求，網站返回整個網頁的數據

② 解析網頁（提取數據）

從整個網頁的數據中提取想要的數據

③ 存儲數據

① 獲取網頁

基礎技術：request、urllib、selenium（模擬瀏覽器）

進階技術：多進程多線程抓取、登錄抓取、突破IP封禁和服務器抓取

② 解析網頁（提取數據）

基礎技術：re正則表達式、BeautifulSoup和lxml

進階技術：解決中文亂碼

③ 存儲數據

基礎技術：存入txt文件和存入csv文件

進階技術：存入mysql數據庫和存入MongoDB數據庫

以上是生活随笔為你收集整理的Python网络爬虫从入门到实践 -- chapter 1 -- 网络爬虫入门的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。