當前位置：首頁 > 编程语言 > python >内容正文

python

python网络爬虫文献综述_python网络爬虫综述

發布時間：2024/9/19 python 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 python网络爬虫文献综述_python网络爬虫综述小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文主要是個人python學習過程中的碎碎念想，希望對感興趣的童鞋有所幫助。

百度百科上網絡爬蟲的定義是：“網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動的抓取萬維網信息的程序或者腳本”。使用網絡爬蟲可以個性化的從互聯網上抓取個人干興趣的數據，完成當前搜索引擎所做不到的一些個性化搜索。不太恰當的說，使用python編寫網絡爬蟲，其實就是在模擬模擬瀏覽器的工作過程，從互聯網上抓取所需的信息并完成分析和提取、保存的過程。

為了更好的網絡爬蟲的工作過程，我們首先來看用戶訪問互聯網資源的過程，以用戶在瀏覽器中輸入：

http://www.baidu.com為例，當用戶輸入完成并開始搜索時，用戶所請求的網頁經過DNS完成域名解析后，通過網絡承載HTTP協議棧的數據，發往百度所在的服務器，百度的數據器收到請求后將百度的首頁的數據返回給用戶（假設這一過程發生的所有過程全部正確），用戶的瀏覽器收到百度響應數據后，采用瀏覽器進行數據解析，將百度的首頁呈現在用戶眼前。這里百度返回的數據是HTTP協議棧所封裝的HTML/CSS/PHP的數據。如上文所述，我們使用python編寫網絡爬蟲時，其工作原理也是如此。為完成這一工作過程，我們需要掌握python的基礎知識，其中最重要的是python的urllib和urllib2庫和python的正則表達式的使用，前者主要完成從目標主機中找到信息所在的“網頁”，后者主要是從“互聯網返回的網頁”中獲取到所需的信息。

閑話少說，我們以一些實際例子來看，如何使用使用python來編寫一些簡單的網絡爬蟲。

總結

以上是生活随笔為你收集整理的python网络爬虫文献综述_python网络爬虫综述的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：钟乳的功效与作用、禁忌和食用方法
下一篇： websocket python爬虫_p