日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python网络爬虫文献综述_python网络爬虫综述

發布時間:2024/9/19 python 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python网络爬虫文献综述_python网络爬虫综述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文主要是個人python學習過程中的碎碎念想,希望對感興趣的童鞋有所幫助。

百度百科上網絡爬蟲的定義是:“網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本”。使用網絡爬蟲可以個性化的從互聯網上抓取個人干興趣的數據,完成當前搜索引擎所做不到的一些個性化搜索。不太恰當的說,使用python編寫網絡爬蟲,其實就是在模擬模擬瀏覽器的工作過程,從互聯網上抓取所需的信息并完成分析和提取、保存的過程。

為了更好的網絡爬蟲的工作過程,我們首先來看用戶訪問互聯網資源的過程,以用戶在瀏覽器中輸入:

http://www.baidu.com為例,當用戶輸入完成并開始搜索時,用戶所請求的網頁經過DNS完成域名解析后,通過網絡承載HTTP協議棧的數據,發往百度所在的服務器,百度的數據器收到請求后將百度的首頁的數據返回給用戶(假設這一過程發生的所有過程全部正確),用戶的瀏覽器收到百度響應數據后,采用瀏覽器進行數據解析,將百度的首頁呈現在用戶眼前。這里百度返回的數據是HTTP協議棧所封裝的HTML/CSS/PHP的數據。如上文所述,我們使用python編寫網絡爬蟲時,其工作原理也是如此。為完成這一工作過程,我們需要掌握python的基礎知識,其中最重要的是python的urllib和urllib2庫和python的正則表達式的使用,前者主要完成從目標主機中找到信息所在的“網頁”,后者主要是從“互聯網返回的網頁”中獲取到所需的信息。

閑話少說,我們以一些實際例子來看,如何使用使用python來編寫一些簡單的網絡爬蟲。

總結

以上是生活随笔為你收集整理的python网络爬虫文献综述_python网络爬虫综述的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。