日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python网络爬虫与信息提取北京理工大学_Python网络爬虫与信息提取(一)

發(fā)布時間:2023/12/19 python 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python网络爬虫与信息提取北京理工大学_Python网络爬虫与信息提取(一) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Reference:

第一周 網(wǎng)絡爬蟲之規(guī)則

單元1:Requests庫入門

1-1 Requests庫的安裝

1-2 Requests庫的get()方法

1-3 爬取網(wǎng)頁的通用代碼框架

1-4 HTTP協(xié)議與Requests庫方法

注意:put與post的區(qū)別

1-5 Requests庫主要方法解析

Requests庫的7個主要方法

(一). requests庫的request方法是所有方法的基礎方法,它有三個參數(shù),分別是:

method,url和控制訪問參數(shù)----> requests.request(method,url,**kwargs)

method表示請求方式,對應get/put/post等7種

url指擬獲取頁面的url鏈接

**kwargs控制訪問參數(shù),共13個,均為可選項

(1)params

(2)data

(3)json

(4)headers

(5)cookies

(6)auth

(7)files

(8)timeout

(9)proxies

(10)allow_redirects

(11)stream

(12)verify

(13)cert單元2:網(wǎng)絡爬蟲的“盜亦有道”

2-1 網(wǎng)絡爬蟲引發(fā)的問題

網(wǎng)絡爬蟲的尺寸

網(wǎng)絡爬蟲的“騷擾”(對服務器性能的騷擾)

服務器默認是按照人數(shù)來約定它的訪問能力,但當有爬蟲加入的時候,服務器可能很難提供那么高的性能。

網(wǎng)絡爬蟲的法律風險(內(nèi)容層面)

服務器上的數(shù)據(jù)有產(chǎn)權(quán)歸屬,網(wǎng)絡爬蟲獲取數(shù)據(jù)后牟利將帶來法律風險。

網(wǎng)絡爬蟲的泄露隱私(個人隱私泄露)

網(wǎng)絡爬蟲可能具備突破簡單訪問控制的能力,獲得被保護數(shù)據(jù)從而泄露個人隱私。

對于一般的服務器來說,可以用兩種方式限制網(wǎng)絡爬蟲:

(1)如果網(wǎng)站的所有者具有一定的技術(shù)能力,可以通過來源審查來限制網(wǎng)絡爬蟲。

來源審查:判斷User-Agent進行限制

檢查來訪HTTP協(xié)議頭的User-Agent域,只響應瀏覽器或友好爬蟲的訪問。

(2)發(fā)布公告:Robots協(xié)議

告知所有爬蟲 網(wǎng)站的爬取策略,要求爬蟲遵守。

2-2 Robots協(xié)議=Robots Exclusion Standard 網(wǎng)絡爬蟲排除標準

作用:網(wǎng)站告知網(wǎng)絡爬蟲哪些頁面可以抓取,哪些不行。

形式:在網(wǎng)站根目錄下的robots.txt文件。通過基本語法告知網(wǎng)絡爬蟲,該網(wǎng)站內(nèi)部資源可以被訪問的權(quán)限。

規(guī)定:robots協(xié)議規(guī)定,如果一個網(wǎng)站不提供robots.txt文件,則說明這個網(wǎng)站允許所有爬蟲無限制的爬取其內(nèi)容。

Robots協(xié)議基本語法:

User-agent:*

Disallow:/

注釋: ? * 代表所有,/ ?代表根目錄

案例:京東的Robots協(xié)議

https://www.jd.com/robots.txt

http://www.baidu.com/robots.txt ? ? ? ? ? 百度

http://news.sina.com.cn/robots.txt ? ? ? ?新浪新聞

http://www.qq.com/robots.txt ? ? ? ? ? ? ? ?qq

http://news.qq.com.cn/robots.txt ? ? ? ? ? qq新聞

http://www.moe.edu.cn/robots.txt(無robots協(xié)議) ? ? ? ? 我國教育部的網(wǎng)站

2-3 Robots協(xié)議的遵守方式

robots協(xié)議的使用

網(wǎng)絡爬蟲:自動或人工識別robots.txt,再進行內(nèi)容爬取。

約束性:Robots協(xié)議是建議但非約束性,網(wǎng)絡爬蟲可以不遵守,但存在法律風險。

TIPS.類人行為可以不參考Robots協(xié)議

單元3:Requests庫網(wǎng)絡爬蟲實戰(zhàn)(5個實例)

3-1 實例1:京東商品頁面的爬取

STEP1.打開京東頁面,選取一款商品。比如:https://item.jd.com/4939144.html

通過寫程序,獲得該商品的相關(guān)信息。

STEP2. ? 全代碼

3-2 實例2:亞馬遜商品頁面的爬取

對于一些保護的比較好的網(wǎng)站,通過模擬瀏覽器,發(fā)起請求。

3-3 實例3:百度/360搜索關(guān)鍵詞提交

搜索引擎關(guān)鍵詞提交接口:

百度的關(guān)鍵詞接口: ?http://www.baidu.com/s?wd=keyword

360的關(guān)鍵詞接口: ?http://www.so.com/s?q=keyword

在這兩個接口中,只要我們替換keyword就可以向搜索引擎提交關(guān)鍵詞,構(gòu)造這樣的url就可以實現(xiàn)關(guān)鍵詞的提取。

3-4 實例4:網(wǎng)絡圖片的爬取和存儲

網(wǎng)絡圖片的爬取

網(wǎng)絡圖片鏈接的格式:

http://www.example.com/picture.jpg

國家地理:http://www.nationalgeographic.com.cn/

選擇一個圖片Web頁面:http://www.nationalgeographic.com.cn/photography/photo_of_the_day/4082.html ? 右鍵圖片屬性

http://image.nationalgeographic.com.cn/2017/0509/20170509021454807.jpg

3-5 實例5:IP地址歸屬地的自動查詢

IP138網(wǎng)站 http://www.ip138.com/

http://m.ip138.com/ip.asp?ip=ipaddress? 例如:202.204.80.112 北京理工大學網(wǎng)站

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的python网络爬虫与信息提取北京理工大学_Python网络爬虫与信息提取(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。