當前位置：首頁 > 编程语言 > python >内容正文

python

python爬虫实现网页采集器

發布時間：2023/12/10 python 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫实现网页采集器小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

import requests #導入requests模塊 #UA：User-Agnet:請求載體身份標識 #UA檢測：各大門戶網站的服務器都會檢測請求載體的身份標識，如果請求載體的身份標識為某一款服務器， #則該請求為正常請求，如果請求載體的身份標識為某個爬蟲程序，則服務器很可能拒絕該請求 #UA偽裝：將爬蟲程序偽裝成某款瀏覽器 #指定URL #如果該python文件為入口程序，則執行if語句下的代碼 if __name__=="__main__":url='https://www.sogou.com/web'#進行UA偽裝，模擬瀏覽器，注意將User-Agent封裝在一個字典中headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2 '}#url攜帶參數，參數封裝在一個字典中word=input('enter a word:')params ={'query':word}#向服務器發起請求，url攜帶參數，并在請求過程中處理了參數response=requests.get(url=url,headers=headers,params=params)#獲取字符串形式的響應數據page_text=response.text#持久化存儲，寫入一個文件fileName=word+'.html'with open(fileName,'w',encoding='utf8') as fp:fp.write(page_text)print(fileName+'網頁采集成功！！！')

總結

以上是生活随笔為你收集整理的python爬虫实现网页采集器的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Javaweb maven项目tomca
下一篇： Python算法教程：强连通分量