日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

爬虫1_python2

發布時間:2023/12/18 python 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫1_python2 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
# -*- coding: UTF-8 -*- # python2爬蟲 import urllibf = urllib.urlopen("http://www.itcast.cn/") print f.readline() # 讀取html頁面的第一行 print f.read() # ,讀取源代碼,該網址源代碼為utf-8格式 # read(),readline(),readlines(),fileno(),close(),這些使用方法與文件對象完全一樣 print f.info() # 獲取網頁所在服務器的頭部信息 print f.getcode() # 獲取網頁狀態碼 print f.geturl() # 返回請求的url f.close() # 打開文件后,記得一定關閉防止內存沒有回收,后果不堪回想print urllib.urlopen('http://www.itcast.cn/23644657dafhgsg').getcode() # 網頁狀態碼 # 200正常訪問 301重定向 # 302臨時重定向(不常見) 404網頁不存在 403禁止訪問 500服務器忙,無響應,過會才行 # HTTP權威指南,專門介紹http協議,Web開發和服務器端開發方向必備url = 'http://www.163.com/' html = urllib.urlopen(url) # 打開網頁 print html.read().decode('gbk').encode('utf-8') # 該網址源代碼格式是gb2312,全部統一成gbk,然后再轉化為utf-8格式 print html.read().decode('gbk','ignore').encode('utf-8')#當一些小網站編碼混亂不規范時,可用'ignore'來幫助解決 # 總結 # urllib 簡單易用的抓取模塊 # urllib.urlopen()方法,獲得類文件對象 # read()讀取文件內容 # info()獲取網頁Header信息 # getcode()獲取網頁狀態碼 # geturl()獲取傳入的網址urlf = urllib.urlopen('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG') print f.getcode() # 查看是否能打開 print f.readline() # 圖片的內容看不懂 f.close() # urlretrieve方法將url定位到的html文件下載到你的本地硬盤中。如果不指定filename,則會存為臨時文件。 urllib.urlretrieve('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG', filename='D:\pachong\worm1.jpg') url = "http://www.itcast.cn/" urllib.urlretrieve(url, 'D:\\pachong\\download.txt') # 網頁抓取,下載網頁(也可以將txt格式轉成html) urllib.urlretrieve(url, 'D:\\pachong\\download.html')

  

轉載于:https://www.cnblogs.com/tianqizhi/p/8528033.html

總結

以上是生活随笔為你收集整理的爬虫1_python2的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。