當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

利用爬虫大量抓取网页图片

發布時間：2023/12/10 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了利用爬虫大量抓取网页图片小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

#第一次學習爬蟲后，自己編碼抓取圖片

##下面介紹一下主要過程

先打開某一你想要抓取圖片的網頁，我這里以‘https://www.quanjing.com/creative/topic/29’ 為例|

url = 'https://www.quanjing.com/creative/topic/29'

2.然后讀取網頁的源代碼，我們在源代碼里面可以找到我們要爬取的圖片所對應的鏈接|
這里可能會有人文，網頁源代碼在哪？
答：右鍵就可以找到網頁源代碼啦，或者直接F12

html = urllib.request.urlopen(url).read().decode('utf-8')

運行以后，我們可以看到成功抓取了鏈接，并且都是以列表的形式抓下來的：

3.下面要用到urllib.request.urlretrieve（url，‘目標地址’）
我們要從相應的鏈接下載圖片，必須先把上面得到的字符串形式轉換成不帶“”的鏈接

html1 = i.replace('"','')``4.批量下載到本地```pythonfor i in page_list:html1 = i.replace('"','')print(html1)global xurllib.request.urlretrieve(html1, 'image\%s.jpg' % x)x+=1

這里保存到py文件對應的目錄image文件下

5.下面分享我的完整代碼

import urllib.request import re import xlwt#創建excel表格庫 from urllib.request import urlretrievex= 0 def getdate():url = 'https://www.quanjing.com/creative/topic/29'html = urllib.request.urlopen(url).read().decode('utf-8')page_list = re.findall('<img src=(.*?) /',html)print(page_list)for i in page_list:html1 = i.replace('"','')print(html1)global xurllib.request.urlretrieve(html1, 'image\%s.jpg' % x)x+=1getdate()

總結

以上是生活随笔為你收集整理的利用爬虫大量抓取网页图片的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： [密码学基础][每个信息安全博士生应该知
下一篇： Oracle按用户进行统计信息更新