日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python爬取百度贴吧xpath_爬虫基础系列xpath实战——爬取百度贴吧图片(3)

發布時間:2024/10/6 python 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬取百度贴吧xpath_爬虫基础系列xpath实战——爬取百度贴吧图片(3) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

8586231_192932724000_2.jpg

#百度貼吧圖片爬蟲

# 爬取步驟:1.基礎設置,2.構造url,3.爬取頁面,4.解析頁面,5.保存頁面

# 采取urllib爬取

#引入必要的包

import urllib

import urllib.request

from lxml import etree

#定義一個類存入必要的基礎數據

class Spider():

def __init__(self):

self.beginpage=1

self.endpage=3

self.tiebaname='java'

self.url="http://tieba.baidu.com/f?"

self.headers={"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}

self.filename=1

#定義構造url的函數

def tiebaSpider(self):#駝峰命名法

for i in range(self.beginpage,self.endpage+1):

#分析網頁

#第二頁http://tieba.baidu.com/f?kw=java&ie=utf-8&pn=50

#第三頁http://tieba.baidu.com/f?kw=java&ie=utf-8&pn=100

#構造get請求參數

pn=(i-1)*50

wd={'pn':pn , 'kw':self.tiebaname}

word=urllib.parse.urlencode(wd)

#拼接完整的url

urll=self.url+word

#調用爬取頁面函數

self.loadPage(urll)

#定義爬取頁面url

def loadPage(self,url):

response=urllib.request.Request(url,headers=self.headers)

data=urllib.request.urlopen(response).read()#返回2進制形式的頁面信息

# print(data)

#用xpath前期處理出鏈接信息拼接帖子的地址

html=etree.HTML(data)

#

#

# 剛來公司跟不上啊,怎么辦呢,又沒有大佬分享一下經驗

links=html.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href')

for link in links:

# print(link)

#拼接url

link="http://tieba.baidu.com"+link

# 調用解析頁面函數

self.loadImage(link)

#定義圖片解析鏈接的函數

def loadImage(self,link):

req=urllib.request.Request(link,headers=self.headers)

data1=urllib.request.urlopen(req).read()

html=etree.HTML(data1)

#用xpath表達式解析出圖片

#其中一個圖片的網頁信息

#

imagelinks=html.xpath('//img[@class="BDE_Image"]/@src')

for imagelink in imagelinks:

#調用保存圖片函數,將解析出的圖片存入本地

self.writeImage(imagelink)

def writeImage(self,imagelink):

print("正在保存圖片",self.filename,"-------------------")

image=urllib.request.urlopen(imagelink).read()

with open(r"E:\img\\"+str(self.filename)+".jpg","wb") as f:

f.write(image)

self.filename+=1

#最后調用執行整個代碼

if __name__=='__main__':

spider=Spider()

spider.tiebaSpider()

......

正在保存圖片 137 -------------------

正在保存圖片 138 -------------------

正在保存圖片 139 -------------------

正在保存圖片 140 -------------------

正在保存圖片 141 -------------------

正在保存圖片 142 -------------------

正在保存圖片 143 -------------------

......

總結

以上是生活随笔為你收集整理的python爬取百度贴吧xpath_爬虫基础系列xpath实战——爬取百度贴吧图片(3)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 99精品视频免费版的特色功能 | 日本精品一二区 | 国产乱xxⅹxx国语对白 | 视频二区 | av网站久久 | 亚洲情侣在线 | 久久午夜电影 | 亚洲欧美日韩精品在线观看 | 青青青手机视频在线观看 | 日韩精品手机在线 | 91香蕉嫩草 | 久久欧美视频 | 综合伊人av | 亚洲综合社区 | 韩国三色电费2024免费吗怎么看 | 欧美激情亚洲 | 日韩国产片 | 欧美精品一区二区三区四区五区 | 美女露胸无遮挡 | 久久九九国产视频 | 欧美另类xxx | 久久一| 日韩在线亚洲 | 美国黄色av | 岛国av在线播放 | 男生捅女生肌肌 | 久草视频在线资源站 | 国产麻豆91 | 亚洲综合大片69999 | 亚洲av无码一区二区三区性色 | 国产精品又黄又爽又色无遮挡 | 日本国产网站 | 五月天看片 | 日韩av不卡一区 | www.天天色| 亚洲爱色 | 日本熟妇一区二区三区四区 | 日韩夫妻性生活 | 精品久久二区 | 中国美女毛片 | 亚洲人在线| 亚洲精品小说 | 68日本xxxxxⅹxxx59 | 五月天天色 | 少女与动物高清版在线观看 | 精品久久久久久久久久久久久久久 | 日本在线一级片 | av一二三区 | av鲁丝一区鲁丝二区鲁丝 | 原创少妇半推半就88av | 少妇久久精品 | 欧美综合在线视频 | 天天爽夜夜爽视频 | 中文字幕无码av波多野吉衣 | 少妇偷人精品无码人妻 | 五月天婷婷伊人 | 国产香蕉视频在线 | 中国黄色一级毛片 | 欧美性生活一区二区 | 欧美手机在线视频 | 九九热中文字幕 | 久久精品麻豆 | 777黄色 | 亚洲第六页 | 男生尿隔着内裤呲出来视频 | 亚洲成人一区在线观看 | 国产成人一区在线观看 | 九草在线观看 | 欧美成人影音 | 国产在线a| 一级做a爰片久久毛片 | 日韩免费黄色片 | 先锋av资源在线 | 91成人在线看| 免费观看日韩av | 亚洲无限码 | 秋霞亚洲| 囯产精品久久久久久 | 久久人人艹 | 探花系列在线观看 | 91久久人澡人人添人人爽欧美 | 免费欧美一级视频 | 蜜桃精品噜噜噜成人av | 7777在线视频 | 97视频网址| 免费av一级 | 国产一区视频观看 | 激情在线观看视频 | 吸咬奶头狂揉60分钟视频 | 一区二区三区视频在线 | 男人的天堂免费 | 欧美性生活网 | 欧美亚洲一区二区三区四区 | 天天干夜夜看 | 日本免费黄色小视频 | 国产区精品 | 成人免费看片视频 | 40一50一60老女人毛片 | 欧美另类视频在线观看 |