當(dāng)前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

【python】秀人集-写真集-爬虫-1.0「建议收藏」(python详细安装教程)

發(fā)布時(shí)間：2023/12/15 综合教程 27 生活家

生活随笔收集整理的這篇文章主要介紹了【python】秀人集-写真集-爬虫-1.0「建议收藏」(python详细安装教程) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

最近沒有怎么關(guān)注圖集谷網(wǎng)站，結(jié)果今天打開看看，結(jié)果官方直接關(guān)服了，只留下需要付費(fèi)的圖集島網(wǎng)址

看到有人在我的文章下留言，這表示我的寫作方向是有一定的受眾的，這我就放心了。[吾心甚慰]

好的，長話短說。因?yàn)閳D集谷沒了，我就找了一個(gè)新的網(wǎng)站給大家學(xué)習(xí)——秀人集。

秀人集網(wǎng)址：www.xiurenb.com

下面是相關(guān)的代碼，供大家參考學(xué)習(xí)[壞笑]

# 導(dǎo)入庫
import time, os, requests
from lxml import etree

# 定義請(qǐng)求頭
headers = {
	'User-Agent':'Chrome 10.1'
	}

# 格式化列表
img_list = []
url_list = []

# 傳入數(shù)據(jù)
Page_Num = input('Enter the Organization and Page_Num:')
# 以u(píng)rl = 'https://www.xiurenb.com/MyGirl/6149'為例，這里需要傳入的數(shù)據(jù)就是'MyGirl/6149'

# 獲取寫真集每一頁的網(wǎng)址并寫入列表
url = 'https://www.xiurenb.com/' + str(Page_Num)
Num_res = requests.get(url=url + '.html', headers=headers)
Num_tree = etree.HTML(Num_res.text)
Num = len(Num_tree.xpath('/html/body/div[3]/div/div/div[4]/div/div/a'))
url_list.append(url)
for i in range(1, int(Num) - 2):
	url_other = url + '_' + str(i)
	url_list.append(url_other)

# 獲取每張圖片的url并寫入列表
for url in url_list:
	res = requests.get(url=url + '.html',headers=headers)
	tree = etree.HTML(res.text)
	img_src = tree.xpath('/html/body/div[3]/div/div/div[5]/p/img/@src')
	for img in img_src:
		img_list.append(img)
	time.sleep(0.5)

# 創(chuàng)建保存圖片的目錄
res = requests.get(url=url_list[0] + '.html',headers=headers)
res.encoding = 'utf-8'
tree = etree.HTML(res.text)
path_name = tree.xpath('/html/body/div[3]/div/div/div[1]/h1//text()')[0][11:]
print(path_name)
the_path_name = 'C:/Users/liu/Pictures/' + path_name
if not os.path.exists(the_path_name):
	os.mkdir(the_path_name)

# 獲取圖片并保存到指定目錄下
num = 0
for j in img_list:
	img_url = 'https://www.xiurenb.com' + j
	img_data = requests.get(url=img_url, headers=headers).content
	img_name = img_url.split('/')[-1]
	finish_num = str(num) + '/' + str(len(img_list))
	with open('C:/Users/liu/Pictures/' + path_name + '/' + img_name, 'wb') as f:
		print(f'Downloading the img:{img_name}     {finish_num}')
		f.write(img_data)
		f.close()
	num += 1
	time.sleep(0.5)

# 運(yùn)行成功提示
print('Finished!')

這只是這個(gè)網(wǎng)站的初版代碼，還有一些需要改進(jìn)的地方。比如，需要自己觀察url進(jìn)行傳入數(shù)據(jù)；一次只能獲取單個(gè)寫真集的全部圖片…

在之后的時(shí)間，我會(huì)不定時(shí)地對(duì)其進(jìn)行優(yōu)化改進(jìn)，大家可以關(guān)注一下。

大家的評(píng)論與點(diǎn)贊收藏是我寫作的動(dòng)力，希望大家多多支持。

總結(jié)

以上是生活随笔為你收集整理的【python】秀人集-写真集-爬虫-1.0「建议收藏」(python详细安装教程)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： vue中用的swiper轮播图的用法gi
下一篇：基于Amos路径分析的模型拟合参数详解[