日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

day 01 python爬虫原理

發布時間:2025/3/20 python 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 day 01 python爬虫原理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
# 今日內容:爬蟲原理
# 爬蟲課程:
# 實訓要求:
# 一 課下寫作業
# 二 編寫博客


# 一 爬蟲基本原理
# 1 什么是爬蟲
# 爬蟲就是爬數據
# 2 是什么互聯網
# 3 互聯網建立的目的
# 數據的傳遞與數據的共享
# 4 什么是數據
# 電商平臺的商品信息(淘寶,京東,亞馬遜)
# 鏈家,自如(租房平臺的房源信息)
# 股票證券投資信息(東方財富)
# 5 什么是上網
# 普通用戶:
# 打開瀏覽器--->輸入網址
# --->往目標主機發送請求
# 爬蟲三部曲
# 爬取校花視屏網
# 一 請求url
# 二 請求方式
# 三 請求頭信息
import requests
# 1,發送請求
def get_page(url):
response =requests.get(url)
return response

# 2,解析數據
import re
def parse_index(html):
# findall匹配所有
# re.findall('正則匹配規則','匹配文本','匹配模式')
# re.S(對全部文本進行搜索匹配)
detail_urls=re.findall('<div class="items"><a class="imglink" href="(.*?)"',html,re.S)
print(detail_urls)
# for detail_url in detail_urls:
# print(detail_url)
return detail_urls
# 解析詳情頁
def parse_detail(html):
movie_url=re.findall('<source src="(.*?)">',html,re.S)
print(movie_url)
# print(movie_url)
if movie_url:
return movie_url[0]
# 3,保存數據
# import uuid
# # uuid.uuid4()根據時間戳生成一段世界上唯一的字符串
# def save_video(content):
# with open(f'{uuid.uuid4()}.mp4','wb') as f:
# f.write(content)
# print('視頻下載完畢。。。請客人觀賞!!!')
# 測試用例
if __name__ == '__main__':
for line in range(6):
url = f'http://www.xiaohuar.com/List-3-{line}.html'

# 發送請求
response=get_page(url)
# print(response)
# 返回響應狀態碼
# print(response.status_code)
# 返回響應文本
# print(response.text)
# 解析主頁頁面
detail_urls=parse_index(response.text)
# 循環遍歷詳情頁 url
for detail_url in detail_urls:
# print(detail_url)
# 往每一個詳情頁發送請求
detail_res=get_page(detail_url)
# print(response.text)
# 解析詳情頁獲取視頻url
# print(detail_res)
movie_url=parse_detail(detail_res.text)
# 判斷視頻url存在則打印
if movie_url:
print(movie_url)
# 往視頻url發送請求獲取視頻二進制流
  movie_res=get_page(movie_url)
# 把視頻的二進制流傳給save——video的函數取保存到本地
save_video(movie_res.content)







# post請求自動登錄github
# 請求url
# https://github.com/session
# 請求方式
# post
# 請求頭
# Cookie
# 請求體
# commit: Sign in
# utf8: ?
# authenticity_token: <input type="hidden" name="authenticity_token" value="" />
# login: qweqwe
# password: qweqweqw
# webauthn-support: supported
# 1,訪問登陸頁面獲取token隨機字符串
# 請求url
# https://github.com/login
# 請求方式
# get
# 請求頭
# COOKIES
# Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36
# 2,解析并提取token字符串
# 正則
# <input type="hidden" name="authenticity_token" value="" />
import requests
import re
login_url='https://github.com/login'
# login頁面的請求頭信息
login_header={
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}
login_res=requests.get(url=login_url,headers=login_header)
# print(login_res.text)
# 解析提取token字符串
authenticity_token = re.findall(
'<input type="hidden" name="authenticity_token" value="(.*?)" />',
login_res.text,
re.S
)[0]
print(authenticity_token)
# 獲取login頁面的cookie信息
# print(type(login_res.cookies.get_dict()))
login_cookie=login_res.cookies.get_dict()
# session登錄url
session_url='https://github.com/session'
# 請求頭信息
session_header={
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}
# 請求體信息
form_data={
"commit": "Sign in",
"utf8": "?",
"authenticity_token":authenticity_token,
"login": "RuiZinb",
"password": "Pig,1574140397",
"webauthn-support": "supported"

}
session_res=requests.post(url=session_url,
headers=session_header,
cookies=login_cookie,
data=form_data
)
with open('github3.html','w',encoding='utf-8')as f:
f.write(session_res.text)

轉載于:https://www.cnblogs.com/RuiZi/p/11114023.html

總結

以上是生活随笔為你收集整理的day 01 python爬虫原理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 日本黄色一级 | 日韩欧美一区在线观看 | 国产地址 | 粉嫩一区 | 中文字幕 自拍偷拍 | 美女屁股网站 | 中文在线最新版天堂8 | 日韩电影在线观看中文字幕 | av啊啊| 亚洲一区二区自拍偷拍 | 一区二区三区四区在线视频 | av福利在线 | 精品国产一区二区视频 | 国产在线精 | 国产传媒视频在线 | 成人免费观看av | 午夜一区二区三区 | 成人免费在线 | 国产精品国产精品国产专区不卡 | 久久噜噜噜精品国产亚洲综合 | av免费入口 | 亚洲午夜网站 | 风流僵尸艳片a级 | 人妻互换一二三区激情视频 | 久久精品色 | 狠狠操在线播放 | 国产精品久久久久久久久免费 | 97香蕉碰碰人妻国产欧美 | 亚洲免费色 | 精品一区在线视频 | 999毛片| 亚洲人毛茸茸 | 欧美精选一区二区 | 7x7x7x人成影视 | 日日色av | 亚洲欧美日韩一区二区三区在线观看 | 18女人毛片 | 北条麻妃久久精品 | www.插插插| 抖音视频在线观看 | 亚洲精品 日韩无码 | www.xxx国产| 性欧美又大又长又硬 | 美女毛片在线 | 亚洲精品高清视频 | 色综合久久88色综合天天6 | 国产精品久久久久久久蜜臀 | 午夜影院久久久 | 久草免费在线色站 | 亚洲v欧美 | 美国黄色a级片 | 少妇特黄一区二区 | 国产在线国偷精品免费看 | 中文字幕天堂在线 | 欧美性在线视频 | 国产白拍 | 国产sm在线 | 亚洲一区二区视频在线观看 | 免费毛片视频网站 | 18久久| 亚洲国产精品久 | 天天艹天天 | 亚洲色图 一区二区 | 大香伊人中文字幕精品 | 真实的中国女人做爰 | 无码少妇一级AV片在线观看 | 欧美一级特黄视频 | 日韩美女一区二区三区 | 亚洲永久在线观看 | 黄色日比视频 | 国产精品刘玥久久一区 | 国产日韩欧美综合在线 | 潘金莲一级淫片a.aaaaa播放 | 日本护士体内she精2xxx | 谁有av网址 | 森泽佳奈作品在线观看 | 中文字幕第100页 | 国产精品一区二区三区四区 | 亚洲va天堂va国产va久 | 一区二区三区在线看 | jizz日本在线播放 | yy6080午夜 | 九色综合网 | 七月丁香婷婷 | 久久久久久蜜桃 | 精品国产一区二区三区久久久 | 福利网址在线 | 日本特级淫片 | 777久久久精品一区二区三区 | 日韩理论在线 | 今天最新中文字幕mv高清 | 久久精品4 | 91精品国产一区二区三区香蕉 | 日欧一级片| 黄色日批视频 | 美女黄18以下禁止观看 | 日日操日日摸 | 日韩一二在线 | 开心激情网五月天 |