日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python爬虫bilibili_Python爬虫 bilibili视频弹幕提取过程详解

發(fā)布時間:2025/3/12 python 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫bilibili_Python爬虫 bilibili视频弹幕提取过程详解 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

兩個重要點

1.獲取彈幕的url是以 .xml 結(jié)尾

2.彈幕url的所需參數(shù)在視頻url響應(yīng)的 javascript 中

先看代碼

import requests

from lxml import etree

import re

# 使用手機(jī)UA

headers = {

"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"

}

# 視頻url

video_url = "https://m.bilibili.com/video/av37834086.html"

html = requests.get(url=video_url, headers=headers).content.decode('utf-8')

# 獲取彈幕url的參數(shù)

cid = re.findall(r"comment: '//comment.bilibili.com/' \+ (.*?) \+ '.xml',", html)

url = "https://comment.bilibili.com/" + cid[0] + ".xml"

print(url)

response = requests.get(url, headers=headers)

html = response.content

xml = etree.HTML(html)

# 提取數(shù)據(jù)

str_list = xml.xpath("//d/text()")

# 寫入文件

with open('bibi_xuxubaobao.txt', 'w', encoding='utf-8') as f:

for line in str_list:

f.write(line)

f.write('\n')

先找到彈幕的url,以.xml結(jié)尾,所以先找到這串?dāng)?shù)字所在的位置,并獲取這串?dāng)?shù)字發(fā)起第二次請求

而這串?dāng)?shù)字就在 第一次請求的響應(yīng)的JavaScript中,可以通過 re 正則表達(dá)式進(jìn)行提取

接下來的工作就是獲取彈幕url返回的所有彈幕數(shù)據(jù),然后對響應(yīng)進(jìn)行數(shù)據(jù)處理。

代碼示例中使用的是 lxml 進(jìn)行獲取。接著就是保存到個人本地文件中了

以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持我們。

本文標(biāo)題: Python爬蟲 bilibili視頻彈幕提取過程詳解

本文地址: http://www.cppcns.com/jiaoben/python/267226.html

總結(jié)

以上是生活随笔為你收集整理的python爬虫bilibili_Python爬虫 bilibili视频弹幕提取过程详解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。