當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python爬虫bilibili_Python爬虫 bilibili视频弹幕提取过程详解

發(fā)布時間：2025/3/12 python 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫bilibili_Python爬虫 bilibili视频弹幕提取过程详解小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

兩個重要點

1.獲取彈幕的url是以 .xml 結(jié)尾

2.彈幕url的所需參數(shù)在視頻url響應(yīng)的 javascript 中

先看代碼

import requests

from lxml import etree

import re

# 使用手機(jī)UA

headers = {

"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"

}

# 視頻url

video_url = "https://m.bilibili.com/video/av37834086.html"

html = requests.get(url=video_url, headers=headers).content.decode('utf-8')

# 獲取彈幕url的參數(shù)

cid = re.findall(r"comment: '//comment.bilibili.com/' \+ (.*?) \+ '.xml',", html)

url = "https://comment.bilibili.com/" + cid[0] + ".xml"

print(url)

response = requests.get(url, headers=headers)

html = response.content

xml = etree.HTML(html)

# 提取數(shù)據(jù)

str_list = xml.xpath("//d/text()")

# 寫入文件

with open('bibi_xuxubaobao.txt', 'w', encoding='utf-8') as f:

for line in str_list:

f.write(line)

f.write('\n')

先找到彈幕的url，以.xml結(jié)尾，所以先找到這串?dāng)?shù)字所在的位置，并獲取這串?dāng)?shù)字發(fā)起第二次請求

而這串?dāng)?shù)字就在第一次請求的響應(yīng)的JavaScript中，可以通過 re 正則表達(dá)式進(jìn)行提取

接下來的工作就是獲取彈幕url返回的所有彈幕數(shù)據(jù)，然后對響應(yīng)進(jìn)行數(shù)據(jù)處理。

代碼示例中使用的是 lxml 進(jìn)行獲取。接著就是保存到個人本地文件中了

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持我們。

本文標(biāo)題: Python爬蟲 bilibili視頻彈幕提取過程詳解

本文地址: http://www.cppcns.com/jiaoben/python/267226.html

總結(jié)

以上是生活随笔為你收集整理的python爬虫bilibili_Python爬虫 bilibili视频弹幕提取过程详解的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： vc udp 广播接收和发送_UDP编程
下一篇： websocket python爬虫_p