日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

android bilibili弹幕技术解析,bilibili弹幕爬取与比对分析

發(fā)布時間:2023/12/20 编程问答 62 豆豆
生活随笔 收集整理的這篇文章主要介紹了 android bilibili弹幕技术解析,bilibili弹幕爬取与比对分析 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

最近受人之托研究了下b站的數(shù)據(jù)爬取做個小工具,最后朋友說不需要了,本著開源共享的原則,將研究成果與大家分享一波,話不多說直接上干貨

需求分析

給定up主uid和用戶uid,爬取用戶在該up主所有視頻中發(fā)的所有彈幕

需求拆解

獲取up主所有視頻

打開b站,隨便搜索一個up主,打開所有視頻頁面,f12看異步請求就一目了然了

接口地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

直接通過GET請求訪問,該接口限制pagesize為100,數(shù)目超過就會返回錯誤,但是該接口會返回一個總數(shù)與頁數(shù),所以我們首先請求一次,獲取相關(guān)參數(shù)再分批次請求,獲取到數(shù)據(jù)后對vlist進行json數(shù)據(jù)解析就可以,我們主要獲取的是aid,也就是av號

?

獲取視頻所有彈幕

使用firefox瀏覽器打開視頻,f12后搜索list.so請求會發(fā)現(xiàn)彈幕xml文件,同樣也是GET請求

接口地址:https://api.bilibili.com/x/v1/dm/list.so?oid=112062851 ?http://comment.bilibili.com/{cid}..xml

但是在百度的過程中發(fā)現(xiàn)了一個直接讀取xml文件的地址,更加方便

接口地址:http://comment.bilibili.com/{cid}.xml

這個cid就是彈幕xml的文件編號,通過分析異步請求,發(fā)現(xiàn)了返回這個cid的返回接口

接口地址:https://api.bilibili.com/x/player/pagelist?aid=視頻av號&jsonp=jsonp

?

需要注意的是返回的是一個數(shù)組,這說明如果視頻彈幕過多的話可能有多個xml文件,我們需要遍歷獲取

彈幕xml文件分析

文件格式內(nèi)容如下所示

?

可以看到里面d標簽的文字內(nèi)容就是發(fā)送的彈幕,但是我們還需要對彈幕的發(fā)送者與我們給定的用戶進行對比,所以需要對d標簽的屬性p進行分析,p屬性使用逗號隔開的一系列數(shù)據(jù),其中各個參數(shù)屬性如下

123123

我們只需要獲取里面的第7個參數(shù)用戶的唯一標識即可

難點分析

用戶id轉(zhuǎn)換

在彈幕xml文件中獲取的用戶標識是用戶uid經(jīng)過hash后的編碼,所以我們需要進行轉(zhuǎn)換后才能對比校驗,經(jīng)過使用在線hash網(wǎng)站中的一個個hash函數(shù)嘗試比對,發(fā)現(xiàn)hash算法為crc32b,crc32是一個常見算法,用于文件校驗,但是crc32b百度了一圈也搜索不到是個啥東西,無奈出國google了一下,crc32b只是將crc32算法加密后的結(jié)果轉(zhuǎn)換成了16進制,下面提供c#實現(xiàn)的功能函數(shù)

///

///CRC32校驗算法///

protected static ulong[] Crc32Table;//生成CRC32碼表

public static voidGetCRC32Table()

{ulongCrc;

Crc32Table= new ulong[256];inti, j;for (i = 0; i < 256; i++)

{

Crc= (ulong)i;for (j = 8; j > 0; j--)

{if ((Crc & 1) == 1)

Crc= (Crc >> 1) ^ 0xEDB88320;elseCrc>>= 1;

}

Crc32Table[i]=Crc;

}

}//獲取字符串的CRC32校驗值

public static ulong GetCRC32Str(stringsInputString)

{//生成碼表

GetCRC32Table();byte[] buffer = System.Text.ASCIIEncoding.ASCII.GetBytes(sInputString); ulong value = 0xffffffff;int len =buffer.Length;for (int i = 0; i < len; i++)

{

value= (value >> 8) ^ Crc32Table[(value & 0xFF) ^buffer[i]];

}return value ^ 0xffffffff;

}public static string GetCRC32bStr(stringsInputString)

{return GetCRC32Str(sInputString).ToString("x");

}

通過代碼GET請求保存xml文件

在保存xml文件的過程中發(fā)現(xiàn)輸出流轉(zhuǎn)為文字永遠是亂碼,經(jīng)過查看請求網(wǎng)頁中header中的值,發(fā)現(xiàn)返回的xml數(shù)據(jù)流是壓縮格式的

?

所以我們對GET請求的方法進行了一些設(shè)置,首先Accept-Encoding需要與真正的訪問請求保持一致,然后設(shè)置自動解壓,下面提供c#示例

public static String HttpGet_BiliBiliXmlFile(stringUrl)

{

HttpWebRequest request=(HttpWebRequest)WebRequest.Create(Url);

request.Method= "GET";

request.ContentType= "text/html;charset=UTF-8";

request.Headers[HttpRequestHeader.AcceptEncoding]= "gzip, deflate, br";

request.Headers[HttpRequestHeader.AcceptLanguage]= "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2";//自動解壓

request.AutomaticDecompression = DecompressionMethods.GZip |DecompressionMethods.Deflate;

HttpWebResponse response=(HttpWebResponse)request.GetResponse();

Stream myResponseStream=response.GetResponseStream();

StreamReader myStreamReader= newStreamReader(myResponseStream, Encoding.UTF8);string retString =myStreamReader.ReadToEnd();

myStreamReader.Close();

myResponseStream.Close();returnretString;

}

功能到這里就全部分析完畢了,最后打個廣告,自己寫的ASP.NET MVC快速開發(fā)框架,希望支持一波

地址:https://gitee.com/grassprogramming/FastExecutor

原文出處:https://www.cnblogs.com/yanpeng19940119/p/11415457.html

來源:oschina

鏈接:https://my.oschina.net/u/4277474/blog/3255028

總結(jié)

以上是生活随笔為你收集整理的android bilibili弹幕技术解析,bilibili弹幕爬取与比对分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。