python多线程爬取视频python多线程爬取图片
爬取時間2022/8/15
用于爬取的電腦配置:16內存,中端CPU12核.Windows系統
python版本3.8.5
省略了從主網頁一步步爬取鏈接挖掘到m3u8文件的過程,直接以能下載到視頻的m3u8文件開始.
注:>>>>多線程爬取視頻見代碼1
>>>>> os模塊合成視頻文件及其最大合成數見代碼2
代碼如下
代碼1--下載視頻
代碼2--用os合成ts和mp4文件
代碼1的運行結果
結果1--pycharm的顯示結果
結果2--文件管理器中的結果
代碼2的運行結果
結果1--文件管理器中的結果
結果2--最后合成的視頻-左(網站視頻)-右(爬取合成后的視頻)
----------------------------------------------
代碼1及其結果可以看到(及額外說明):
1>創建了40個線程數,
2>爬取3586個ts文件,大小為545M
3>共花費210秒的時間
4>爬取期間電腦CPU使用率一直維持在13%-18%左右,內存使用率無變化
用單程爬取這個視頻的話,需要整整兩個小時,(親測)
用異步協程爬取這個視頻的話,個人估計60-70秒左右.(親測用異步十秒不到就爬了700多ts文件,結果被網站屏蔽了)
----------------------------------------------
代碼2及其結果可以看到(及額外說明):
1>反復手動修改后的代碼,不想修改可以弄循環一次性解決
2>每次取650個ts文件合并,
3>合并成了第1-6個mp4文件,
4>最后再把1-6的MP4文件合并成最終的MP4文件.
5>再打開網站的視頻作對比,時長是一樣的,畫面也能做到同步,那么爬取正確
os模塊合成ts文件文件數量最大在650左右,(一次性取700個ts文件合并失敗)
網絡盛傳的最大數在450左右,只能說實踐出真知.東西是不斷在更新的.
----------------------------------------------
最后附上云盤的源代碼以及ts文件鏈接
代碼> ts文件>阿里云盤分享
----------------------------------------------
重點:
>>>>僅供個人學習,請于24小時內刪除. 如要觀看視頻,請支持正版.
>>>>悠著點爬,勿大流量爬取.
總結
以上是生活随笔為你收集整理的python多线程爬取视频python多线程爬取图片的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: css规则中区块block,CSS的命名
- 下一篇: DWR推送技术