日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python爬虫微博24小时热搜_GitHub - Writeup007/weibo_Hot_Search: 微博爬虫:每天定时爬取微博热搜榜的内容,留下互联网人的记忆。...

發(fā)布時(shí)間:2023/12/10 python 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫微博24小时热搜_GitHub - Writeup007/weibo_Hot_Search: 微博爬虫:每天定时爬取微博热搜榜的内容,留下互联网人的记忆。... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Weibo_Hot_Search

都說互聯(lián)網(wǎng)人的記憶只有七秒鐘,可我卻想記錄下這七秒鐘的記憶。

項(xiàng)目已部署在服務(wù)器,會(huì)在每天的上午 11 點(diǎn)和晚上11 點(diǎn)定時(shí)爬取微博的熱搜榜內(nèi)容,保存為 Markdown 文件格式,然后上傳備份到 GitHub 你可以隨意下載查看。

不要問我為什么選擇 11 這兩個(gè)時(shí)間點(diǎn),因?yàn)閭€(gè)人總感覺這兩個(gè)時(shí)間點(diǎn)左右會(huì)有大事件發(fā)生。

不管微博熱搜上是家事國事天下事,亦或是娛樂八卦是非事,我只是想忠實(shí)的記錄下來...

運(yùn)行環(huán)境

Python 3.0 +

pip install requests

pip install lxml

pip install bs4

或者執(zhí)行

pip install -r requirements.txt

進(jìn)行安裝運(yùn)行所需的環(huán)境

運(yùn)行

請確保你已準(zhǔn)備好所需的運(yùn)行環(huán)境

運(yùn)行方法(任選一種)

在倉庫目錄下運(yùn)行 weibo_Hot_Search_bs4.py(新增) 或 weibo_Hot_Search.py

在cmd中執(zhí)行 python weibo_Hot_Search_bs4.py(新增) 或 python weibo_Hot_Search.py

自動(dòng)運(yùn)行:利用 Windows 或 Linux 的任務(wù)計(jì)劃程序?qū)崿F(xiàn)即可

scrapy版本運(yùn)行

項(xiàng)目的結(jié)構(gòu)如下

>├── hotweibo

│?? ├── __init__.py

│?? ├── items.py

│?? ├── middlewares.py

│?? ├── pipelines.py

│?? ├── __pycache__

│?? │?? ├── __init__.cpython-38.pyc

│?? │?? ├── items.cpython-38.pyc

│?? │?? ├── pipelines.cpython-38.pyc

│?? │?? └── settings.cpython-38.pyc

│?? ├── settings.py

│?? ├── spiders

│?? │?? ├── hot.py

│?? │?? ├── __init__.py

│?? │?? └── __pycache__

│?? │?? ├── hot.cpython-38.pyc

│?? │?? └── __init__.cpython-38.pyc

│?? └── TimedTask.py # 可以運(yùn)行此文件直接啟動(dòng)爬蟲

└── scrapy.cfg

請確保準(zhǔn)備好 MongoDB 環(huán)境和 Scrapy 環(huán)境

推薦使用 Docker 安裝 MongoDB

數(shù)據(jù)庫和集合不需要預(yù)先創(chuàng)建

TimedTask.py 用于執(zhí)行定時(shí)爬取,默認(rèn)為每分鐘爬取一次

在linux下可以在TimedTask腳本所在目錄執(zhí)行

nohup python Timer.py >/dev/null 2>&1 &

具體用法可參考這里

生成文件

運(yùn)行結(jié)束后會(huì)在當(dāng)前文件夾下生成以時(shí)間命名的文件夾,如下:

2019年11月08日

并且會(huì)生成以具體小時(shí)為單位的具體時(shí)間命名的 Markdown 文件,如下:

2019年11月08日23點(diǎn).md

接口來源

更新日志

2020年08月08日:

1.將原有保存的 Markdown 文件數(shù)據(jù)進(jìn)行整理,保存至新開倉庫 weibo_Hot_Search_Data 此倉庫以后用作代碼更新及保存,不再在此存放數(shù)據(jù)內(nèi)容。

聲明

本項(xiàng)目的所有數(shù)據(jù)來源均來自 新浪微博 數(shù)據(jù)內(nèi)容及其解釋權(quán)歸新浪微博所有。

License

GNU General Public License v3.0

總結(jié)

以上是生活随笔為你收集整理的python爬虫微博24小时热搜_GitHub - Writeup007/weibo_Hot_Search: 微博爬虫:每天定时爬取微博热搜榜的内容,留下互联网人的记忆。...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。