python爬虫微博24小时热搜_GitHub - Writeup007/weibo_Hot_Search: 微博爬虫:每天定时爬取微博热搜榜的内容,留下互联网人的记忆。...
Weibo_Hot_Search
都說互聯(lián)網(wǎng)人的記憶只有七秒鐘,可我卻想記錄下這七秒鐘的記憶。
項(xiàng)目已部署在服務(wù)器,會(huì)在每天的上午 11 點(diǎn)和晚上11 點(diǎn)定時(shí)爬取微博的熱搜榜內(nèi)容,保存為 Markdown 文件格式,然后上傳備份到 GitHub 你可以隨意下載查看。
不要問我為什么選擇 11 這兩個(gè)時(shí)間點(diǎn),因?yàn)閭€(gè)人總感覺這兩個(gè)時(shí)間點(diǎn)左右會(huì)有大事件發(fā)生。
不管微博熱搜上是家事國事天下事,亦或是娛樂八卦是非事,我只是想忠實(shí)的記錄下來...
運(yùn)行環(huán)境
Python 3.0 +
pip install requests
pip install lxml
pip install bs4
或者執(zhí)行
pip install -r requirements.txt
進(jìn)行安裝運(yùn)行所需的環(huán)境
運(yùn)行
請確保你已準(zhǔn)備好所需的運(yùn)行環(huán)境
運(yùn)行方法(任選一種)
在倉庫目錄下運(yùn)行 weibo_Hot_Search_bs4.py(新增) 或 weibo_Hot_Search.py
在cmd中執(zhí)行 python weibo_Hot_Search_bs4.py(新增) 或 python weibo_Hot_Search.py
自動(dòng)運(yùn)行:利用 Windows 或 Linux 的任務(wù)計(jì)劃程序?qū)崿F(xiàn)即可
scrapy版本運(yùn)行
項(xiàng)目的結(jié)構(gòu)如下
>├── hotweibo
│?? ├── __init__.py
│?? ├── items.py
│?? ├── middlewares.py
│?? ├── pipelines.py
│?? ├── __pycache__
│?? │?? ├── __init__.cpython-38.pyc
│?? │?? ├── items.cpython-38.pyc
│?? │?? ├── pipelines.cpython-38.pyc
│?? │?? └── settings.cpython-38.pyc
│?? ├── settings.py
│?? ├── spiders
│?? │?? ├── hot.py
│?? │?? ├── __init__.py
│?? │?? └── __pycache__
│?? │?? ├── hot.cpython-38.pyc
│?? │?? └── __init__.cpython-38.pyc
│?? └── TimedTask.py # 可以運(yùn)行此文件直接啟動(dòng)爬蟲
└── scrapy.cfg
請確保準(zhǔn)備好 MongoDB 環(huán)境和 Scrapy 環(huán)境
推薦使用 Docker 安裝 MongoDB
數(shù)據(jù)庫和集合不需要預(yù)先創(chuàng)建
TimedTask.py 用于執(zhí)行定時(shí)爬取,默認(rèn)為每分鐘爬取一次
在linux下可以在TimedTask腳本所在目錄執(zhí)行
nohup python Timer.py >/dev/null 2>&1 &
具體用法可參考這里
生成文件
運(yùn)行結(jié)束后會(huì)在當(dāng)前文件夾下生成以時(shí)間命名的文件夾,如下:
2019年11月08日
并且會(huì)生成以具體小時(shí)為單位的具體時(shí)間命名的 Markdown 文件,如下:
2019年11月08日23點(diǎn).md
接口來源
更新日志
2020年08月08日:
1.將原有保存的 Markdown 文件數(shù)據(jù)進(jìn)行整理,保存至新開倉庫 weibo_Hot_Search_Data 此倉庫以后用作代碼更新及保存,不再在此存放數(shù)據(jù)內(nèi)容。
聲明
本項(xiàng)目的所有數(shù)據(jù)來源均來自 新浪微博 數(shù)據(jù)內(nèi)容及其解釋權(quán)歸新浪微博所有。
License
GNU General Public License v3.0
總結(jié)
以上是生活随笔為你收集整理的python爬虫微博24小时热搜_GitHub - Writeup007/weibo_Hot_Search: 微博爬虫:每天定时爬取微博热搜榜的内容,留下互联网人的记忆。...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 盘点2020 最烂密码大曝光,第一名的竟
- 下一篇: python整数序列求和_Python从