新闻平台聚合之新浪新闻爬虫发布
idea of startproject
對于 web 開發者而言,目前各大新聞門戶網站,新浪新聞,百度新聞,騰訊新聞,澎湃新聞,頭條新聞并沒有提供穩定可用的 feed api。
對于 nlper,缺乏足夠的新聞語料數據集來供訓練。
對于新聞傳播/社會學/心理學等從業者,缺乏獲取新聞數據的簡單易用途徑來供分析。
如果上面三點是某見識所限,其實并不存在的話,第 4 點,則是某的私心,某以為互聯網的記憶太短了,熱搜一浪蓋過一浪,所以試圖定格互聯網新聞的某些瞬間,最后會以網站的形式發布出來。
project 的 Github:https://github.com/Python3Spiders/AllNewsSpider
繼承自 新聞平臺聚合之騰訊新聞爬蟲發布
,本篇是新聞系列的第三篇,以新浪新聞為目標網站
新浪新聞爬蟲
該爬蟲實現的主要功能羅列如下:
| recode_time | 該條新聞被抓取的時間 |
| news_title | 新聞標題 |
| news_summary | 新聞概括 |
| news_url | 新聞鏈接 |
| news_author | 新聞作者 |
| news_keywords | 新聞關鍵詞,以 ;分隔 |
| news_time | 新聞發布的時間 |
| news_content | 新聞具體內容 |
再說說如何使用(默認讀者均有 python3.6+ 環境)
將倉庫 sina 文件夾下的 sina_news_spider.pyd 文件下載到本地,新建項目,把 pyd 文件放進去
項目根目錄下新建 runner.py,寫入以下代碼即可運行并抓取
import sina_news_spider sina_news_spider.main()開始運行時會提示輸入爬取到哪一頁,默認是 20 頁
爬取結束了,會在當前目錄下生成一個 新浪新聞.xlsx文件,里面保持了四個 category 的所有網站上可瀏覽的文本新聞,一個 category 對應一個 sheet_name。
本系列預告
1、nytimes 紐約時報爬蟲
2、thetimes 泰晤士報爬蟲
閱讀原文即可直達該爬蟲的 Github 地址。
總結
以上是生活随笔為你收集整理的新闻平台聚合之新浪新闻爬虫发布的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MySQL数据库重点概要总结
- 下一篇: 【零散积累】传输文件(sz/rz/scp