當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

新闻平台聚合之新浪新闻爬虫发布

發布時間：2023/12/20 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了新闻平台聚合之新浪新闻爬虫发布小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

對于 web 開發者而言，目前各大新聞門戶網站，新浪新聞，百度新聞，騰訊新聞，澎湃新聞，頭條新聞并沒有提供穩定可用的 feed api。

對于 nlper，缺乏足夠的新聞語料數據集來供訓練。

對于新聞傳播/社會學/心理學等從業者，缺乏獲取新聞數據的簡單易用途徑來供分析。

如果上面三點是某見識所限，其實并不存在的話，第 4 點，則是某的私心，某以為互聯網的記憶太短了，熱搜一浪蓋過一浪，所以試圖定格互聯網新聞的某些瞬間，最后會以網站的形式發布出來。

project 的 Github：https://github.com/Python3Spiders/AllNewsSpider

繼承自新聞平臺聚合之騰訊新聞爬蟲發布
，本篇是新聞系列的第三篇，以新浪新聞為目標網站

該爬蟲實現的主要功能羅列如下：

全自動爬取新浪新聞全站新聞內容，包括娛樂、軍事、科技、財經四大 category。

可以自定義輸入爬取的最大頁碼，默認是 20 頁

字段信息齊全，如下表格

字段名字段含義

再說說如何使用（默認讀者均有 python3.6+ 環境）

將倉庫 sina 文件夾下的 sina_news_spider.pyd 文件下載到本地，新建項目，把 pyd 文件放進去

項目根目錄下新建 runner.py，寫入以下代碼即可運行并抓取

import sina_news_spider sina_news_spider.main()

開始運行時會提示輸入爬取到哪一頁，默認是 20 頁

爬取結束了，會在當前目錄下生成一個新浪新聞.xlsx文件，里面保持了四個 category 的所有網站上可瀏覽的文本新聞，一個 category 對應一個 sheet_name。

1、nytimes 紐約時報爬蟲

2、thetimes 泰晤士報爬蟲

閱讀原文即可直達該爬蟲的 Github 地址。

以上是生活随笔為你收集整理的新闻平台聚合之新浪新闻爬虫发布的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。