日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

新闻平台聚合之新浪新闻爬虫发布

發布時間:2023/12/20 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 新闻平台聚合之新浪新闻爬虫发布 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

idea of startproject

  • 對于 web 開發者而言,目前各大新聞門戶網站,新浪新聞,百度新聞,騰訊新聞,澎湃新聞,頭條新聞并沒有提供穩定可用的 feed api。

  • 對于 nlper,缺乏足夠的新聞語料數據集來供訓練。

  • 對于新聞傳播/社會學/心理學等從業者,缺乏獲取新聞數據的簡單易用途徑來供分析。

  • 如果上面三點是某見識所限,其實并不存在的話,第 4 點,則是某的私心,某以為互聯網的記憶太短了,熱搜一浪蓋過一浪,所以試圖定格互聯網新聞的某些瞬間,最后會以網站的形式發布出來。

  • project 的 Github:https://github.com/Python3Spiders/AllNewsSpider

    繼承自 新聞平臺聚合之騰訊新聞爬蟲發布
    ,本篇是新聞系列的第三篇,以新浪新聞為目標網站

    新浪新聞爬蟲

    該爬蟲實現的主要功能羅列如下:

  • 全自動爬取新浪新聞全站新聞內容,包括 娛樂軍事科技財經 四大 category。
  • 可以自定義輸入爬取的最大頁碼,默認是 20
  • 字段信息齊全,如下表格
  • 字段名字段含義
    recode_time該條新聞被抓取的時間
    news_title新聞標題
    news_summary新聞概括
    news_url新聞鏈接
    news_author新聞作者
    news_keywords新聞關鍵詞,以 ;分隔
    news_time新聞發布的時間
    news_content新聞具體內容

    再說說如何使用(默認讀者均有 python3.6+ 環境)

  • 將倉庫 sina 文件夾下的 sina_news_spider.pyd 文件下載到本地,新建項目,把 pyd 文件放進去

  • 項目根目錄下新建 runner.py,寫入以下代碼即可運行并抓取

    import sina_news_spider sina_news_spider.main()
  • 開始運行時會提示輸入爬取到哪一頁,默認是 20 頁

    爬取結束了,會在當前目錄下生成一個 新浪新聞.xlsx文件,里面保持了四個 category 的所有網站上可瀏覽的文本新聞,一個 category 對應一個 sheet_name。

    本系列預告

    1、nytimes 紐約時報爬蟲

    2、thetimes 泰晤士報爬蟲

    閱讀原文即可直達該爬蟲的 Github 地址。

    總結

    以上是生活随笔為你收集整理的新闻平台聚合之新浪新闻爬虫发布的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。