當前位置：首頁 > 编程语言 > python >内容正文

python

python爬取今日头条的文章_Python3爬取今日头条有关《人民的名义》文章

發布時間：2024/7/23 python 37 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬取今日头条的文章_Python3爬取今日头条有关《人民的名义》文章小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python3爬取今日頭條有關《人民的名義》文章

最近一直在看Python的基礎語法知識，五一假期手癢癢想練練，正好《人民的名義》剛結束，于是決定扒一下頭條上面的人名的名義文章，試試技術同時可以集中看一下大家的腦洞也是極好的。

首先，我們先打開頭條的網頁版，在右上角搜索框輸入關鍵詞，通過chrome調試工具，我們定位到頭條的search欄調用的的API為：

http://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E4%BA%BA%E6%B0%91%E7%9A%84%E5%90%8D%E4%B9%89&autoload=true&count=20&cur_tab=1

其返回的數據是標準的json，所有的相關文章鏈接在data中，key值為article_url，好準備工作完成，我們開始動手coding。

首先，我們構造頭條必要的search條件：

query_data = {

‘offset‘: offset,

‘format‘: ‘json‘,

‘keyword‘: ‘人民的名義‘,

‘autoload‘: ‘true‘,

‘count‘: 20, # 每次返回 20 篇文章

‘cur_tab‘: 1

}

當然，我們除了search參數之外，還需要必要的header頭信息，仔細查看之后我們可以看到，

我們只選取其中必要的信息，不放cookie；

然后是編碼查詢條件

其中_get_query_string方法將query_data編碼；

拿到article_req之后解析獲取當前搜索結果的所有文章鏈接，實現如下：

獲取到文章鏈接之后，我們打開每一個url進行解析。

此處，我們簡單地對article_content進行解析，取出文章標題、內容和圖片。

解析完成之后，我們將內容保存到mongo中，方便后續的取數分析。

然后我們運行一下程序，

運行程序的時候我們發現，通過search來搜索最后得到的文章數量有限，只有幾十篇文章，估計是頭條的限制。

下一篇我們將介紹如何通過一篇文章和相關推薦進行鏈式爬取所有的關聯推薦文章。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。