日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python爬取今日头条的文章_Python3爬取今日头条有关《人民的名义》文章

發布時間:2024/7/23 python 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬取今日头条的文章_Python3爬取今日头条有关《人民的名义》文章 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python3爬取今日頭條有關《人民的名義》文章

最近一直在看Python的基礎語法知識,五一假期手癢癢想練練,正好《人民的名義》剛結束,于是決定扒一下頭條上面的人名的名義文章,試試技術同時可以集中看一下大家的腦洞也是極好的。

首先,我們先打開頭條的網頁版,在右上角搜索框輸入關鍵詞,通過chrome調試工具,我們定位到頭條的search欄調用的的API為:

http://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E4%BA%BA%E6%B0%91%E7%9A%84%E5%90%8D%E4%B9%89&autoload=true&count=20&cur_tab=1

其返回的數據是標準的json,所有的相關文章鏈接在data中,key值為article_url,好準備工作完成,我們開始動手coding。

首先,我們構造頭條必要的search條件:

query_data = {

‘offset‘: offset,

‘format‘: ‘json‘,

‘keyword‘: ‘人民的名義‘,

‘autoload‘: ‘true‘,

‘count‘: 20, # 每次返回 20 篇文章

‘cur_tab‘: 1

}

當然,我們除了search參數之外,還需要必要的header頭信息,仔細查看之后我們可以看到,

我們只選取其中必要的信息,不放cookie;

然后是編碼查詢條件

其中_get_query_string方法將query_data編碼;

拿到article_req之后解析獲取當前搜索結果的所有文章鏈接,實現如下:

獲取到文章鏈接之后,我們打開每一個url進行解析。

此處,我們簡單地對article_content進行解析,取出文章標題、內容和圖片。

解析完成之后,我們將內容保存到mongo中,方便后續的取數分析。

然后我們運行一下程序,

運行程序的時候我們發現,通過search來搜索最后得到的文章數量有限,只有幾十篇文章,估計是頭條的限制。

下一篇我們將介紹如何通過一篇文章和相關推薦進行鏈式爬取所有的關聯推薦文章。

總結

以上是生活随笔為你收集整理的python爬取今日头条的文章_Python3爬取今日头条有关《人民的名义》文章的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。