當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

豆瓣读书TOP250书籍信息爬虫脚本

發布時間：2023/12/16 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了豆瓣读书TOP250书籍信息爬虫脚本小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

- 一、程序說明
- 二、程序源碼
- 三、執行結果截圖

一、程序說明

本程序可用于爬取豆瓣讀書的書籍信息，包括書名、出版社、作者、出版時間及精選評論等。使用時只需修改path參數對應的目錄，該路徑是用于將爬取結果保存在本地的txt文件中。

二、程序源碼

import requests from bs4 import BeautifulSoup from time import sleepheaders={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36' } path=r"G:\python_practice\1118\book_infos.txt"def get_one_page(url):res=requests.get(url=url,headers=headers)soup=BeautifulSoup(res.text,'html.parser')#將書名所在的a標簽提取出來，存在一個列表里book_name_tags=soup.select('div.pl2 > a')#將書籍其他的信息提取出來，放在一個列表里book_info_tags=soup.select('p.pl')book_comments=soup.select('span.inq')with open(path,'a',encoding='utf-8') as file:for i in range(len(book_name_tags)):print(f'正在提取{url}中的書籍信息。。。')book_name=book_name_tags[i]['title']book_url=book_name_tags[i]['href']book_info_list=book_info_tags[i].text.split('/')book_publisher=book_info_list[-3].strip()book_author=book_info_list[0].strip()try:book_comment=book_comments[i].text.strip()except:book_comment='無'book_published_time=book_info_list[-2]file.write('\n')text=f'書名:《{book_name}》\n鏈接：{book_url}\n出版社：{book_publisher}\n出版時間：{book_published_time}\n精選評論：{book_comment}\n'file.write(text)def run():for i in range(10):number=i*25url=f'https://book.douban.com/top250?start={number}'get_one_page(url)sleep(0.5)run() print('執行完畢!')

三、執行結果截圖

總結

以上是生活随笔為你收集整理的豆瓣读书TOP250书籍信息爬虫脚本的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Mysql性能调优之max_allowe
下一篇： ios逆向工具tweak logos语法