豆瓣读书TOP250书籍信息爬虫脚本
生活随笔
收集整理的這篇文章主要介紹了
豆瓣读书TOP250书籍信息爬虫脚本
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 一、程序說明
- 二、程序源碼
- 三、執行結果截圖
一、程序說明
本程序可用于爬取豆瓣讀書的書籍信息,包括書名、出版社、作者、出版時間及精選評論等。使用時只需修改path參數對應的目錄,該路徑是用于將爬取結果保存在本地的txt文件中。
二、程序源碼
import requests from bs4 import BeautifulSoup from time import sleepheaders={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36' } path=r"G:\python_practice\1118\book_infos.txt"def get_one_page(url):res=requests.get(url=url,headers=headers)soup=BeautifulSoup(res.text,'html.parser')#將書名所在的a標簽提取出來,存在一個列表里book_name_tags=soup.select('div.pl2 > a')#將書籍其他的信息提取出來,放在一個列表里book_info_tags=soup.select('p.pl')book_comments=soup.select('span.inq')with open(path,'a',encoding='utf-8') as file:for i in range(len(book_name_tags)):print(f'正在提取{url}中的書籍信息。。。')book_name=book_name_tags[i]['title']book_url=book_name_tags[i]['href']book_info_list=book_info_tags[i].text.split('/')book_publisher=book_info_list[-3].strip()book_author=book_info_list[0].strip()try:book_comment=book_comments[i].text.strip()except:book_comment='無'book_published_time=book_info_list[-2]file.write('\n')text=f'書名:《{book_name}》\n鏈接:{book_url}\n出版社:{book_publisher}\n出版時間:{book_published_time}\n精選評論:{book_comment}\n'file.write(text)def run():for i in range(10):number=i*25url=f'https://book.douban.com/top250?start={number}'get_one_page(url)sleep(0.5)run() print('執行完畢!')三、執行結果截圖
總結
以上是生活随笔為你收集整理的豆瓣读书TOP250书籍信息爬虫脚本的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Mysql性能调优之max_allowe
- 下一篇: ios逆向工具tweak logos语法