日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

豆瓣读书TOP250书籍信息爬虫脚本

發布時間:2023/12/16 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 豆瓣读书TOP250书籍信息爬虫脚本 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • 一、程序說明
    • 二、程序源碼
    • 三、執行結果截圖


一、程序說明

本程序可用于爬取豆瓣讀書的書籍信息,包括書名、出版社、作者、出版時間及精選評論等。使用時只需修改path參數對應的目錄,該路徑是用于將爬取結果保存在本地的txt文件中。


二、程序源碼

import requests from bs4 import BeautifulSoup from time import sleepheaders={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36' } path=r"G:\python_practice\1118\book_infos.txt"def get_one_page(url):res=requests.get(url=url,headers=headers)soup=BeautifulSoup(res.text,'html.parser')#將書名所在的a標簽提取出來,存在一個列表里book_name_tags=soup.select('div.pl2 > a')#將書籍其他的信息提取出來,放在一個列表里book_info_tags=soup.select('p.pl')book_comments=soup.select('span.inq')with open(path,'a',encoding='utf-8') as file:for i in range(len(book_name_tags)):print(f'正在提取{url}中的書籍信息。。。')book_name=book_name_tags[i]['title']book_url=book_name_tags[i]['href']book_info_list=book_info_tags[i].text.split('/')book_publisher=book_info_list[-3].strip()book_author=book_info_list[0].strip()try:book_comment=book_comments[i].text.strip()except:book_comment='無'book_published_time=book_info_list[-2]file.write('\n')text=f'書名:《{book_name}》\n鏈接:{book_url}\n出版社:{book_publisher}\n出版時間:{book_published_time}\n精選評論:{book_comment}\n'file.write(text)def run():for i in range(10):number=i*25url=f'https://book.douban.com/top250?start={number}'get_one_page(url)sleep(0.5)run() print('執行完畢!')

三、執行結果截圖

總結

以上是生活随笔為你收集整理的豆瓣读书TOP250书籍信息爬虫脚本的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。