日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

我是怎么扒光了豆瓣图书系列 1

發(fā)布時間:2024/3/26 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 我是怎么扒光了豆瓣图书系列 1 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

因為做畢業(yè)課設(shè), 想做一個 關(guān)于圖書的 智能客服機器人

但是, 要做圖書的客服機器人,就需要有數(shù)據(jù),所以,我選定了從豆瓣那里獲取數(shù)據(jù)

那么,第一步, 我是首先獲取所有的熱門 標簽

##使用selenium from selenium import webdriver import time from bs4 import BeautifulSoup from lxml import etree #browser = webdriver.Firefox()#browser.get("https://book.douban.com/tag") #print(browser.page_source) #soup = BeautifulSoup(browser.page_source, 'lxml') # 解析器:html.parser #####首先是獲取所有的類型 #daleixing=soup.find_all('a',class_=['tag-title-wrapper']) #xiaoleixing=soup.find_all('a',attrs={'href':True})#print(xiaoleixing)

得到所有的熱門標簽

xiao=['小說', '外國文學(xué)', '文學(xué)', '隨筆', '中國文學(xué)', '經(jīng)典','日本文學(xué)', '散文', '村上春樹', '詩歌', '童話', '兒童文學(xué)','古典文學(xué)', '名著', '王小波', '雜文', '余華', '張愛玲', '當(dāng)代文學(xué)', '錢鐘書', '外國名著','魯迅', '詩詞', '茨威格', '米蘭·昆德拉', '杜拉斯', '港臺','漫畫', '推理', '繪本', '青春','東野圭吾', '科幻', '懸疑', '言情', '奇幻', '武俠', '日本漫畫', '推理小說', '耽美', '韓寒','亦舒', '網(wǎng)絡(luò)小說', '三毛', '安妮寶貝', '科幻小說', '阿加莎·克里斯蒂', '金庸', '穿越', '郭敬明','輕小說', '青春文學(xué)', '魔幻', '幾米', '幾米', '張小嫻', 'J.K.羅琳', '古龍', '高木直子', '滄月', '校園','落落', '張悅?cè)?#39;,'歷史', '心理學(xué)', '哲學(xué)', '傳記', '社會學(xué)', '文化', '藝術(shù)', '社會', '設(shè)計', '政治', '建筑','宗教', '電影', '政治學(xué)', '數(shù)學(xué)', '中國歷史', '回憶錄', '思想', '國學(xué)', '人物傳記', '人文', '藝術(shù)史', '音樂', '繪畫','戲劇', '西方哲學(xué)', '二戰(zhàn)', '近代史', '軍事', '佛教', '考古', '自由主義', '美術(shù)','愛情', '成長', '旅行', '生活','心理', '勵志', '女性', '攝影', '教育', '職場', '美食', '游記', '靈修', '健康', '情感', '人際關(guān)系', '兩性', '手工','養(yǎng)生', '家居', '自助游','經(jīng)濟學(xué)', '管理', '經(jīng)濟', '商業(yè)', '金融', '投資', '營銷', '理財', '創(chuàng)業(yè)', '廣告', '股票', '企業(yè)史', '策劃','科普','互聯(lián)網(wǎng)', '編程', '科學(xué)', '交互設(shè)計', '用戶體驗', '算法', '科技', 'web', 'UE', '交互', '通信', 'UCD', '神經(jīng)網(wǎng)絡(luò)', '程序']

然后就是通過標簽, 去慢慢遍歷所有的網(wǎng)頁

from lxml import etree import requests import time ###獲取頁數(shù) def huoquyeshu(tage):liulanqi = requests.session()url='https://book.douban.com/tag/'+taged=liulanqi.get(url=url)ye = d.content.decode()yemian = etree.HTML(ye) # 格式化#//*[@id="subject_list"]/div[2]/a[10]###獲取頁面數(shù)yemianshu=yemian.xpath(r'//*[@id="subject_list"]/div[2]/a')if len(yemianshu)==0:return 1else:zuihouyige=yemianshu[-1]#print(zuihouyige)#print(zuihouyige.xpath(r'text()'))return int(zuihouyige.xpath(r'text()')[0]) def huoquyemian(tage,num):liulanqi = requests.session()url='https://book.douban.com/tag/'+tage+'?start='+str(20*num)+'&type=T'd=liulanqi.get(url=url)ye = d.content.decode()yemian = etree.HTML(ye) # 格式化#print(yemian)xiaoshuo1=yemian.xpath(r'//div[@class="info"]')#yemian.xpath(r'//li[@id="subject_list"]/ul/li[1]/div[2]/h2/a/text()') ['\n\n 解憂雜貨店\n\n\n \n\n ']#print(xiaoshuo1)if xiaoshuo1=='' or xiaoshuo1==None or xiaoshuo1==[]:return 0else:mm=xiaoshuo1[0]##獲取所有的小說名字xiaoshuoming=mm.xpath(r'//div/h2/a/text()')##獲取小說地址urla=mm.xpath(r'//div/h2/a/@href')if len(urla)==0:return 0liulanqi.close()filename=tage+'.txt'd = open(filename, mode='a+', encoding='utf-8')for cle in range(len(xiaoshuoming)):xiaoshuoming[cle]=xiaoshuoming[cle].replace('\n','')xiaoshuoming[cle] = xiaoshuoming[cle].replace(' ', '')xiaoshuomingzi=[i for i in xiaoshuoming if i != '']if len(urla)==len(xiaoshuomingzi):for xu,ss in enumerate(xiaoshuomingzi):mingzi=xiaoshuomingzi[xu].replace('\n','')mingzi=mingzi.replace(' ','')urls=urla[xu].replace('\n','')d.writelines(mingzi+" ")d.writelines(urls)d.writelines('\n')d.close()return 1# browser = webdriver.Firefox()# browser.get("https://book.douban.com/tag")# print(browser.page_source)# soup = BeautifulSoup(browser.page_source, 'lxml') # 解析器:html.parserpass xiao=['小說', '外國文學(xué)', '文學(xué)', '隨筆', '中國文學(xué)', '經(jīng)典','日本文學(xué)', '散文', '村上春樹', '詩歌', '童話', '兒童文學(xué)','古典文學(xué)', '名著', '王小波', '雜文', '余華', '張愛玲', '當(dāng)代文學(xué)', '錢鐘書', '外國名著','魯迅', '詩詞', '茨威格', '米蘭·昆德拉', '杜拉斯', '港臺','漫畫', '推理', '繪本', '青春','東野圭吾', '科幻', '懸疑', '言情', '奇幻', '武俠', '日本漫畫', '推理小說', '耽美', '韓寒','亦舒', '網(wǎng)絡(luò)小說', '三毛', '安妮寶貝', '科幻小說', '阿加莎·克里斯蒂', '金庸', '穿越', '郭敬明','輕小說', '青春文學(xué)', '魔幻', '幾米', '幾米', '張小嫻', 'J.K.羅琳', '古龍', '高木直子', '滄月', '校園','落落', '張悅?cè)?#39;,'歷史', '心理學(xué)', '哲學(xué)', '傳記', '社會學(xué)', '文化', '藝術(shù)', '社會', '設(shè)計', '政治', '建筑','宗教', '電影', '政治學(xué)', '數(shù)學(xué)', '中國歷史', '回憶錄', '思想', '國學(xué)', '人物傳記', '人文', '藝術(shù)史', '音樂', '繪畫','戲劇', '西方哲學(xué)', '二戰(zhàn)', '近代史', '軍事', '佛教', '考古', '自由主義', '美術(shù)','愛情', '成長', '旅行', '生活','心理', '勵志', '女性', '攝影', '教育', '職場', '美食', '游記', '靈修', '健康', '情感', '人際關(guān)系', '兩性', '手工','養(yǎng)生', '家居', '自助游','經(jīng)濟學(xué)', '管理', '經(jīng)濟', '商業(yè)', '金融', '投資', '營銷', '理財', '創(chuàng)業(yè)', '廣告', '股票', '企業(yè)史', '策劃','科普','互聯(lián)網(wǎng)', '編程', '科學(xué)', '交互設(shè)計', '用戶體驗', '算法', '科技', 'web', 'UE', '交互', '通信', 'UCD', '神經(jīng)網(wǎng)絡(luò)', '程序'] for qwe in xiao:duoshao=huoquyeshu(qwe)print("當(dāng)前type為"+qwe)for m in range(duoshao):time.sleep(0.5)print("當(dāng)前頁數(shù)為",str(m)," type "+qwe)jie=huoquyemian(tage=qwe,num=m)if jie==0:break #huoquyeshu('程序') #huoquyeshu('小說')

最終得到所有的書籍,和對應(yīng)的ID

PS下一步就是獲取 所有圖書的信息

總結(jié)

以上是生活随笔為你收集整理的我是怎么扒光了豆瓣图书系列 1的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。