python爬虫练习之爬取豆瓣读书所有标签下的书籍信息
生活随笔
收集整理的這篇文章主要介紹了
python爬虫练习之爬取豆瓣读书所有标签下的书籍信息
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
第一步,爬取所有圖書標簽及分類
到達圖書標簽頁,分類瀏覽,第一步需要爬取所有分類及其分類下的所有標簽
并用dict存儲
豆瓣圖書標簽的鏈接
需要解析的內容
1.bs4解析
import requests from bs4 import BeautifulSoupurl = 'https://book.douban.com/tag/?view=type' tag_dict = {}def get_dict(): #接口,提供這個標簽字典return tag_dictr = requests.get(url) soup = BeautifulSoup(r.text,'lxml') title = soup.select('div div a h2') #第一步找到h2標簽,因為更細致,a標簽就找不到 #然后通過h2標簽找到爺爺級標簽,就是div盒子了 for i in title:a = i.find_parent() #找到父親a標簽div = a.find_parent() #找到父親divtag_title = a.select('h2')[0].get_text()[:2] #找到h2標簽取出內容并切片取出前兩個字tags = div.select('tr td a') #找到td中的a標簽tag_list = []for j in tags:tag_list.append(j.get_text()) #循環取出a標簽中的內容tag_dict[tag_title] = tag_listfor i in tag_dict:print(i+':',end='')print(tag_dict[i]) ------------------------------------------------------------------------------- 文學 ['小說', '外國文學', '文學', '隨筆', '中國文學', '經典', '日本文學', '散文', '村上春樹', '詩歌', '童話', '兒童文學', '古典文學', '王小波', '名著', '雜文', '余華', '張愛玲', '當代文學', '錢鐘書', '外國名著', '魯迅', '詩詞', '茨威格', '米蘭·昆德拉', '杜拉斯', '港臺'] 流行 ['漫畫', '推理', '繪本', '青春', '東野圭吾', '科幻', '言情', '懸疑', '奇幻', '武俠', '日本漫畫', '韓寒', '耽美', '推理小說', '亦舒', '網絡小說', '三毛', '安妮寶貝', '郭敬明', '穿越', '阿加莎·克里斯蒂', '金庸', '輕小說', '科幻小說', '青春文學', '幾米', '魔幻', '幾米', '張小嫻', 'J.K.羅琳', '古龍', '高木直子', '滄月', '校園', '落落', '張悅然'] 文化 ['歷史', '心理學', '哲學', '傳記', '文化', '社會學', '藝術', '設計', '社會', '政治', '建筑', '宗教', '電影', '政治學', '數學', '中國歷史', '回憶錄', '思想', '國學', '人文', '人物傳記', '音樂', '藝術史', '繪畫', '戲劇', '西方哲學', '二戰', '軍事', '佛教', '近代史', '考古', '自由主義', '美術'] 生活 ['愛情', '旅行', '生活', '成長', '心理', '勵志', '女性', '攝影', '職場', '教育', '美食', '游記', '靈修', '健康', '情感', '兩性', '人際關系', '手工', '養生', '家居', '自助游'] 經管 ['經濟學', '管理', '經濟', '商業', '金融', '投資', '營銷', '創業', '理財', '廣告', '股票', '企業史', '策劃'] 科技 ['科普', '互聯網', '編程', '科學', '交互設計', '用戶體驗', '算法', '科技', 'web', 'UE', '交互', '通信', 'UCD', '神經網絡', '程序']2.re解析
import requests import reurl = 'https://book.douban.com/tag/?view=type' tag_dict = {}def get_dict(): #接口,提供這個標簽字典return tag_dictr = requests.get(url).text tag_title = re.findall('<a name="(.*?)".*?tag-title-wrapper', r, re.S) #直接找到類別 tags = re.findall('table.*?tbody>(.*?)</tbody',r,re.S) #找到每個div里tbody的內容 tags.remove(tags[0]) for n,i in enumerate(tags):tag_list = re.findall('">(.*?)</a><b',i,re.S) #在tbody里找到每個a標簽的內容tag_dict[tag_title[n]] = tag_listfor i in tag_dict:print(i,tag_dict[i]) ------------------------------------------------------------------------------------------- 文學:['小說', '外國文學', '文學', '隨筆', '中國文學', '經典', '日本文學', '散文', '村上春樹', '詩歌', '童話', '兒童文學', '古典文學', '王小波', '名著', '雜文', '余華', '張愛玲', '當代文學', '錢鐘書', '外國名著', '魯迅', '詩詞', '茨威格', '米蘭·昆德拉', '杜拉斯', '港臺'] 流行:['漫畫', '推理', '繪本', '青春', '東野圭吾', '科幻', '言情', '懸疑', '奇幻', '武俠', '日本漫畫', '韓寒', '耽美', '推理小說', '亦舒', '網絡小說', '三毛', '安妮寶貝', '郭敬明', '穿越', '阿加莎·克里斯蒂', '金庸', '輕小說', '科幻小說', '青春文學', '幾米', '魔幻', '幾米', '張小嫻', 'J.K.羅琳', '古龍', '高木直子', '滄月', '校園', '落落', '張悅然'] 文化:['歷史', '心理學', '哲學', '傳記', '文化', '社會學', '藝術', '設計', '社會', '政治', '建筑', '宗教', '電影', '政治學', '數學', '中國歷史', '回憶錄', '思想', '國學', '人文', '人物傳記', '音樂', '藝術史', '繪畫', '戲劇', '西方哲學', '二戰', '軍事', '佛教', '近代史', '考古', '自由主義', '美術'] 生活:['愛情', '旅行', '生活', '成長', '心理', '勵志', '女性', '攝影', '職場', '教育', '美食', '游記', '靈修', '健康', '情感', '兩性', '人際關系', '手工', '養生', '家居', '自助游'] 經管:['經濟學', '管理', '經濟', '商業', '金融', '投資', '營銷', '創業', '理財', '廣告', '股票', '企業史', '策劃'] 科技:['科普', '互聯網', '編程', '科學', '交互設計', '用戶體驗', '算法', '科技', 'web', 'UE', '交互', '通信', 'UCD', '神經網絡', '程序']2.未完待續
總結
以上是生活随笔為你收集整理的python爬虫练习之爬取豆瓣读书所有标签下的书籍信息的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 动画--easeljs中的movieCl
- 下一篇: Python-玩转数据-Scrapy中S