日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

使用Python爬虫 爬取豆瓣top250

發布時間:2023/12/31 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 使用Python爬虫 爬取豆瓣top250 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

使用Python爬蟲 爬取豆瓣top250


文章目錄

  • 使用Python爬蟲 爬取豆瓣top250
    • @[toc]
    • 1)任務介紹
    • 2)爬蟲知識
    • 3)基本流程
      • 3.1) 準備工作
      • 3.2)獲取數據
      • 3.3)解析內容
      • 3.4)保存數據

1)任務介紹

  • 需求分析
    爬取豆瓣電影Top250的基本信息,包括電影的名稱、豆瓣評分、評價數、電影概況、電影鏈接等。
    鏈接:https://movie.douban.com/top250

2)爬蟲知識

  • 什么是爬蟲
    網絡爬蟲,是一種按照一定規則,自動抓取互聯網信息的程序或者腳本。由于互聯網數據的多樣性和資源的有限性,根據用戶需求定向抓取相關網頁并分析已成為入境主流的爬取策略。

  • 爬蟲可以做什么
    你可以爬取妹子的照片,爬取自己想看的視頻等等,只要你能通過瀏覽器訪問的數據都可以通過爬蟲獲取

  • 爬蟲的本質是什么
    模擬瀏覽器打開網頁,獲取網頁中我們想要的那部分數據

3)基本流程

3.1) 準備工作

通過瀏覽器查看分析目標網頁

  • 分析頁面

    • 借助Chrome開發者工具(F12)來分析頁面,在Elements下找到需要的數據位置
  • 編碼規范

    • 一般Python程序第一行需要加入# -*- coding: utf-8 -*- 或者# coding = utf-8這樣可以在代碼中包含中文
    • 在Python中,使用函數實現單一功能相關聯功能的代碼段,可以提高可讀性和代碼重復利用率,函數代碼塊以def關鍵詞開頭,后接空格、函數標識符名稱、圓括號()、冒號:,括號中可以傳入參數,函數段縮進(Tab或者四個空格,只能任選一種),return用于結束函數,可以返回一個值,也可以不帶任何表達式(表示返回可以用None)
    • Python文件可以加入main函數用于測試程序:if_name_== "_main_":
    • Python使用#添加注釋,說明代碼(段)的作用
  • 引入模塊

    • 模塊(module):用來從邏輯上組織Python代碼(變量、函數、類),本質就是py文件,提高代碼的可維護性。Python使用import來導入模塊。
    • 包(package):為避免模塊名沖突,Python引入了按目錄組織模塊的方法,稱之為包(package)。包是含有Python模塊的文件夾

3.2)獲取數據

通過HTTP庫向目標站點發起請求,請求可以包含額外的hrader等信息,如果服務器能正常響應,會得到一個Response,便是所要獲取的頁面內容。

  • Python一般使用urllib庫獲取頁面
    • 對每一個頁面,調用askURL函數獲取頁面內容
    • 定義一個獲取頁面對函數askURL,傳入一個url參數,表示網址,如https://movie.douban.com/top250
    • urllib.Request生成請求;uellib.urlopen發送請求獲取響應;read獲取頁面內容
    • 在訪問頁面時經常會出現錯誤為了程序正常運行,加入異常獲取try...except...語句

3.3)解析內容

得到的內容可能是HTML、json等格式,可以用頁面解析庫、正則表達式等進行解析。

1. 標簽解析

  • 對爬取的Html進行解析
    • 使用 BeautifulSoup定位特定的標簽位置
    • 使用正則表達式找到具體的內容
  • BeautifulSoup
    • BeautifulSoup是一個庫,提供一些簡單的、python式的用來處理導航、搜索、修改分析樹等功能,通過解析文檔為用戶提供需要抓取的數據。我們需要的每個電影都在一個<div>的標簽中,且每個div標簽都有一個屬性class="item"。

2. 正則提取

  • 正則表達式
    • 正則表達式,通常被用來檢索,替換那些符合某個模式(規則)的文本。正則表達式是對字符串操作的一種邏輯公式,就是事先定義好一些特定字符以及這些特定字符的組合,組成一個“規則字符串”。這個“規則字符串”用來表達對字符串的一種過濾邏輯。python中使用re模塊操作正則表達式。

正則表達模式

^ 匹配字符串的開頭
$匹配字符串的末尾。
.匹配任意字符,除了換行符,當re.DOTALL標記被指定時,則可以匹配包括換行符的任意字符。
[...]用來表示一組字符,單獨列出:[amk] 匹配 ‘a’,‘m’或’k’
[^...] 不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。
re*匹配0個或多個的表達式。
re+匹配1個或多個的表達式。
re?匹配0個或1個由前面的正則表達式定義的片段,非貪婪方式
re{ n}匹配n個前面表達式。例如,"o{2}“不能匹配"Bob"中的"o”,但是能匹配"food"中的兩個o。
re{ n,}精確匹配n個前面表達式。例如,"o{2,}“不能匹配"Bob"中的"o”,但能匹配"foooood"中的所有o。"o{1,}“等價于"o+”。“o{0,}“則等價于"o*”。
re{ n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
a| b匹配a或b
(re)匹配括號內的表達式,也表示一個組
(?imx)正則表達式包含三種可選標志:i, m, 或 x 。只影響括號中的區域。
(?-imx)正則表達式關閉 i, m, 或 x 可選標志。只影響括號中的區域。
(?: re)類似 (…), 但是不表示一個組
(?imx: re)在括號中使用i, m, 或 x 可選標志
(?-imx: re)在括號中不使用i, m, 或 x 可選標志
(?#...)注釋.
(?= re)前向肯定界定符。如果所含正則表達式,以 … 表示,在當前位置成功匹配時成功,否則失敗。但一旦所含表達式已經嘗試,匹配引擎根本沒有提高;模式的剩余部分還要嘗試界定符的右邊。
(?! re)前向否定界定符。與肯定界定符相反;當所含表達式不能在字符串當前位置匹配時成功。
(?> re)匹配的獨立模式,省去回溯。
\w匹配數字字母下劃線
\W匹配非數字字母下劃線
\s匹配任意空白字符,等價于 [\t\n\r\f]。
\S匹配任意非空字符
\d匹配任意數字,等價于 [0-9]。
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串。
\z匹配字符串結束
\G匹配最后匹配完成的位置。
\b匹配一個單詞邊界,也就是指單詞和空格間的位置。例如, ‘er\b’ 可以匹配"never” 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’。
\B匹配非單詞邊界。‘er\B’ 能匹配 “verb” 中的 ‘er’,但不能匹配 “never” 中的 ‘er’。
\n, \t,等。 匹配一個換行符。匹配一個制表符, 等
\1...\9匹配第n個分組的內容。
\10匹配第n個分組的內容,如果它經匹配。否則指的是八進制字符碼的表達式。

3.4)保存數據

保存形式多樣,可以存為文本也可以保存到數據庫,或者保存特定格式的文件

1. Excel表儲存數據

  • Excel表格儲存
    利用python庫xlwt將抽取的數據datalist寫入Excel表格
from bs4 import BeautifulSoup # 網頁解析,獲取數據 import re # 正則表達,實現文字匹配 import urllib.request, urllib.error # 制定url,獲取網頁數據 import xlwt # 進行excel操作 import sqlite3 # 進行SQLite數據庫操作def main():# 1.爬取網頁baseurl = "https://movie.douban.com/top250?start="datalist = getData(baseurl)savepath = "豆瓣電影Top250.xls"# 3.保存數據saveData(datalist, savepath)# 影片鏈接的規則 findLink = re.compile(r'<a href="(.*?)">') # 創建正則表達式對象,表示規則(字符串表達式) # 影片的圖片的規則 findImgSrc = re.compile(r'<img.*src="(.*?)"', re.S) # re.S讓換行符包含在字符中 # 影片片名 findTitle = re.compile(r'<span class="title">(.*)</span>') # 影片評分 findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>') # 找到評價人數 findJudge = re.compile(r'<span>(\d*)人評價</span>') # 找到概況 findInq = re.compile(r'<span class="inq">(.*)</span>') # 找到影片相關內容 findBd = re.compile(r'<p class="">(.*?)</p>', re.S)def getData(baseurl):datalist = []for i in range(0, 10): # 調用獲取頁面信息的函數,10次url = baseurl + str(i * 25)html = askURL(url) # 保存獲取到的網頁源碼# 2.逐一解析數據soup = BeautifulSoup(html, "html.parser")for item in soup.find_all('div', class_="item"): # 查找符合要求的字符串,形成一個鏈表# print(item) #測試data = [] # 保存一部電影的所有信息item = str(item)link = re.findall(findLink, item)[0] # re庫用來通過正則表達式查找指定內容data.append(link)imgSrc = re.findall(findImgSrc, item)[0] # 添加圖片data.append(imgSrc)titles = re.findall(findTitle, item) # 片名可能只有一個中文名if (len(titles) == 2):ctitle = titles[0]data.append(ctitle) # 添加中文名otitle = titles[1].replace("/", "") # 去掉無關的符號data.append(otitle) # 添加外國名else:data.append(titles[0])data.append(' ') # 外國名留空rating = re.findall(findRating, item)[0] # 添加評分data.append(rating)judgeNom = re.findall(findJudge, item)[0] # 添加評價人數data.append(judgeNom)inq = re.findall(findInq, item)if len(inq) != 0:inq = inq[0].replace("。", "") # 去掉句號data.append(inq) # 添加概述else:data.append(" ") # 留空bd = re.findall(findBd, item)[0]bd = re.sub('<br(\s+)?>(\s+)?', " ", bd) # 去掉<br>bd = re.sub('/', " ", bd) # 替換/data.append(bd.strip()) # 去掉前后空格datalist.append(data)return datalistdef saveData(datalist, savepath):print("save....")book = xlwt.Workbook(encoding="utf-8", style_compression=0) # 創建workbook對象sheet = book.add_sheet('豆瓣電影Top250', cell_overwrite_ok=True) # 創建工作表col = ("電影詳情鏈接", "圖片鏈接", "影片中文名", "影片外國名", "評分", "評價數", "概況", "相關信息")for i in range(0, 8):sheet.write(0, i, col[i])for i in range(0, 250):print("第%d條" % i)data = datalist[i]for j in range(0, 8):sheet.write(i + 1, j, data[j])book.save(savepath)def askURL(url):head = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0"}request = urllib.request.Request(url, headers=head)html = ""try:response = urllib.request.urlopen(request)html = response.read().decode("utf-8")except urllib.error.URLError as e:if hasattr(e, "code"):print(e.code)if hasattr(e, "reason"):print(e.reason)return htmlif __name__ == '__main__':main()print("爬取完畢")

總結

以上是生活随笔為你收集整理的使用Python爬虫 爬取豆瓣top250的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。