當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

Python 简单的爬虫爬取网页框架(爬取网页框架+实例)

發(fā)布時間：2023/12/20 python 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python 简单的爬虫爬取网页框架(爬取网页框架+实例) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Python 這是一個基礎(chǔ)的爬蟲網(wǎng)頁框架

Python爬取網(wǎng)頁內(nèi)容，其實大部分爬取都是在其源代碼中尋找代碼規(guī)律。
舉個例子吧:
如：小說名的章節(jié)節(jié)數(shù)，第1~100章，我們找的話就是找第[ ]章中的[ ]內(nèi)容，然后根據(jù)章節(jié)網(wǎng)頁鏈接尋找規(guī)律進(jìn)行跳轉(zhuǎn)，把有規(guī)律的數(shù)字部分進(jìn)行研究。

當(dāng)然，我這次舉的例子是爬取的豆瓣的top 500，網(wǎng)頁電影名，評分，評論。

爬取效果部分

下面是代碼部分:

不懂的地方，可以自己進(jìn)行測試來加深自己的映像，感覺到了就抓住這個點去死磕它，通過解決問題，這樣你就可以學(xué)會自己去掌握它。

本次爬蟲涉及幾個知識點.

正則表達(dá)式
文件的寫入
異常拋出處理

# 爬取豆瓣top 500 # 電影名，評分，評論 # 難易:?? # 一.導(dǎo)入 # import re 導(dǎo)入re包 # import requests 導(dǎo)入正則表達(dá)式 # # def aa(): # rest = requests.get('https://movie.douban.com/top250') 二.訪問鏈接# s = rest.content.decode() 三.獲取該網(wǎng)頁源代碼# 四.編寫正則表達(dá)式,取到所需內(nèi)容# ss = re.findall(r'(.*)',s) 爬取片名 # ss1 =re.findall(r'(.*)',s) 爬取評分 # ss2=re.findall(r'(\d*)人評價',s) 爬取評論# 五.去除無關(guān)信息 # b = [] # for i in range(len(ss)): # aa = re.findall(r'&nbsp.*', ss[i]) # if aa == []: # b.append(ss[i]) 得到所需信息 b=ss#六.寫入文件 # for i in range(len(b)): # print(b[i], ss1[i], ss2[i]) # with open(r"C:\Users\\陳嘉玉\Desktop\ex.txt",'a+') as ff: # ff.writelines(b[i]+' '+ss1[i]+' '+ss2[i]+'\n')#七.拋出異常 # try: # aa() # print("已爬取") # # except Exception as c:## # # print("爬取失敗，錯誤提示:"+c)## # else: # print("爬取失敗，錯誤提示:"+c)

總結(jié)

以上是生活随笔為你收集整理的Python 简单的爬虫爬取网页框架(爬取网页框架+实例)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：对渗透测试工程师来说，学历重要嘛？
下一篇： Python——数字排列组合