日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

Python 简单的爬虫爬取网页框架(爬取网页框架+实例)

發(fā)布時間:2023/12/20 python 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python 简单的爬虫爬取网页框架(爬取网页框架+实例) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Python 這是一個基礎(chǔ)的爬蟲網(wǎng)頁框架


Python爬取網(wǎng)頁內(nèi)容,其實大部分爬取都是在其源代碼中尋找代碼規(guī)律。
舉個例子吧:
如:小說名的章節(jié)節(jié)數(shù),第1~100章,我們找的話就是找第[ ]章中的[ ]內(nèi)容,然后根據(jù)章節(jié)網(wǎng)頁鏈接尋找規(guī)律進(jìn)行跳轉(zhuǎn),把有規(guī)律的數(shù)字部分進(jìn)行研究。


當(dāng)然,我這次舉的例子是爬取的豆瓣的top 500,網(wǎng)頁電影名,評分,評論。

爬取效果部分

下面是代碼部分:

不懂的地方,可以自己進(jìn)行測試來加深自己的映像,感覺到了就抓住這個點去死磕它,通過解決問題,這樣你就可以學(xué)會自己去掌握它。

本次爬蟲涉及幾個知識點.

  • 正則表達(dá)式
  • 文件的寫入
  • 異常拋出處理
# 爬取豆瓣top 500 # 電影名,評分,評論 # 難易:?? # 一.導(dǎo)入 # import re 導(dǎo)入re包 # import requests 導(dǎo)入正則表達(dá)式 # # def aa(): # rest = requests.get('https://movie.douban.com/top250').訪問鏈接# s = rest.content.decode().獲取該網(wǎng)頁源代碼# 四.編寫正則表達(dá)式,取到所需內(nèi)容# ss = re.findall(r'<span class="title">(.*)</span>',s) 爬取片名 # ss1 =re.findall(r'<span class="rating_num" property="v:average">(.*)</span>',s) 爬取評分 # ss2=re.findall(r'<span>(\d*)人評價</span>',s) 爬取評論# 五.去除無關(guān)信息 # b = [] # for i in range(len(ss)): # aa = re.findall(r'&nbsp.*', ss[i]) # if aa == []: # b.append(ss[i]) 得到所需信息 b=ss#六.寫入文件 # for i in range(len(b)): # print(b[i], ss1[i], ss2[i]) # with open(r"C:\Users\\陳嘉玉\Desktop\ex.txt",'a+') as ff: # ff.writelines(b[i]+' '+ss1[i]+' '+ss2[i]+'\n')#七.拋出異常 # try: # aa() # print("已爬取") # # except Exception as c:## # # print("爬取失敗,錯誤提示:"+c)## # else: # print("爬取失敗,錯誤提示:"+c)

總結(jié)

以上是生活随笔為你收集整理的Python 简单的爬虫爬取网页框架(爬取网页框架+实例)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。