日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

hbuilderx简单网页代码_Python爬取网页数据

發布時間:2025/3/20 python 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 hbuilderx简单网页代码_Python爬取网页数据 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

都說python爬網頁數據方便,我們今天就來試試,python爬取數據到底有多方便

簡介

爬取數據,基本都是通過網頁的URL得到這個網頁的源代碼,根據源代碼篩選出需要的信息

準備

IDE:PyCharm
庫:requests、lxml

注:
requests:獲取網頁源代碼
lxml:得到網頁源代碼中的指定數據

搭建環境

這里的搭建環境,可不是搭建python的開發環境,這里的搭建環境是指,我們使用pycharm新建一個python項目,然后弄好requests和lxml
新建一個項目:

依賴庫導入

由于我們使用的是pycharm,所以我們導入這兩個庫就會顯的格外簡單

import?requests

這個時候,requests會報紅線,這時候,我們將光標對準requests,按快捷鍵:alt + enter,pycharm會給出解決之道,這時候,選擇install package requests,pycharm就會自動為我們安裝了,我們只需要稍等片刻,這個庫就安裝好了。lxml的安裝方式同理.

獲取網頁源代碼

之前我就說過,requests可以很方便的讓我們得到網頁的源代碼
網頁就拿我的博客地址舉例好了:https://coder-lida.github.io/

獲取源碼:

#?獲取源碼
html?=?requests.get("https://coder-lida.github.io/")
#?打印源碼
print?html.text

代碼就是這么簡單,這個html.text便是這個URL的源碼

完整代碼:

import??requests
import?lxml

html?=?requests.get("https://coder-lida.github.io/")
print?(html.text)

打印:

獲取指定數據

現在我們已經得到網頁源碼了,這時就需要用到lxml來來篩選出我們所需要的信息
這里我就以得到我博客列表為例,可以找到原網頁通過F12查看XPath,如圖

通過XPath的語法獲得網頁的內容。

查看第一篇文章標題

//*[@id="layout-cart"]/div[1]/a/@title

// 定位根節點
/ 往下層尋找
提取文本內容:/text()
提取屬性內容:/@xxxx

import??requests
from?lxml?import?etree

html?=?requests.get("https://coder-lida.github.io/")
#print?(html.text)
etree_html?=?etree.HTML(html.text)
content?=?etree_html.xpath('//*[@id="layout-cart"]/div[1]/a/@title')
print(content)

查看所有文章標題

//*[@id="layout-cart"]/div/a/@title

代碼:

import??requests
from?lxml?import?etree

html?=?requests.get("https://coder-lida.github.io/")
#print?(html.text)
etree_html?=?etree.HTML(html.text)
content?=?etree_html.xpath('//*[@id="layout-cart"]/div/a/@title')
print(content)

輸出:

['?springboot逆向工程?',?'?自己實現一個簡單版的HashMap?',?'?開發中常用的?25?個JavaScript?單行代碼?',?'?shiro?加密登錄?密碼加鹽處理?',?'?Spring?Boot構建RESTful?API與單元測試??',?'?記一次jsoup的使用?']

總結

以上是生活随笔為你收集整理的hbuilderx简单网页代码_Python爬取网页数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。