當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath

發(fā)布時間：2024/7/19 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了 beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

解析神器Xpath：

1. 什么是Xpath

XPath即為XML路徑語言（XML Path Language），它是一種用來確定XML文檔中某部分位置的語言。
XPath基于XML的樹狀結(jié)構(gòu)，提供在數(shù)據(jù)結(jié)構(gòu)樹中找尋節(jié)點(diǎn)的能力。起初XPath的提出的初衷是將其作為一個通用的、介于XPointer與XSL間的語法模型。但是XPath很快的被開發(fā)者采用來當(dāng)作小型查詢語言。
可以閱讀該文檔了解更多關(guān)于Xpath的知識。

2. Xpath解析網(wǎng)頁的流程

首先通過Requests庫獲取網(wǎng)頁數(shù)據(jù)
通過網(wǎng)頁解析，得到想要的數(shù)據(jù)或者新的鏈接
網(wǎng)頁解析可以通過Xpath或者其它解析工具進(jìn)行，Xpath在是一個非常好用的網(wǎng)頁解析工具

3. 常用的網(wǎng)頁解析

正則表達(dá)式使用比較困難，學(xué)習(xí)成本較高
BeautifulSoup性能較慢，相對于Xpath較難，在某些特定場景下有用
Xpath使用簡單，速度快（Xpath是lxml里面的一種），是抓取數(shù)據(jù)最好的選擇

Xpath的使用：

1. 使用Xpath解析網(wǎng)頁數(shù)據(jù)的步驟

從lxml導(dǎo)入etree
解析數(shù)據(jù)，返回xml結(jié)構(gòu)
使用.xpath()尋找和定位數(shù)據(jù)

from

2. 獲取Xpath的方法

第一種方法：從瀏覽器直接復(fù)制
首先在瀏覽器上定位到需要爬取的數(shù)據(jù)
右鍵，點(diǎn)擊“檢查”，在“Elements”下找到定位到所需數(shù)據(jù)
右鍵——Copy——Copy Xpath，即可完成Xpath的復(fù)制

第二種方法：手寫Xpath

獲取文本內(nèi)容用 text()
獲取注釋用 comment()
獲取其它任何屬性用@xx，如：
href
src
value
想要獲取某個標(biāo)簽下所有的文本（包括子標(biāo)簽下的文本），使用string
如”< p>123< a>來獲取我啊< /a>< /p>”，這邊如果想要得到的文本為”123來獲取我啊”，則需要使用string
starts-with 匹配字符串前面相等
contains 匹配任何位置相等

附錄

Xpath教程

閱讀Xpath教程，掌握Xpath的基本知識

Xpath的基本使用

閱讀爬蟲入門到精通-網(wǎng)頁的解析（xpath），參考Xpath的使用方法
閱讀Python爬蟲利器三之Xpath語法與lxml庫的用法，了解更多Xpath的使用方法示例

正則表達(dá)式

閱讀Python正則表達(dá)式，了解正則表達(dá)式及其基本的語法
閱讀爬蟲入門到精通-網(wǎng)頁的解析（正則），學(xué)習(xí)使用正則表達(dá)式匹配網(wǎng)頁數(shù)據(jù)

BeautifulSoup

閱讀Beautiful Soup 中文教程，了解使用BeautifulSoup解析網(wǎng)頁的方法
閱讀Beautiful Soup 4.2.0 文檔這篇BeautifulSoup的官方文檔，了解其更加全面的用法

總結(jié)

以上是生活随笔為你收集整理的beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： linux网络配置_linux复制和网络
下一篇：点击按钮弹出iframe_WEB安全(四