beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath
生活随笔
收集整理的這篇文章主要介紹了
beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
解析神器Xpath:
1. 什么是Xpath
XPath即為XML路徑語言(XML Path Language),它是一種用來確定XML文檔中某部分位置的語言。XPath基于XML的樹狀結(jié)構(gòu),提供在數(shù)據(jù)結(jié)構(gòu)樹中找尋節(jié)點(diǎn)的能力。起初XPath的提出的初衷是將其作為一個通用的、介于XPointer與XSL間的語法模型。但是XPath很快的被開發(fā)者采用來當(dāng)作小型查詢語言。
可以閱讀該文檔了解更多關(guān)于Xpath的知識。
2. Xpath解析網(wǎng)頁的流程
- 首先通過Requests庫獲取網(wǎng)頁數(shù)據(jù)
- 通過網(wǎng)頁解析,得到想要的數(shù)據(jù)或者新的鏈接
- 網(wǎng)頁解析可以通過Xpath或者其它解析工具進(jìn)行,Xpath在是一個非常好用的網(wǎng)頁解析工具
3. 常用的網(wǎng)頁解析
- 正則表達(dá)式使用比較困難,學(xué)習(xí)成本較高
- BeautifulSoup性能較慢,相對于Xpath較難,在某些特定場景下有用
- Xpath使用簡單,速度快(Xpath是lxml里面的一種),是抓取數(shù)據(jù)最好的選擇
Xpath的使用:
1. 使用Xpath解析網(wǎng)頁數(shù)據(jù)的步驟
- 從lxml導(dǎo)入etree
- 解析數(shù)據(jù),返回xml結(jié)構(gòu)
- 使用.xpath()尋找和定位數(shù)據(jù)
2. 獲取Xpath的方法
- 第一種方法:從瀏覽器直接復(fù)制
- 首先在瀏覽器上定位到需要爬取的數(shù)據(jù)
- 右鍵,點(diǎn)擊“檢查”,在“Elements”下找到定位到所需數(shù)據(jù)
- 右鍵——Copy——Copy Xpath,即可完成Xpath的復(fù)制
- 第二種方法:手寫Xpath
- 獲取文本內(nèi)容用 text()
- 獲取注釋用 comment()
- 獲取其它任何屬性用@xx,如:
href
src
value - 想要獲取某個標(biāo)簽下所有的文本(包括子標(biāo)簽下的文本),使用string
如”< p>123< a>來獲取我啊< /a>< /p>”,這邊如果想要得到的文本為”123來獲取我啊”,則需要使用string - starts-with 匹配字符串前面相等
- contains 匹配任何位置相等
附錄
Xpath教程
- 閱讀Xpath教程,掌握Xpath的基本知識
Xpath的基本使用
- 閱讀爬蟲入門到精通-網(wǎng)頁的解析(xpath),參考Xpath的使用方法
- 閱讀Python爬蟲利器三之Xpath語法與lxml庫的用法,了解更多Xpath的使用方法示例
正則表達(dá)式
- 閱讀Python正則表達(dá)式,了解正則表達(dá)式及其基本的語法
- 閱讀爬蟲入門到精通-網(wǎng)頁的解析(正則),學(xué)習(xí)使用正則表達(dá)式匹配網(wǎng)頁數(shù)據(jù)
BeautifulSoup
- 閱讀Beautiful Soup 中文教程,了解使用BeautifulSoup解析網(wǎng)頁的方法
- 閱讀Beautiful Soup 4.2.0 文檔這篇BeautifulSoup的官方文檔,了解其更加全面的用法
總結(jié)
以上是生活随笔為你收集整理的beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux网络配置_linux复制和网络
- 下一篇: 点击按钮弹出iframe_WEB安全(四