日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

网页结构的简介和Xpath语法的入门教程

發(fā)布時間:2025/3/17 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 网页结构的简介和Xpath语法的入门教程 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

相信很多小伙伴已經(jīng)聽說過Xpath,之前小編也寫過一篇關(guān)于Xpath的文章,感興趣的小伙伴可以戳這篇文章如何利用Xpath抓取京東網(wǎng)商品信息以及Python網(wǎng)絡(luò)爬蟲四大選擇器(正則表達式、BS4、Xpath、CSS)總結(jié)。今天小編繼續(xù)給大家介紹一些Xpath知識點,希望對大家的學習有幫助。

1、Xpath讓我們可以使用一種類似于Windows下的文件路徑的方式,讓我們可以定位到HTML或者XML結(jié)構(gòu)中的具體元素。Xpath本身包含標一些準函數(shù)庫,可以讓我們的Xpath語法更加強大。



2、在HTML結(jié)構(gòu)中,有一定的層級關(guān)系,主要的關(guān)系包括:父節(jié)點、子節(jié)點、同胞節(jié)點(兄弟節(jié)點)、先輩節(jié)點、后代節(jié)點。



一般的,像類似于這種結(jié)構(gòu),稱之為一個節(jié)點。如上圖,根據(jù)層次關(guān)系,我們可以知道節(jié)點是的父節(jié)點,相應(yīng)的,節(jié)點是節(jié)點的子節(jié)點。同胞節(jié)點又叫兄弟節(jié)點,一般的處于同級層次的節(jié)點叫同胞節(jié)點,如上圖中的節(jié)點和第一個

節(jié)點、177~181行的

標簽都是屬于同胞節(jié)點。先輩節(jié)點又叫祖先節(jié)點,一般的,一個節(jié)點的上層以上的節(jié)點均稱為先輩節(jié)點,所以父節(jié)點也是屬于先輩節(jié)點的一種。基于此,我們又可以稱節(jié)點是的先輩節(jié)點。相對應(yīng)的,一個節(jié)點的下層以下的節(jié)點均稱為后代節(jié)點,所以子節(jié)點也是屬于后代節(jié)點的一種。基于此,我們又可以稱節(jié)點是節(jié)點的后代節(jié)點。

3、理解這些節(jié)點之間的關(guān)系之后,可以方便我們更好的理解Xpath語法,下表是部分常用的Xpath語法。



這里特別強調(diào)“/”和“//”的區(qū)別,“/”一般代表的某個元素的子節(jié)點,而不是全部的后代節(jié)點;而“//”一般代表的某個元素的后代節(jié)點,范圍比“/”代表的要更加廣泛一些。@符號后邊時常跟著class,代表選取名為class屬性的節(jié)點,比較常見。

4、下面針對具體的網(wǎng)頁源碼,讓大家了解一下網(wǎng)頁結(jié)構(gòu)。



如上圖中的紅色框框中,class為屬性,而等于號后邊的“grid-5”即為屬性值,有的時候節(jié)點內(nèi)不只是一個屬性,如上圖中的196行中,就有兩個屬性。

5、為了更加方便的定位到div或者其他節(jié)點下的標簽,我們需要繼續(xù)進一步的進行定位鎖定,下表是部分常用的Xpath語法。



掌握了Xpath語法知識之后,我們就可以通過Xpath語法來進行編寫Xpath表達式,以提取網(wǎng)頁上的目標數(shù)據(jù)。



千里之行,始于足下。如果想學好Xpath,更是需要勤加使用,下一篇文章將給大家介紹Xpath在Scrapy爬蟲項目中的使用。

總結(jié)

以上是生活随笔為你收集整理的网页结构的简介和Xpath语法的入门教程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。