日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

學(xué)無先后,達(dá)者為師

網(wǎng)站首頁 編程語言 正文

Python操作lxml庫實(shí)戰(zhàn)之Xpath篇_python

作者:醉蕤 ? 更新時(shí)間: 2023-01-29 編程語言

?一、Xpath概述

1、Xpath簡(jiǎn)介

Xpath(XML Path Language)?是一門在 XML 文檔中查找信息的語言,可以用來在XML文檔中對(duì)元素和屬性進(jìn)行遍歷。XPath 用于在 XML 文檔中通過元素和屬性進(jìn)行導(dǎo)航。其是一種路徑語言(XML Path Language),用來確定XML文檔中某部分的位置。

XPath基于XML的樹狀結(jié)構(gòu),提供在數(shù)據(jù)結(jié)構(gòu)樹中找尋節(jié)點(diǎn)的能力。起初XPath的提出的初衷是將其作為一個(gè)通用的、介于XPointerXSL間的語法模型。但是XPath很快的被開發(fā)者采用來當(dāng)作小型*查詢語言被廣泛使用。

2、?Xpath的安裝

Xpath只是?lxml?庫中的一個(gè)模塊,想要使用?Xpath?那么就需要安裝?lxml?庫

pip install lxml

二、Xpath的常用規(guī)則

1、路徑查找

Xpath 的主要語法

2、節(jié)點(diǎn)查找

查找節(jié)點(diǎn)的一些語法

3、未知節(jié)點(diǎn)

當(dāng)我們匹配時(shí)會(huì)出現(xiàn)路徑不確定的情況,這個(gè)時(shí)候我們就要涉及到匹配未知節(jié)點(diǎn)。匹配未知節(jié)點(diǎn)也有對(duì)應(yīng)的語法。

4、獲取節(jié)點(diǎn)中的文本

通過 屬性方法可以獲取屬性內(nèi)的內(nèi)容,但是位于節(jié)點(diǎn)之間的內(nèi)容無法獲取到,這個(gè)時(shí)候就可以通過?text()?與?string()?方法來獲得其中的文本。

通過?text()?獲取某個(gè)節(jié)點(diǎn)中的文本

In [1]: page.xpath('//li/a[3]/text()')
Out[1]: ['霸道總裁愛上我', '斗羅大陸']
#通過 text() 屬性可以很輕松的獲取標(biāo)簽之間的文本。

通過?string()?獲取某個(gè)節(jié)點(diǎn)中的文本

In [1]: page.xpath('string(//li[1]/a[3])')
Out[1]: '霸道總裁愛上我'

5、選取多個(gè)路徑

需要同時(shí)查找多個(gè)條件時(shí)可以通過在路徑表達(dá)式中使用管道符("|"),選取若干個(gè)路徑

In [1]: page.xpath('XXXXXXX | XXXXXXXtext()')
Out[1]: ['']

總結(jié)

原文鏈接:https://blog.csdn.net/m0_63794226/article/details/126377840

欄目分類
最近更新