網站首頁編程語言正文

python爬蟲lxml庫解析xpath網頁過程示例_python

作者：蘇涼.py ? 更新時間： 2022-07-03 編程語言

前言

在我們抓取網頁內容的時候，通常是抓取一整個頁面的內容，而我們僅僅只是需要該網頁中的部分內容，那該如何去提取呢？本章就帶你學習xpath插件的使用。去對網頁的內容進行提取。

（一）xpath是什么

xpath是一門在XML文檔中查找信息的語言，xpath可用來在XML 文檔中對元素和屬性進行遍歷，主流的瀏覽器都支持xpath，因為html頁面在DOM中表示為XHTML文檔。

xpath語言是基于XML文檔的樹結構，并提供了瀏覽樹的能力，通過多樣的標準來選擇節點。從而找到我們想要的數據。

首先我們需要在chrome瀏覽器中安裝xpath插件。
可以到谷歌應用商店搜索下載。

安裝好之后重啟瀏覽器按下快捷鍵Ctrl +Shift+X網頁上會出現黑色的框就表示成功啦！

（二）xpath的基本語法路徑查詢。

// : 查找所有子孫節點，不考慮層級關系
/ : 找直接子節點

謂詞查詢

//div[@id]
//div[@id=“maincontent”]

屬性查詢

//@class

模糊查詢

//div[contains(@id, “he”)]
//div[starts -with(@id, “he”)]

內容查詢

//div/h1/text()

（三） lxml庫

lxml是python的一個解析庫，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。
在使用前我們需要在pycharm里安裝lxml庫。
在終端輸入指令即可：

pip install lxml -i https://pypi.douban.com/simple

注意：必須安裝在我們當前所使用的環境下

（四）lxml庫的使用導入lxml.etree

from lxml import etree

解析本地文件

tree = etree.parse(xxx.html) #解析本地文件

解析服務器響應文件

tree = etree.HTML(content) #解析網頁文件

返回結果

result = tree.xpath('//div/div/@aria-label')[0]

注：xpath返回的結果類型為列表，當結果有許多值時我們可以使用下標來取我們想要的值。

（五）實例演示

import urllib.request
from lxml import etree
import urllib.parse
url ='https://www.baidu.com/s?'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
cre_data = {
    'wd' : '這里寫關鍵詞'
}
data = urllib.parse.urlencode(cre_data)
url = url + data
request = urllib.request.Request(url = url , headers = headers )
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)
# tree = etree.parse(xxx.html) #解析本地文件
tree = etree.HTML(content)  #解析網頁文件
result = tree.xpath('//div/div/@aria-label')[0]
print(result)

原文鏈接：https://blog.csdn.net/weixin_46277553/article/details/123236523

上一篇：C語言詳細分析講解內存管理malloc?realloc?fr
下一篇：C#中的委托Delegate_C#教程

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁編程語言正文

python爬蟲lxml庫解析xpath網頁過程示例_python

目錄

前言

（一）xpath是什么

（二）xpath的基本語法路徑查詢。

（三） lxml庫

（四）lxml庫的使用導入lxml.etree

（五）實例演示

相關推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁 編程語言 正文

python爬蟲lxml庫解析xpath網頁過程示例_python

目錄

前言

（一）xpath是什么

（二）xpath的基本語法 路徑查詢。

（三） lxml庫

（四）lxml庫的使用 導入lxml.etree

（五）實例演示

相關推薦

網站首頁編程語言正文

（二）xpath的基本語法路徑查詢。

（四）lxml庫的使用導入lxml.etree