網站首頁 編程語言 正文
前言
在我們抓取網頁內容的時候,通常是抓取一整個頁面的內容,而我們僅僅只是需要該網頁中的部分內容,那該如何去提取呢?本章就帶你學習xpath插件的使用。去對網頁的內容進行提取。
(一)xpath是什么
xpath是一門在XML文檔中查找信息的語言,xpath可用來在XML 文檔中對元素和屬性進行遍歷,主流的瀏覽器都支持xpath,因為html頁面在DOM中表示為XHTML文檔。
xpath語言是基于XML文檔的樹結構,并提供了瀏覽樹的能力,通過多樣的標準來選擇節點。從而找到我們想要的數據。
首先我們需要在chrome瀏覽器中安裝xpath插件。
可以到谷歌應用商店搜索下載。
安裝好之后重啟瀏覽器按下快捷鍵Ctrl +Shift+X網頁上會出現黑色的框就表示成功啦!
(二)xpath的基本語法 路徑查詢。
// : 查找所有子孫節點,不考慮層級關系
/ : 找直接子節點
謂詞查詢
//div[@id]
//div[@id=“maincontent”]
屬性查詢
//@class
模糊查詢
//div[contains(@id, “he”)]
//div[starts -with(@id, “he”)]
內容查詢
//div/h1/text()
(三) lxml庫
lxml是python的一個解析庫,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
在使用前我們需要在pycharm里安裝lxml庫。
在終端輸入指令即可:
pip install lxml -i https://pypi.douban.com/simple
注意:必須安裝在我們當前所使用的環境下
(四)lxml庫的使用 導入lxml.etree
from lxml import etree
解析本地文件
tree = etree.parse(xxx.html) #解析本地文件
解析服務器響應文件
tree = etree.HTML(content) #解析網頁文件
返回結果
result = tree.xpath('//div/div/@aria-label')[0]
注:xpath返回的結果類型為列表,當結果有許多值時我們可以使用下標來取我們想要的值。
(五)實例演示
import urllib.request
from lxml import etree
import urllib.parse
url ='https://www.baidu.com/s?'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
cre_data = {
'wd' : '這里寫關鍵詞'
}
data = urllib.parse.urlencode(cre_data)
url = url + data
request = urllib.request.Request(url = url , headers = headers )
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)
# tree = etree.parse(xxx.html) #解析本地文件
tree = etree.HTML(content) #解析網頁文件
result = tree.xpath('//div/div/@aria-label')[0]
print(result)
原文鏈接:https://blog.csdn.net/weixin_46277553/article/details/123236523
相關推薦
- 2022-06-13 nginx?location/區別詳解_nginx
- 2022-06-17 C語言深入探究函數的溯源_C 語言
- 2022-06-28 python神經網絡Keras構建CNN網絡訓練_python
- 2022-03-31 Python基礎中的列表你了解嗎_python
- 2022-04-05 h5給input元素type=file的對象賦值報錯
- 2022-12-23 Python?UI自動化測試Web?frame及多窗口切換_python
- 2022-06-18 C語言?詳解字符串基礎_C 語言
- 2022-05-12 正則判斷只能輸入大于0的正整數
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支