網站首頁 編程語言 正文
Python去除html標簽的方法
最近小說看得比較多,但是很多小說網站都存在各種小廣告,看起來很不方便,所以就自己寫了個小程序,把小說都爬下來,然后搭個自己喜歡web頁面來看。
在爬取過程中沒有出現太大的問題,只有在清洗數據時,發現小說文本中混雜HTML標簽,所以就需要對標簽進行清洗。
我自己嘗試了字符串的處理方式,正則,還有lxml等方式來處理這個問題,現在記錄一下使用方式。
我們使用下面這個字符串舉例說明,內容為一段html代碼。需要對這段字符串進行處理,提取文本
html = '<p>你好</p><br/><font>哈哈</font><b>大家好</b>'
1. 使用正則來處理
import re
pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)
輸出結果:
你好哈哈大家好
2. 使用BeautifulSoup來處理
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())
輸出結果:
你好哈哈大家好
3. 使用lxml來出來
from lxml import etree
response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))
輸出結果:
你好哈哈大家好
python正則表達式去除html標簽的屬性
import re
test='<p class="pictext" align="center">陳細妹</p>'
test=re.sub(r'(<[^>\s]+)\s[^>]+?(>)', r'\1\2', test)
print(test)
輸出
<p>陳細妹</p>
總結
原文鏈接:https://blog.csdn.net/ares_beyong/article/details/121284781
相關推薦
- 2021-11-21 關于.NET6?Minimal?API的使用方式詳解_實用技巧
- 2022-07-01 C++超細致講解隊列queue的使用_C 語言
- 2022-09-15 c語言實現向上取整計算方法_C 語言
- 2022-12-24 Android自定義View實現繪制水波浪溫度刻度表_Android
- 2022-07-12 利用python語言實現將Excel表格中的一列放進另一個Excel
- 2022-05-02 numpy中np.dstack()、np.hstack()、np.vstack()用法_python
- 2022-11-22 Linux命令學習之原來最簡單的ls命令這么復雜_linux shell
- 2023-06-21 Rust?Atomics?and?Locks內存序Memory?Ordering詳解_Rust語言
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支