網站首頁 編程語言 正文
Python去除html標簽的方法
最近小說看得比較多,但是很多小說網站都存在各種小廣告,看起來很不方便,所以就自己寫了個小程序,把小說都爬下來,然后搭個自己喜歡web頁面來看。
在爬取過程中沒有出現太大的問題,只有在清洗數據時,發現小說文本中混雜HTML標簽,所以就需要對標簽進行清洗。
我自己嘗試了字符串的處理方式,正則,還有lxml等方式來處理這個問題,現在記錄一下使用方式。
我們使用下面這個字符串舉例說明,內容為一段html代碼。需要對這段字符串進行處理,提取文本
html = '<p>你好</p><br/><font>哈哈</font><b>大家好</b>'
1. 使用正則來處理
import re
pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)
輸出結果:
你好哈哈大家好
2. 使用BeautifulSoup來處理
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())
輸出結果:
你好哈哈大家好
3. 使用lxml來出來
from lxml import etree
response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))
輸出結果:
你好哈哈大家好
python正則表達式去除html標簽的屬性
import re
test='<p class="pictext" align="center">陳細妹</p>'
test=re.sub(r'(<[^>\s]+)\s[^>]+?(>)', r'\1\2', test)
print(test)
輸出
<p>陳細妹</p>
總結
原文鏈接:https://blog.csdn.net/ares_beyong/article/details/121284781
相關推薦
- 2022-10-03 Python中不同圖表的數據可視化的實現_python
- 2022-07-06 C++實現中值濾波的示例代碼_C 語言
- 2021-12-03 Android識別NFC芯片制造商的方法_Android
- 2022-06-12 詳解Go語言中的數據類型及類型轉換_Golang
- 2022-11-12 python?鏡像環境搭建總結_python
- 2022-09-19 利用Python實現批量打包程序的工具_python
- 2021-10-01 Linux里LVM磁盤擴容詳細步驟_Linux
- 2021-11-26 Linux下查看IP地址不顯示解決辦法_Linux
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支