日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

學無先后,達者為師

網站首頁 編程語言 正文

Python去除html標簽的幾種方法總結_python

作者:一行書辭 ? 更新時間: 2023-02-09 編程語言

Python去除html標簽的方法

最近小說看得比較多,但是很多小說網站都存在各種小廣告,看起來很不方便,所以就自己寫了個小程序,把小說都爬下來,然后搭個自己喜歡web頁面來看。

在爬取過程中沒有出現太大的問題,只有在清洗數據時,發現小說文本中混雜HTML標簽,所以就需要對標簽進行清洗。

我自己嘗試了字符串的處理方式,正則,還有lxml等方式來處理這個問題,現在記錄一下使用方式。

我們使用下面這個字符串舉例說明,內容為一段html代碼。需要對這段字符串進行處理,提取文本

html = '<p>你好</p><br/><font>哈哈</font><b>大家好</b>'

1. 使用正則來處理

import re

pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)

輸出結果:

你好哈哈大家好

2. 使用BeautifulSoup來處理

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())

輸出結果:

你好哈哈大家好

3. 使用lxml來出來

from lxml import etree

response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))

輸出結果:

你好哈哈大家好

python正則表達式去除html標簽的屬性

import re
test='<p class="pictext" align="center">陳細妹</p>'
test=re.sub(r'(<[^>\s]+)\s[^>]+?(>)', r'\1\2', test)
print(test)

輸出

<p>陳細妹</p>

總結

原文鏈接:https://blog.csdn.net/ares_beyong/article/details/121284781

欄目分類
最近更新