網站首頁編程語言正文

Python去除html標簽的幾種方法總結_python

作者：一行書辭 ? 更新時間： 2023-02-09 編程語言

最近小說看得比較多，但是很多小說網站都存在各種小廣告，看起來很不方便，所以就自己寫了個小程序，把小說都爬下來，然后搭個自己喜歡web頁面來看。

在爬取過程中沒有出現太大的問題，只有在清洗數據時，發現小說文本中混雜HTML標簽，所以就需要對標簽進行清洗。

我自己嘗試了字符串的處理方式，正則，還有lxml等方式來處理這個問題，現在記錄一下使用方式。

我們使用下面這個字符串舉例說明，內容為一段html代碼。需要對這段字符串進行處理，提取文本

html = '<p>你好</p><br/><font>哈哈</font><b>大家好</b>'

1. 使用正則來處理

import re

pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)

輸出結果：

你好哈哈大家好

2. 使用BeautifulSoup來處理

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())

輸出結果：

你好哈哈大家好

3. 使用lxml來出來

from lxml import etree

response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))

輸出結果：

你好哈哈大家好

import re
test='<p class="pictext" align="center">陳細妹</p>'
test=re.sub(r'(<[^>\s]+)\s[^>]+?(>)', r'\1\2', test)
print(test)

輸出

<p>陳細妹</p>

原文鏈接：https://blog.csdn.net/ares_beyong/article/details/121284781