日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

學無先后,達者為師

網站首頁 編程語言 正文

python中的標準庫html_python

作者:愛聽音樂的boy ? 更新時間: 2022-06-27 編程語言

python之標準庫html

html庫是用于解析HTML的一個工具,是python自帶的標準庫之一。
html庫位置:

在這里插入圖片描述

__init__.py文件提供兩個函數:

__all__ = ['escape', 'unescape']

介紹 escape 和 unescape:

escape(s, quote=True) #用來將特殊字符進行轉義成實體字符
"""
參數介紹:
  s 指定要轉義的特殊字符
  quote 默認為True,表示要將 " 或者 ' 也要轉義成實體字符,False反之不用轉義成實體字符
"""
unescape(s) #用來將實體字符進行還原到特殊字符

escape 和 unescape 的使用:

import html
s = '<div id="box">div</div>'
res = html.escape(s)
print(res)
print(html.escape(s,quote=False))
print(html.unescape(res)) #理解還原即可

輸出結果:

在這里插入圖片描述

escape源碼的實現:

在這里插入圖片描述

html庫中的 entities 模塊

該模塊定義: HTML字符實體引用。
該模塊提供四個字典對象:

__all__ = ['html5', 'name2codepoint', 'codepoint2name', 'entitydefs']

導入:

from html import entities
html = entities.html5
name2codep = entities.name2codepoint
codep = entities.codepoint2name
ent = entities.entitydefs
print(html)
print(name2codep)
print(codep)
print(ent)

輸出結果:

在這里插入圖片描述

html庫中的 parser 模塊

該模塊是HTML和XHTML的解析器。
該模塊提供一個類:

__all__ = ['HTMLParser']

導入:

from html import parser
htmlParser=parser.HTMLParser()

介紹該類的常用屬性和常用方法:
常用屬性:

lasttag #保存上一個解析的標簽名,返回字符串。

已實現的常用方法:

feed(data) #將數據饋送到解析器。無返回值
unescape(s) #往上看,前面有介紹的
get_starttag_text() #返回開始標記的完整來源
close() #關閉

未實現的常用方法:
注意:這些方法在源碼中都沒有具體實現,需要我們定義一個子類繼承自HTMLParser類,在子類中重寫這些方法,實現自己邏輯

handle_starttag(tag, attrs) #處理開始標簽,如 <div>;這里的attrs獲取到的是屬性列表,屬性以元組的方式展示
handle_endtag(tag) #處理結束標簽, 如 </div>
handle_data(data) #處理數據,標簽之間的文本
handle_comment(data) #處理注釋,<!-- - -> 之間的文本
handle_startendtag(tag, attrs) #處理自己結束的標簽,如 <img />

以上方法在源碼中是這樣的:

在這里插入圖片描述

?

在這里插入圖片描述

在這里插入圖片描述

原文鏈接:https://blog.csdn.net/qq_52722885/article/details/124476112

欄目分類
最近更新