網站首頁編程語言正文

python中的標準庫html_python

作者：愛聽音樂的boy ? 更新時間： 2022-06-27 編程語言

python之標準庫html

html庫是用于解析HTML的一個工具，是python自帶的標準庫之一。
html庫位置：

在這里插入圖片描述

init.py文件提供兩個函數：

__all__ = ['escape', 'unescape']

介紹 escape 和 unescape：

escape(s, quote=True) #用來將特殊字符進行轉義成實體字符
"""
參數介紹：
  s 指定要轉義的特殊字符
  quote 默認為True,表示要將 " 或者 ' 也要轉義成實體字符，False反之不用轉義成實體字符
"""
unescape(s) #用來將實體字符進行還原到特殊字符

escape 和 unescape 的使用：

import html
s = '<div id="box">div</div>'
res = html.escape(s)
print(res)
print(html.escape(s,quote=False))
print(html.unescape(res)) #理解還原即可

輸出結果：

在這里插入圖片描述

escape源碼的實現：

在這里插入圖片描述

html庫中的 entities 模塊

該模塊定義： HTML字符實體引用。
該模塊提供四個字典對象：

__all__ = ['html5', 'name2codepoint', 'codepoint2name', 'entitydefs']

導入：

from html import entities
html = entities.html5
name2codep = entities.name2codepoint
codep = entities.codepoint2name
ent = entities.entitydefs
print(html)
print(name2codep)
print(codep)
print(ent)

輸出結果：

在這里插入圖片描述

html庫中的 parser 模塊

該模塊是HTML和XHTML的解析器。
該模塊提供一個類：

__all__ = ['HTMLParser']

導入：

from html import parser
htmlParser=parser.HTMLParser()

介紹該類的常用屬性和常用方法：
常用屬性：

lasttag #保存上一個解析的標簽名，返回字符串。

已實現的常用方法：

feed(data) #將數據饋送到解析器。無返回值
unescape(s) #往上看，前面有介紹的
get_starttag_text() #返回開始標記的完整來源
close() #關閉

未實現的常用方法：
注意：這些方法在源碼中都沒有具體實現，需要我們定義一個子類繼承自HTMLParser類，在子類中重寫這些方法，實現自己邏輯

handle_starttag(tag, attrs) #處理開始標簽，如 <div>；這里的attrs獲取到的是屬性列表，屬性以元組的方式展示
handle_endtag(tag) #處理結束標簽, 如 </div>
handle_data(data) #處理數據，標簽之間的文本
handle_comment(data) #處理注釋，<!-- - -> 之間的文本
handle_startendtag(tag, attrs) #處理自己結束的標簽，如 <img />

以上方法在源碼中是這樣的：

在這里插入圖片描述

原文鏈接：https://blog.csdn.net/qq_52722885/article/details/124476112

上一篇：python?使用ctypes調用C/C++?dll詳情_p
下一篇：精簡高效的C#網站優化經驗技巧總結_C#教程

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁編程語言正文

python中的標準庫html_python

目錄

python之標準庫html

init.py文件提供兩個函數：

html庫中的 entities 模塊

html庫中的 parser 模塊

相關推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁 編程語言 正文

python中的標準庫html_python

目錄

python之標準庫html

__init__.py文件提供兩個函數：

html庫中的 entities 模塊

html庫中的 parser 模塊

相關推薦

網站首頁編程語言正文

init.py文件提供兩個函數：