網站首頁 編程語言 正文
在python3有關字符串的處理當中,經常會遇到
'gbk' codec can't encode character '\xa0'
這個問題,原因是在str里面存在著不能正確編碼的字符。
通過以下方法即可解決。
import requests from bs4 import BeautifulSoup url = "http://jecvay.com/2015/03/learning-compilers-1.html" url = url.encode('gbk','ignore').decode('utf-8') //忽略 response = requests.get(url) print(response) soup = BeautifulSoup(response.text) print(soup.body.text)
以上方法在必須要記錄數據的時候會出現數據不準確問題
python3 字符串無法將 gbk 完全轉換為utf8
對于必須存儲的情況,將gbk -> 十六進制字節碼文本 保存,需要的時候在轉換為gbk以便顯示。
def string_hex(data): lin = ['%02X' % i for i in data] return "".join(lin).upper() def __ToUTF8(tuple): lists = [] for itme in tuple: tmp = itme if type(itme) == bytes: try: tmp = itme.decode('gbk') except UnicodeDecodeError: tmp = string_hex(itme) lists.append(tmp) return lists
def readFileAll(file): with open(file, 'rb') as f: data = f.read() return data
s = readFileAll('gkb.txt') //gbk 字符串文件 sx = string_hex(s)//轉化為16進制文本 print(sx)
原文鏈接:https://wozd1.blog.csdn.net/article/details/80920290
相關推薦
- 2022-09-10 Nginx代理Partainer的實現_nginx
- 2022-11-11 C#非托管泄漏中HEAP_ENTRY的Size對不上解析_C#教程
- 2022-10-27 Python使用pandas將表格數據進行處理_python
- 2022-07-10 數組的遍歷方法有哪些
- 2022-11-19 Django項目中表的查詢的操作_python
- 2024-01-07 IDEA中自動導包及快捷鍵
- 2022-08-05 python內置模塊之上下文管理contextlib_python
- 2022-09-03 Python實現求解最大公約數的五種方法總結_python
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支