網站首頁 編程語言 正文
遇到的問題:
在做爬蟲的時候,爬取的url鏈接內還有轉義字符,反斜杠 \
,打算用正則的re.sub()替換掉的時候遇到了問題,這是要做替換的字符串
最開始直接寫
re.sub("\\","",item)
編譯器漏紅了
然后就是找解決辦法,最后發現要用四個反斜杠才可以,也就是使用
re.sub("\\\\","",item)
查了查資料,簡單說說我自己的理解。
正則表達式
首先就是正則表達式,對于正則表達式來說,他的語法是獨立的,有自己的語法,在正則表達式中,由于反斜杠 \
是一個特殊字符,可以和其他字母形成轉義字符,所以要想表示一個反斜杠 \
就必須寫成 \\
這種形式。所以對于正則表達式來說,如果要匹配一個\
就要寫成\\
,像這樣:
python字符串
在python中,如果想要輸出一個反斜杠\
字符,同樣要使用轉義:
>>> print("\\") \
同樣是因為在python中反斜杠也是一個特殊字符。
綜上
當寫成
item = "https:\/\/jobs.51job.com/guangzhou-thq\/137115906.html?s=sou_sou_soulb&t=0_0" item = re.sub("\\\\","",item)
首先傳入的一個參數是一個字符串,所以python中的字符串解析器會把"\\\\"
解析成\\
,解析之后會再傳遞給正則表達式的解析器。由于正則表達式也有自己的語法結構,所以當它看到\\
時,會把它解析為一個\
,所以這時候正則匹配就會只匹配一個\
。
貼一個Stackoverflow上的回答:
If you’re putting this in a string within a program, you may actually
need to use four backslashes (because the string parser will remove
two of them when “de-escaping” it for the string, and then the regex
needs two for an escaped regex backslash).
For instance:
regex("\\\\")
is interpreted as…
regex("\\" [escaped backslash] followed by "\\" [escaped backslash])
is interpreted as…
regex(\\)
is interpreted as a regex that matches a single backslash.
原文地址:Can’t escape the backslash with regex?
當然還可以使用 raw string來寫,也就是寫成
re.sub(r'\\','',item)
由于使用了r'\\'
,python的字符串解析器看到r'\\'
之后,就直接將外層的r''
去掉然后傳遞給re解析器,re解析器會再次解析\\
為\
,匹配內容是一個反斜杠\
字符串方法replace()
除了使用正則替換之外,還可以使用字符串的replace()
str.replace(old, new[, max])
old – 將被替換的子字符串。
new – 新字符串,用于替換old子字符串。
max – 可選字符串, 替換不超過 max 次
>>> item 'https:\\/\\/jobs.51job.com/guangzhou-thq\\/137115906.html?s=sou_sou_soulb&t=0_0' >>> item.replace('\\','') 'https://jobs.51job.com/guangzhou-thq/137115906.html?s=sou_sou_soulb&t=0_0' >>>
需要注意的是不論是正則的re.sub()還是str.replace(),使用之后都不會對原始字符串改變:
import re urL ='https:\/\/jobs.51job.com\/guangzhou-thq\/137735415.html?s=sou_sou_soulb&t=0_0' print(urL.replace('\\','')) print(urL) print(re.sub(r'\\','',urL)) print(urL)
總結?
原文鏈接:https://blog.csdn.net/weixin_42576837/article/details/124164594
相關推薦
- 2023-02-17 Python導入其他文件夾中函數的實現方法_python
- 2022-03-29 python中apply函數詳情_python
- 2022-04-01 kubernetes修改node的role標簽
- 2022-06-01 python?全角半角互換的實現示例_python
- 2022-12-26 Qt利用QSortFilterProxyModel代理實現自定義排序與聯合過濾_C 語言
- 2021-12-20 docke自定義網絡之容器互聯_docker
- 2022-09-27 Kotlin示例講解標準函數with與run和apply的使用_Android
- 2023-12-10 啟動微服務,提示驅動程序無法通過使用安全套接字層(SSL)加密與 SQL Server 建立安全連接
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支