網站首頁編程語言正文

Rust字符串字面值的一些經驗總結_相關技巧

作者：人間指南 ? 更新時間： 2022-06-06 編程語言

前言

Rust 中有兩種字符串，String 和 &str，其中 String 可動態分配、修改，內部實現可以理解為 Vec，而 &str 是一個類型為 &[u8] 的切片。這兩種字符串都只能保存合法的 UTF-8 字符。

而對于非肉眼可辨識的 UTF-8 字符，則可以考慮使用如下類型：

文件路徑有專用的 Path 和 PathBuf 類可用。
使用 Vec 和 &[u8]
使用 OSString 和 &OSStr 和操作系統交互
使用 CString 和 &CStr 和 C 庫交互

上面的第二種方法，就是常用的處理非 UTF-8 字節流的方式，也就是使用 Vec 和 &[u8] ，其中我們也可以使用字面值來處理這兩種類型的數據，我們稱之為字節字符串字面值（byte string literals），其類型為 &[u8]。

字符串字面值（String literals）

先來看一下字符串字面值。

和其他語言一樣，用雙引號括起來就是一個字符串，不過 Rust 的一個特點是字符串可以跨行，即中間有回車也不會引起編譯或運行錯誤，在輸出的時候也會帶著里面的換行符。

同樣，字符串字面值里面支持轉義，比如想在里面使用雙引號，該轉義也會對換行符進行轉義，比如下面這樣，在換行符前面使用 \ ，則該轉義符、換行符以及下一行開頭的所有空格都將會被忽略：

let a = "foobar";
let b = "foo\
? ? ? ? ?bar";
assert_eq!(a,b);

字符串字面值除了支持常見的 \ 對字節（字符）進行轉義，還支持對 Unicode 進行轉義：

\xHH： + 2位的十六進制7位寬度字節碼，這相當于等值的 ASCII 字符。
\u{xxxx}：24位長的16進制，表示等值的 Unicode 字符。
\n/\r/\t 表示 U+000A (LF), U+000D (CR) 和 U+0009 (HT)
\\ 用來對 \ 本身進行轉義
\0 表示 Unicode U+0000 (NUL)

Raw 類型的字符串字面值表示進行轉義，也就是說字面值寫的是什么內容，字符串的值就是什么。這種類型的字面值使用 r 以及若干 # 開頭進行定義，結尾需要相等數量的 #。

如下所示：

"foo"; r"foo"; ? ? ? ? ? ? ? ? ? ? // foo
"\"foo\""; r#""foo""#; ? ? ? ? ? ? // "foo"

"foo #\"# bar";
r##"foo #"# bar"##; ? ? ? ? ? ? ? ?// foo #"# bar

"\x52"; "R"; r"R"; ? ? ? ? ? ? ? ? // R
"\\x52"; r"\x52"; ? ? ? ? ? ? ? ? ?// \x52

如果字符串中有雙引號怎么辦？因為 raw string 里不能使用轉義，所以 \" 是肯定不行的。Rust 實際支持使用 r# 的方式來指定字符串邊界。這個 # 就是轉義的另一種實現方式，比如字符串里面有 4 個 #，那么該字符串可以用 r#####"abc####def"##### 來包圍起來，也就是比里面的 # 多即可。

Byte string literals

Byte string 字面值使用 b"..." 以及衍生語法定義，其類型為 &[u8]，這個和 &str 是完全不一樣的類型，所以有些在 &str 上能用的方法，在 &[u8] 上是用不了的。

比如：

// &[u8; 5]: [119, 111, 114, 108, 100]!
let world = b"world";
println!("Hello, {}!", world);

編譯會報錯，因為 &[u8] 沒有實現 std::fmt::Display：

29 | ? ? println!("Hello, {}!", world);
? ?| ? ? ? ? ? ? ? ? ? ? ? ? ? ?^^^^^ `[u8; 5]` cannot be formatted with the default formatter
? ?|

? ?= help: the trait `std::fmt::Display` is not implemented for `[u8; 5]`
? ?= note: in format strings you may be able to use `{:?}` (or {:#?} for pretty-print) instead
? ?= note: this error originates in the macro `$crate::format_args_nl` (in Nightly builds, run with -Z macro-backtrace for more info)

Byte string 字面值也支持轉義，但是需要注意它只支持字節轉義，不支持 Unicode 轉義。

// 支持字符轉義，輸出：Hello, Rust!
let escaped = b"\x52\x75\x73\x74 as bytes";

// 不支持 Unicode 轉義，編譯錯誤：
// = help: unicode escape sequences cannot be used as a byte or in a byte string
let escaped = b"\u{211D} is not allowed";

// Raw byte strings work just like raw strings
let raw_bytestring = br"\u{211D} is not escaped here";
println!("{:?}", raw_bytestring);

// Converting a byte array to `str` can fail
if let Ok(my_str) = str::from_utf8(raw_bytestring) {
? ? println!("And the same as text: '{}'", my_str);
}

字節字符串也支持 raw 定義，和標準字符串類型類似，使用 r 前綴定義 raw byte string 字面值變量。

例如下面的例子中普通的字節字符串需要轉義，raw 字節字符串就不需要使用 \ 進行轉義了。

b"foo"; br"foo"; ? ? ? ? ? ? ? ? ? ? // foo
b"\"foo\""; br#""foo""#; ? ? ? ? ? ? // "foo"

b"foo #\"# bar";
br##"foo #"# bar"##; ? ? ? ? ? ? ? ? // foo #"# bar

b"\x52"; b"R"; br"R"; ? ? ? ? ? ? ? ?// R
b"\\x52"; br"\x52"; ? ? ? ? ? ? ? ? ?// \x52

總結

下面是剛才介紹的這幾種字符串字面值定義的一個總結，列出了不同的定義方式和其含義。

符合?? ?意義
“…”?? ?字符串字面值
r"…“, r#”…“#, r##”…“##, etc.?? ?Raw 字符串字面值，禁止轉義
b"…“?? ?字節字符串字面值，類型為 &[u8]
br"…“, br#”…“#, br##”…“##, etc.?? ?Raw 字節字符串字面值
‘…’?? ?字符字面值
b'…‘?? ?ASCII字節字面值

參考資料

Rust reference: Character and string literals
Rust By Example: Strings
TRPL: Non-operator Symbols

原文鏈接：http://liubin.org/blog/2022/04/01/rust-string-literals/

上一篇：PyTorch?device與cuda.device用法介紹
下一篇：C++中隊列queue的用法實例詳解_C 語言

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁編程語言正文

Rust字符串字面值的一些經驗總結_相關技巧

目錄

前言

字符串字面值（String literals）

Byte string literals

總結

相關推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁 編程語言 正文

Rust字符串字面值的一些經驗總結_相關技巧

目錄

前言

字符串字面值（String literals）

Byte string literals

總結

相關推薦

網站首頁編程語言正文