在Rust中, 字符串类型其实是一个比较复杂的话题。在Rust的标准库中,至少都提供了6种字符串类型,我们平常使用的最多的是其中的两种。这两种类型互相之间也有所关联:
str
: 字符串切片String
字符串&str
, 通常,一些字符串字面量都属于&str
类型 ,例如:let msg = "Hello "; // msg的类型是&str
字符串切片通常也被直接称为字符串, 很多人会把它跟另一种字符串类型String
混淆。他们之间的主要区别在于:
&str
: 是一个借用,不能被修改String
: 可以被修改我们常用两个函数将字符串切片转换成字符串:
let msg = "ab".to_string(); // 调用字符串切片的to_string()函数
let msg = String::from("ab"); // 将字符串切片作为参数传给String类型的from函数
从数据结构的角度来看, &str
类型由一个指向一组字节的指针和长度(len)属性组成
String
类型由一个指向一组字节的指针, 长度(len)属性和容量(capacity)属性组成
因此,可以看出,&str
其实可以看作是String
的一部分。 因此, 它们也具有很多其他相同的特征, 例如,根据定义、编译器强制要求以及运行时检查,这两种字符串类型都是有效的 UTF-8格式。
另外, 不论是&str
还是String
, 都不能用下标来访问对应位置的字符,因为英文并不是这个世界上唯一的语言, 随便google一下就可以得知,这个世界上至少有6900多种不同的语言文字和甚至还有各种不同的表情图案, 要把这么多种文字都能通过编码的形式表达, 只有Unicode编码可以做到, 因此, 字符串都是Unicode编码的, 这就是为什么字符串中的字符不能用下标来访问的原因,例如:
let word = "สวัสดี";
如果我们想要通过下标来访问最后一个符号,可能会想到这样做:
word[3] // ดี
但这不能得到我们想要的结果,实际上,上面的字符串会被存储在一个18字节的可变数组(vector
)中, 如下:
224 | 184 | 170 | 224 | 184 | 177 | 224 | 184 | 177 | 224 | 184 | 170 | 224 | 184 | 148 | 224 | 184 | 181 |
---|
上面的word[3]
实际上得到的就是上面这个数组中的第4个元素224
, UTF-8的编码规则下, 一个Unicode字符可能占用1 - 4个字节的长度不定,因此必须要遍历每个字节,才知道每个符号从哪里开始,在哪里结束。在上面的例子中,每3个字节代表了一个Unicode符号(scalars):
而其中可能由一个或多个Unicode符号才能组成一个有意义的文字符号(graphemes)
Rust的标准库的集合类型提供的索引操作始终保证是时间恒定的操作, 但是对于字符串的索引却不能做到,因为当我们对字符串进行索引操作时,得到的是字节,而这个结果大概率并不是我们想要得到的结果(如上所述,一个有意义的语言文字字符可能是一个或多个字节组成的)。
所以当我们看到一个字符串时,我们可以选择进行下面的操作:
word.bytes();
: 用bytes()
函数来获取字符串的UTF-8字节的向量(Vector), 如果你能保证使用的文字只有ASCII码中包含的部分的话, 用索引来获取字符串中的字符也没有问题;word.chars()
: 用chars()
函数可以获得一个迭代器,可以返回字符串中的每个Unicode标量, 再用例如unicode-segmentation
这样的包中提供的函数,来得到有意义的文字符号 。如果选择使用迭代器来处理字符串的话, 迭代器提供了一个函数nth()
, 可以用来替代索引, 例如:
word.chars().nth(3) // 获取word中的第4个Unicode标量