RUST 学习日记 第14课 ——字符串(二)

RUST 学习日记 第14课 ——字符串(二)


0x00 回顾与开篇

最近工作比较忙,更新频率慢了下来,希望大家谅解下。上节课初步了解了Rust的字符串,在Rust中有两种字符串类型,一种是可变长度字符串,也叫字符串切片,另一种则是不可变长度的字符串。也熟悉了简单使用它们的方法。这节课继续讲解字符串,深入到内存剖析Rust字符串。

0x01 可变长度字符串String和向量Vector

联系和区别

上节提到过,可变长度字符串String其实是一个结构体,里面封装了Vec,那么它跟向量又存在什么样的联系和区别呢?具体看下面的表格。

Vec String
自动释放内存
可扩展
::new()和::with_capacity()静态方法
.reverse()和.capacity()方法
.push()和.pop()方法
范围语法s[start...end]
自动转换 &Vec 到 &[T] &String 到 &str
继承方法 继承自 &[T] 继承自 &str
String的构成

String*类型的分别由三部分构成,分别与其三个方法相对应:

1、as_ptr():指向堆中字节虚了的指针

2、len():堆中字节序列的字节长度

3、capacity():在堆上分配的容量

示例代码如下:

    let mut hello = String::with_capacity(15);
    hello.push('h');
    hello.push('e');
    hello.push('l');
    hello.push('l');
    hello.push('o');

    println!("hello 字符串的内容 -> {}", hello);

    println!("hello 堆上的指针 -> {:p}", hello.as_ptr());
    println!("hello 的容量 -> {}", hello.capacity());
    println!("hello 的字节长度 -> {}", hello.len());
    
    println!("hello 栈上的指针 -> {:p}", &hello);

代码运行结果:

hello 字符串的内容 -> hello
hello 堆上的指针 -> 0x1f20a76cd00
hello 的容量 -> 15
hello 的字节长度 -> 5
hello 栈上的指针 -> 0x76a26ff7c0

上面代码首先初始化了一个容量15的字符串hello。然后使用push方法,向其中添加了5个char类型的字符。

然后输出字符串的内容,指针,容量,字节长度。注意最后的&hellohello.as_ptr()两个地址是不一样的。&hello获取的是字符串变量在栈上的指针地址,而hello.as_ptr()获取的是hello字符串在堆中字节序列的指针地址。具体内存模型,下面会讲到。

0x02 字符串在内存的表示

为什么Rust要设计两种字符串?它们有什么区别?前面讲了那么多,也都是概念,真正要搞明白它们之间的关系,还要深入到内存里面去剖析。下面就一起来剖析String&strstr,字面量的关系。

以下面这几个变量为例:

let hello_string = String::from("hello");
let hello_str = &hello_string[1..];
let hello_literal = "world";
image

hello_string是一个可变长度的字符串,它在内存中的结果与向量类似,真正的字符串则存放在堆上。在堆上给String分配一个可伸缩缓冲区,因此可以按需来调整其大小。

hello_str是一个字符串切片,是对其它变量拥有的一段UTF-8文本的引用。它只是“借用”了这些文本而已。&str其实也是一个胖指针(Fat Pointer),包含实际数据的地址和其长度。可以把&str想象成一个&[u8],只不过他能存储格式完好的UTF-8。

hello_literal是一个字符串字面量,它通常跟程序的机器码存储在预分配的只读内存区,当程序执行的时候创建,程序退出时会自动释放。

扩展:什么是胖指针(Fat Pointer)?

定义:胖指针(Fat Pointer)是一个双字宽的值,它除了指向对象的地之外,还会额外存储长度信息。

通俗点说,普通指针通常是占内存8个字节,而胖指针则是占内存16个字节,因为它比较宽,所以叫胖指针。如切片(Slice)类型,它保存着指向堆上的地址和长度。

如何理解str类型?

在Rust中是没有GC的,程序的内存由编译器去分配,代码最终编译为LLVM IR,其携带了内存分配的信息。因此,要更合理的分配内存,编译器必须预先知道类型的大小。

然而str则是无固定大小的字符串,它仅仅是个类型而已,无法确定其大小,在运行时之前没有人知道它的大小。而在Rust中,大部分的类型都是可以在编译期确定大小的类型(Sized Type),如:i32占4个字节,i64占8个字节,在程序编译期就可以确定它的大小。当然也存在动态大小的类型(Dynamic Sized Type),经常简称为DST,如:str,由于它无法在编译期确定大小,因此就不能声明。对于这种情况,在Rust则提供了引用类型,字符串切片的引用类型&str。因为它是胖指针,可以在编译期确定大小哦。

0x03 小结

str字符串序列存储于程序的堆内存中或者静态只读区。而&strString都存储在栈上,指针指向strstr在Rust中仅仅作为一个类型存在。那么在一个程序中到底是使用&str还是String呢?由于所有权的知识还没介绍过,所以这里先不讨论这个问题。现在只需知道&str可以引用任何字符串的任意切片即可。在这节课里涉及了很多关于内存的知识,后面我也会抽时间讲下有关内存的一些概念。下节课主要讲解下字符串的简单常用方法。

0x04 本节源码

014 · StudyRust - 码云 - 开源中国 (gitee.com)

下节预告——字符串的常用方法。

你可能感兴趣的:(RUST 学习日记 第14课 ——字符串(二))