标准C++类string的Copy-On-Write技术(一)

标准C++类std::string的
内存共享和Copy-On-Write技术
 
陈皓

1、             概念

 
Scott Meyers 在《 More Effective C++ 》中举了个例子,不知你是否还记得?在你还在上学的时候,你的父母要你不要看电视,而去复习功课,于是你把自己关在房间里,做出一副正在复习功课的样子,其实你在干着别的诸如给班上的某位女生写情书之类的事,而一旦你的父母出来在你房间要检查你是否在复习时,你才真正捡起课本看书。这就是“拖延战术”,直到你非要做的时候才去做。
 
当然,这种事情在现实生活中时往往会出事,但其在编程世界中摇身一变,就成为了最有用的技术,正如 C++ 中的可以随处声明变量的特点一样, Scott Meyers 推荐我们,在真正需要一个存储空间时才去声明变量(分配内存),这样会得到程序在运行时最小的内存花销。执行到那才会去做分配内存这种比较耗时的工作,这会给我们的程序在运行时有比较好的性能。必竟, 20% 的程序运行了 80% 的时间。
 
当然,拖延战术还并不只是这样一种类型,这种技术被我们广泛地应用着,特别是在操作系统当中,当一个程序运行结束时,操作系统并不会急着把其清除出内存,原因是有可能程序还会马上再运行一次(从磁盘把程序装入到内存是个很慢的过程),而只有当内存不够用了,才会把这些还驻留内存的程序清出。
 
写时才拷贝( Copy-On-Write )技术,就是编程界“懒惰行为”――拖延战术的产物。举个例子,比如我们有个程序要写文件,不断地根据网络传来的数据写,如果每一次 fwrite 或是 fprintf 都要进行一个磁盘的 I/O 操作的话,都简直就是性能上巨大的损失,因此通常的做法是,每次写文件操作都写在特定大小的一块内存中(磁盘缓存),只有当我们关闭文件时,才写到磁盘上(这就是为什么如果文件不关闭,所写的东西会丢失的原因)。更有甚者是文件关闭时都不写磁盘,而一直等到关机或是内存不够时才写磁盘, Unix 就是这样一个系统,如果非正常退出,那么数据就会丢失,文件就会损坏。
 
呵呵,为了性能我们需要冒这样大的风险,还好我们的程序是不会忙得忘了还有一块数据需要写到磁盘上的,所以这种做法,还是很有必要的。
 
 

2、             标准C++std::stringCopy-On-Write

 
在我们经常使用的 STL 标准模板库中的 string 类,也是一个具有写时才拷贝技术的类。 C++ 曾在性能问题上被广泛地质疑和指责过,为了提高性能, STL 中的许多类都采用了 Copy-On-Write 技术。这种偷懒的行为的确使使用 STL 的程序有着比较高要性能。
 
这里,我想从 C++ 类或是设计模式的角度为各位揭开 Copy-On-Write 技术在 string 中实现的面纱,以供各位在用 C++ 进行类库设计时做一点参考。
 
在讲述这项技术之前,我想简单地说明一下 string 类内存分配的概念。通过常, string 类中必有一个私有成员,其是一个 char* ,用户记录从堆上分配内存的地址,其在构造时分配内存,在析构时释放内存。因为是从堆上分配内存,所以 string 类在维护这块内存上是格外小心的, string 类在返回这块内存地址时,只返回 const char* ,也就是只读的,如果你要写,你只能通过 string 提供的方法进行数据的改写。
 

2.1、         特性

 
由表及里,由感性到理性,我们先来看一看 string 类的 Copy-On-Write 的表面特征。让我们写下下面的一段程序:
 

#include
#include
using namespace std;
 
main()
{
       string str1 = "hello world";
       string str2 = str1;
      
       printf ("Sharing the memory:\n");
       printf ("\tstr1's address: %x\n", str1.c_str() );
       printf ("\tstr2's address: %x\n", str2.c_str() );
      
    str1[1]='q';
       str2[1]='w';
 
       printf ("After Copy-On-Write:\n");
       printf ("\tstr1's address: %x\n", str1.c_str() );
       printf ("\tstr2's address: %x\n", str2.c_str() );
 
       return 0;
}
 
这个程序的意图就是让第二个 string 通过第一个 string 构造,然后打印出其存放数据的内存地址,然后分别修改 str1 str2 的内容,再查一下其存放内存的地址。程序的输出是这样的(我在 VC6.0 g++ 2.95 都得到了同样的结果):
 

> g++ -o stringTest stringTest.cpp
> ./stringTest
Sharing the memory:
        str1's address: 343be9
        str2's address: 343be9
After Copy-On-Write:
        str1's address: 3407a9
        str2's address: 343be9
 
从结果中我们可以看到,在开始的两个语句后, str1 str2 存放数据的地址是一样的,而在修改内容后, str1 的地址发生了变化,而 str2 的地址还是原来的。从这个例子,我们可以看到 string 类的 Copy-On-Write 技术。

你可能感兴趣的:(C++,String,Copy-On-Write)