C++营养(RAII)

C++的营养 
莫华枫 
    动物都会摄取食物,吸收其中的营养,用于自身生长和活动。然而,并非食物中所有的物质都能为动物所吸收。那些无法消化的物质,通过消化道的另一头(某些动物消化道只有一头)排出体外。不过,一种动物无法消化的排泄物,是另一种动物(生物)的食物,后者可以从中摄取所需的营养。 
    一门编程语言,对于程序员而言,如同食物那样,包含着所需的养分。当然也包含着无法消化的东西。不同的是,随着程序员不断成长,会逐步消化过去无法消化的那些东西。 
    C++可以看作一种成分复杂的食物,对于多数程序员而言,是无法完全消化的。正因为如此,很多程序员认为C++太难以消化,不应该去吃它。但是,C++的营养不可谓不丰富,就此舍弃,而不加利用,则是莫大的罪过。好在食物可以通过加工,变得易于吸收,比如说发酵。鉴于程序员们的消化能力的差异,也为了让C ++的营养能够造福他人,我就暂且扮演一回酵母菌,把C++的某些营养单独提取出来,并加以分解,让那些消化能力不太强的程序员也能享受它的美味。:) 
    (为了让这些营养便于消化,我将会用C#做一些案例。选择C#的原因很简单,因为我熟悉。:)) 
RAII 
    RAII,好古怪的营养啊!它的全称应该是“Resource Acquire Is Initial”。这是C++创始人Bjarne Stroustrup发明的词汇,比较令人费解。说起来,RAII的含义倒也不算复杂。用白话说就是:在类的构造函数中分配资源,在析构函数中释放资源。这样,当一个对象创建的时候,构造函数会自动地被调用;而当这个对象被释放的时候,析构函数也会被自动调用。于是乎,一个对象的生命期结束后将会不再占用资源,资源的使用是安全可靠的。
    下面便是在C++中实现RAII的典型代码: 
        class file 
        { 
        public: 
            file(string const& name) { 
                  m_fileHandle=open_file(name.cstr()); 
            } 
            ~file() { 
                  close_file(m_fileHandle); 
            } 
            ... 
        private: 
            handle m_fileHandle; 
        } 
    很典型的“在构造函数里获取,在析构函数里释放”。如果我写下代码:      
        void fun1() ...{ 
            file myfile("my.txt"); 
            ... //操作文件 
        }    //此处销毁对象,调用析构函数,释放资源 
    当函数结束时,局部对象myfile的生命周期也结束了,析构函数便会被调用,资源会得到释放。而且,如果函数中的代码抛出异常,那么析构函数也会被调用,资源同样会得到释放。所以,在RAII下,不仅仅资源安全,也是异常安全的。 
    但是,在如下的代码中,资源不是安全的,尽管我们实现了RAII: 
        void fun2() ...{ 
            file pfile=new file("my.txt"); 
                ... //操作文件 
        } 
    因为我们在堆上创建了一个对象(通过new),但是却没有释放它。我们必须运用delete操作符显式地加以释放: 
        void fun3() ...{ 
            file pfile=new file("my.txt"); 
                ... //操作文件 
                delete pfile; 
        } 
    否则,非但对象中的资源得不到释放,连对象本身的内存也得不到回收。(将来,C++的标准中将会引入GC(垃圾收集),但正如下面分析的那样,GC依然无法确保资源的安全)。 
    现在,在fun3(),资源是安全的,但却不是异常安全的。因为一旦函数中抛出异常,那么delete pfile;这句代码将没有机会被执行。C++领域的诸位大牛们告诫我们:如果想要在没有GC的情况下确保资源安全和异常安全,那么请使用智能指针: 
        void fun4() ...{ 
              shared_ptr <file> spfile(new file("my.txt")); 
              ... //操作文件 
        }  //此处,spfile结束生命周期的时候,会释放(delete)对象 
    那么,智能指针又是怎么做到的呢?下面的代码告诉你其中的把戏(关于智能指针的更进一步的内容,请参考std::auto_ptr,boost或tr1的智能指针): 
        template <typename T> 
        class smart_ptr 
        ...{ 
        public: 
            smart_ptr(T* p):m_ptr(p) ...{} 
            ~smart_ptr() ...{ delete m_ptr; } 
            ... 
        private: 
            T* m_ptr; 
        } 
    没错,还是RAII。也就是说,智能指针通过RAII来确保内存资源的安全,也间接地使得对象上的RAII得到实施。不过,这里的RAII并不是十分严格:对象(所占的内存也是资源)的创建(资源获取)是在构造函数之外进行的。广义上,我们也把它划归RAII范畴。但是,Matthew Wilson在《Imperfect C++》一书中,将其独立出来,称其为RRID(Resource Release Is Destruction)。RRID的实施需要在类的开发者和使用者之间建立契约,采用相同的方法获取和释放资源。比如,如果在shared_ptr构造时使用malloc(),便会出现问题,因为shared_ptr是通过delete释放对象的。 
    对于内置了GC的语言,资源管理相对简单。不过,事情并非总是这样。下面的C#代码摘自MSDN Library的C#编程指南,我略微改造了一下: 
        static void CodeWithoutCleanup() 
        ...{ 
            System.IO.FileStream file = null; 
            System.IO.FileInfo fileInfo = new System.IO.FileInfo("C:"file.txt"); 
            file = fileInfo.OpenWrite(); 
            file.WriteByte(0xF); 
        } 
    那么资源会不会泄漏呢?这取决于对象的实现。如果通过OpenWrite()获得的FileStream对象,在析构函数中执行了文件的释放操作,那么资源最终不会泄露。因为GC最终在执行GC操作的时候,会调用Finalize()函数(C#类的析构函数会隐式地转换成Finalize()函数的重载)。这是由于C#使用了引用语义(严格地讲,是对引用类型使用引用语义),一个对象实际上不是对象本身,而是对象的引用。如同C++中的那样,引用在离开作用域时,是不会释放对象的。否则,便无法将一个对象直接传递到函数之外。在这种情况下,如果没有显式地调用Close()之类的操作,资源将不会得到立刻释放。但是像文件、锁、数据库链接之类属于重要或稀缺的资源,如果等到GC执行回收,会造成资源不足。更有甚者,会造成代码执行上的问题。我曾经遇到过这样一件事:我执行了一个sql操作,获得一个结果集,然后执行下一个sql,结果无法执行。这是因为我使用的SQL Server 2000不允许在一个数据连接上同时打开两个结果集(很多数据库引擎都是这样)。第一个结果集用完后没有立刻释放,而GC操作则尚未启动,于是便造成在一个未关闭结果集的数据连接上无法执行新的sql的问题。 
    所以,只要涉及了内存以外的资源,应当尽快释放。(当然,如果内存能够尽快释放,就更好了)。对于上述CodeWithoutCleanup()函数,应当在最后调用file对象上的Close()函数,以便释放文件: 
        static void CodeWithoutCleanup() 
        ...{ 
            System.IO.FileStream file = null; 
            System.IO.FileInfo fileInfo = new System.IO.FileInfo("C:"file.txt"); 
            file = fileInfo.OpenWrite(); 
            file.WriteByte(0xF); 
            file.Close(); 
        } 
    现在,这个函数是严格资源安全的,但却不是严格异常安全的。如果在文件的操作中抛出异常,Close()成员将得不到调用。此时,文件也将无法及时关闭,直到GC完成。为此,需要对异常作出处理: 
        static void CodeWithCleanup() 
        ...{ 
            System.IO.FileStream file = null; 
            System.IO.FileInfo fileInfo = null; 
            try 
            ...{ 
                fileInfo = new System.IO.FileInfo("C:"file.txt"); 
                file = fileInfo.OpenWrite(); 
                file.WriteByte(0xF); 
            } 
            catch(System.Exception e) 
            ...{ 
                System.Console.WriteLine(e.Message); 
            } 
            finally 
            ...{ 
                if (file != null) 
                ...{ 
                    file.Close(); 
                } 
            } 
      } 
    try-catch-finally是处理这种情况的标准语句。但是,相比前面的C++代码fun1()和fun4()繁琐很多。这都是没有RAII的后果啊。下面,我们就来看看,如何在C#整出RAII来。 
    一个有效的RAII应当包含两个部分:构造/析构函数的资源获取/释放和确定性的析构函数调用。前者在C#中不成问题,C#有构造函数和析构函数。不过, C#的构造函数和析构函数是不能用于RAII的,原因一会儿会看到。正确的做法是让一个类实现IDisposable接口,在IDisposable:: Dispose()函数中释放资源: 
        class RAIIFile : IDisposable 
        ...{ 
        public RAIIFile(string fn) ...{ 
                System.IO.FileInfo fileInfo = new System.IO.FileInfo(fn); 
                file = fileInfo.OpenWrite(); 
            } 

        public void Dispose() ...{ 
                  file.Close(); 
              } 

        private System.IO.FileStream file = null; 
        } 
    下一步,需要确保文件在退出作用域,或发生异常时被确定性地释放。这项工作需要通过C#的using语句实现: 
        static void CodeWithRAII() 
        ...{ 
            using(RAIIFile file=new RAIIFile("C:"file.txt")) 
            ...{ 
                ... //操作文件 
            } //文件释放 

        } 

 一旦离开using的作用域,file.Dispose()将被调用,文件便会得到释放,即便抛出异常,亦是如此。相比CodeWithCleanup ()中那坨杂乱繁复的代码,CodeWithRAII()简直可以算作赏心悦目。更重要的是,代码的简洁和规则将会大幅减少出错可能性。值得注意的是 using语句只能作用于实现IDisposable接口的类,即便实现了析构函数也不行。所以对于需要得到RAII的类,必须实现 IDisposable。通常,凡是涉及到资源的类,都应该实现这个接口,便于日后使用。实际上,.net库中的很多与非内存资源有关的类,都实现了 IDisposable,都可以利用using直接实现RAII。 
    但是,还有一个问题是using无法解决的,就是如何维持类的成员函数的RAII。我们希望一个类的成员对象在该类实例创建的时候获取资源,而在其销毁的时候释放资源: 
        class X 
        ...{ 
        public: 
            X():m_file("c:\file.txt") ...{} 
        private: 
            File m_file;    //在X的实例析构时调用File::~File(),释放资源。 
        } 
    但是在C#中无法实现。由于uing中实例化的对象在离开using域的时候便释放了,无法在构造函数中使用: 
        class X 
        ...{ 
            public X() ...{ 
                using(m_file=new RAIIFile("C:\file.txt")) 
                ...{ 
                }//此处m_file便释放了,此后m_file便指向无效资源 
            } 
            pravite RAIIFile m_file; 
        } 
    对于成员对象的RAII只能通过在析构函数或Dispose()中手工地释放。我还没有想出更好的办法来。 
    至此,RAII的来龙去脉已经说清楚了,在C#里也能从中汲取到充足的养分。但是,这还不是RAII的全部营养,RAII还有更多的扩展用途。在《Imperfect C++》一书中,Matthew Wilson展示了RAII的一种非常重要的应用。为了不落个鹦鹉学舌的名声,这里我给出一个真实遇到的案例,非常简单:我写的程序需要响应一个Grid 控件的CellTextChange事件,执行一些运算。在响应这个事件(执行运算)的过程中,不能再响应同一个事件,直到处理结束。为此,我设置了一个标志,用来控制事件响应: 
        class MyForm 
        ...{ 
        public: 
            MyForm():is_cacul(false) ...{} 
            ... 
            void OnCellTextChange(Cell& cell) ...{ 
                if(is_cacul) 
                    return; 
                is_cacul=true; 
                ... //执行计算任务 
                is_cacul=false; 
            } 
        private: 
            bool is_cacul; 
        }; 
    但是,这里的代码不是异常安全的。如果在执行计算的过程中抛出异常,那么is_cacul标志将永远是true。此后,即便是正常的 CellTextChange也无法得到正确地响应。同前面遇到的资源问题一样,传统上我们不得不求助于try-catch语句。但是如果我们运用 RAII,则可以使得代码简化到不能简化,安全到不能再安全。我首先做了一个类: 
        class BoolScope 
        ...{ 
        public: 
            BoolScope(bool& val, bool newVal) 
                :m_val(val), m_old(val) ...{ 
                m_val=newVal; 
            } 
            ~BoolScope() ...{ 
                m_val=m_old; 
            } 

        private: 
            bool& m_val; 
            bool m_old; 
        }; 
    这个类的作用是所谓“域守卫(scoping)”,构造函数接受两个参数:第一个是一个bool对象的引用,在构造函数中保存在m_val成员里;第二个是新的值,将被赋予传入的那个bool对象。而该对象的原有值,则保存在m_old成员中。析构函数则将m_old的值返还给m_val,也就是那个 bool对象。有了这个类之后,便可以很优雅地获得异常安全: 
        class MyForm 
        ...{ 
        public: 
            MyForm():is_cacul(false) ...{} 
            ... 
            void OnCellTextChange(Cell& cell) ...{ 
                if(is_cacul) 
                    return; 
                BoolScope bs_(is_cacul, true); 
                ... //执行计算任务 
            } 
        private: 
            bool is_cacul; 
        }; 
    好啦,任务完成。在bs_创建的时候,is_cacul的值被替换成true,它的旧值保存在bs_对象中。当OnCellTextChange()返回时,bs_对象会被自动析构,析构函数会自动把保存起来的原值重新赋给is_cacul。一切又都回到原先的样子。同样,如果异常抛出,is_cacul 的值也会得到恢复。 
    这个BoolScope可以在将来继续使用,分摊下来的开发成本几乎是0。更进一步,可以开发一个通用的Scope模板,用于所有类型,就像《Imperfect C++》里的那样。 
    下面,让我们把战场转移到C#,看看C#是如何实现域守卫的。考虑到C#(.net)的对象模型的特点,我们先实现引用类型的域守卫,然后再来看看如何对付值类型。其原因,一会儿会看到。 
    我曾经需要向一个grid中填入数据,但是填入的过程中,控件不断的刷新,造成闪烁,也影响性能,除非把控件上的AutoDraw属性设为false。为此,我做了一个域守卫类,在填写操作之前关上AutoDraw,完成或异常抛出时再打开: 
        class DrawScope : IDisposable 
        ...{ 
            public DrawScope(Grid g, bool val) ...{ 
                m_grid=g; 
                m_old=g->AutoDraw; 
                m_grid->AutoDraw=val; 
            } 
            public void Dispose() ...{ 
                    g->AutoDraw=m_old; 
              } 
            private Grid m_grid; 
            private bool m_old; 
        }; 
    于是,我便可以如下优雅地处理AutoDraw属性设置问题: 
        static void LoadData(Grid g) ...{ 
            using(DrawScope ds=new DrawScope(g, false)) 
            ...{ 
                ... //执行数据装载 
            } 
        } 
    现在,我们回过头,来实现值类型的域守卫。案例还是采用前面的CellTextChange事件。当我试图着手对那个is_cacul执行域守卫时,遇到了不小的麻烦。起初,我写下了这样的代码: 
        class BoolScope 
        ...{ 
            private ??? m_val; //此处用什么类型? 
            private bool m_old; 
        }; 
    m_val应当是一个指向一个对象的引用,C#是没有C++那些指针和引用的。在C#中,引用类型定义的对象实际上是一个指向对象的引用;而值类型定义的对象实际上是一个对象,或者说“栈对象”,但却没有一种指向值类型的引用。(关于这种对象模型的优劣,后面的“题外话”小节有一些探讨)。我尝试着采用两种办法,一种不成功,而另一种成功了。 
    C#(.net)有一种box机制,可以将一个值对象打包,放到堆中创建。这样,或许可以把一个值对象编程引用对象,构成C#可以引用的东西: 
        class BoolScope : IDisposable 
        ...{ 
            public BoolScope(object val, bool newVal) ...{ 
                    m_val=val;                //#1 
                    m_old=(bool)val; 
                    (bool)m_val=newVal;    //#2 
            } 
            public void Dispose() ...{ 
                    (bool)m_val=m_old;    //#3 
              } 
            private object m_val; 
            private bool m_old; 
        } 
    使用时,应当采用如下形式: 
        class MyForm 
        ...{ 
            public MyForm() ...{ 
                is_cacul=new bool(false); //boxing 
            } 
            ... 
            void OnCellTextChange(Cell& cell) ...{ 
                if(is_cacul) 
                    return; 
                using(BoolScope bs=new BoolScope(is_cacul, true)) 
                ...{ 
                    ... //执行计算任务 
                } 
            } 
            private object is_cacul; 
        }; 
    很可惜,此路不通。因为在代码#1的地方,并未执行引用语义,而执行了值语义。也就是说,没有把val(它是个引用)的值赋给m_val(也是个引用),而是为m_val做了个副本。以至于在代码#2和#3处无法将newVal和m_old赋予val(也就是is_cacul)。或许C#的设计者有无数理由说明这种设计的合理性,但是在这里,却扼杀了一个非常有用的idom。而且,缺少对值对象的引用手段,大大限制了语言的灵活性和扩展性。 
    第二种方法就非常直白了,也绝对不应当出问题,就是使用包装类: 
        class BoolVal 
        ...{ 
            public BoolVal(bool v) 
            ...{ 
                m_val=v; 
            } 
            public bool getVal() ...{ 
                return m_val; 
            } 
            public void setVal(bool v) ...{ 
                m_val=v; 
            } 
            private bool m_val; 
        } 
        class BoolScope : IDisposable 
        ...{ 
            public IntScope(BoolVal iv, bool v) 
            ...{ 
                m_old = iv.getVal(); 
                m_Val = iv; 
                m_Val.setVal(v); 
            } 
            public virtual void Dispose() 
            ...{ 
                m_Val.setVal(m_old); 
            } 
            private BoolVal m_Val; 
            private bool m_old; 
        } 

 这里,我做了一个包装类BoolVal,是个引用类。然后以此为基础,编写了一个BoolScope类。然后,便可以正常使用域守卫: 
        class MyForm 
        ...{ 
            public MyForm() ...{ 
                m_val.setVal(false); //boxing 
            } 
            ... 
            void OnCellTextChange(Cell& cell) ...{ 
                if(is_cacul) 
                    return; 
                using(BoolScope bs=new BoolScope(m_val, true)) 
                ...{ 
                    ... //执行计算任务 
                } 
            } 
            private BoolVal m_val; 
        }; 
    好了,一切都很不错。尽管C#的对象模型给我们平添了不少麻烦,使得我多写了不少代码,但是使用域守卫类仍然是一本万利的事情。作为GP fans,我当然也尝试着在C#里做一些泛型,以免去反复开发包装类和域守卫类的苦恼。这些东西,就留给大家做练习吧。:) 
    在某些场合下,我们可能会对一些对象做一些操作,完事后在恢复这个对象的原始状态,这也是域守卫类的用武之地。只是守卫一个结构复杂的类,不是一件轻松的工作。最直接的做法是取出所有的成员数据,在结束后再重新复制回去。这当然是繁复的工作,而且效率不高。但是,我们将在下一篇看到,如果运用swap手法,结合复制构造函数,可以很方便地实现这种域守卫。这我们以后再说。 
    域守卫作为RAII的一个扩展应用,非常简单,但却极具实用性。如果我们对“资源”这个概念加以推广,把一些值、状态等等内容都纳入资源的范畴,那么域守卫类的使用是顺理成章的事。 

题外话:C#的对象模型 
    C#的设计理念是简化语言的学习和使用。但是,就前面案例中出现的问题而言,在特定的情况下,特别是需要灵活和扩展的时候,C#往往表现的差强人意。C# 的对象模型实际上是以堆对象和引用语义为核心的。不过,考虑到维持堆对象的巨大开销和性能损失,应用在一些简单的类型上,比如int、float等等,实在得不尝失。为此,C#将这些简单类型直接作为值处理,当然也允许用户定义自己的值类型。值类型拥有值语义。而值类型的本质是栈对象,引用类型则是堆对象。 
    这样看起来应该是个不错的折中,但是实际上却造成了不大不小的麻烦。前面的案例已经明确地表现了这种对象模型引发的麻烦。由于C#抛弃值和引用的差异(为了简化语言的学习和使用),那么对于一个引用对象,我们无法用值语义访问它;而对于一个值对象,我们无法用引用语义访问。对于前者,不会引发本质性的问题,因为我们可以使用成员函数来实现值语义。但是对于后者,则是无法逾越的障碍,就像在BoolScope案例中表现的那样。在这种情况下,我们不得不用引用类包装值类型,使得值类型丧失了原有的性能和资源优势。 
    更有甚者,C#的对象模型有时会造成语义上的冲突。由于值类型使用值语义,而引用类型使用引用语义。那么同样是对象定义,便有可能使用不同的语义: 
        int i, j=10;  //值类型 
        i=j;            //值语义,两个对象复制内容 
        i=5;          //i==5, j==10 
        StringBuilder s1, s2 = new StringBuilder("s2");  //引用类型 
        s1 = s2;        //引用语义,s1和s2指向同一个对象 
        s1.Append(" is s1");    //s1==s2=="s1 is s2" 
    同一个形式具有不同语义,往往会造成意想不到的问题。比如,在软件开发的最初时刻,我们认为某个类型是值类型就足够了,还可以获得性能上的好处。但是,随着项目进入后期阶段,发现最初的设计有问题,值类型限制了该类型的某些特性(如不能拥有析构函数,不能引用等等),那么需要把它改成引用类型。于是便引发一大堆麻烦,需要检查所有使用该类型的代码,然后把赋值操作改成复制操作。这肯定不是讨人喜欢的工作。为此,在实际开发中,很少自定义值类型,以免将来自缚手脚。于是,值类型除了语言内置类型和.net库预定义的类型外,成了一件摆设。 
    相比之下,传统语言,如Ada、C、C++、Pascal等,区分引用和值的做法尽管需要初学者花更多的精力理解其中的差别,但在使用中则更加妥善和安全。毕竟学习是暂时的,使用则是永远的。

你可能感兴趣的:(C++)