在 C/C++ 中,不同的数据类型之间可以相互转换:无需用户指明如何转换的称为自动类型转换(隐式类型转换),需要用户显式地指明如何转换的称为强制类型转换(显式类型转换)。
隐式类型转换利用的是编译器内置的转换规则,或者用户自定义的转换构造函数以及类型转换函数(这些都可以认为是已知的转换规则),例如从 int 到 double、从派生类到基类、从type *到void *、从 double 到 Complex 等。
type *是一个具体类型的指针,例如int *、double *、Student *等,它们都可以直接赋值给void *指针。而反过来是不行的,必须使用强制类型转换才能将void *转换为type *,例如,malloc() 分配内存后返回的就是一个void *指针,我们必须进行强制类型转换后才能赋值给指针变量。
当隐式转换不能完成类型转换工作时,我们就必须使用强制类型转换了。强制类型转换的语法也很简单,只需要在表达式的前面增加新类型的名称,格式为:(new_type) expression
众所周知,数据是放在内存中的,变量(以及指针、引用)是给这块内存起的名字,有了变量就可以找到并使用这份数据。但问题是,该如何使用呢?诸如数字、文字、符号、图形、音频、视频等数据都是以二进制形式存储在内存中的,它们并没有本质上的区别,那么,00010000 该理解为数字 16 呢,还是图像中某个像素的颜色呢,还是要发出某个声音呢?如果没有特别指明,我们并不知道。也就是说,内存中的数据有多种解释方式,使用之前必须要确定。这种「确定数据的解释方式」的工作就是由数据类型(Data Type)来完成的。例如int a;表明,a 这份数据是整数,不能理解为像素、声音、视频等。顾名思义,数据类型用来说明数据的类型,确定了数据的解释方式,让计算机和程序员不会产生歧义。C/C++ 支持多种数据类型,包括内置类型(例如 int、double、bool 等)和自定义类型(结构体类型和类类型)。所谓 数据类型转换,就是对数据所占用的二进制位做出重新解释。如果有必要,在重新解释的同时还会修改数据,改变它的二进制位。对于隐式类型转换,编译器可以根据已知的转换规则来决定是否需要修改数据的二进制位;而对于强制类型转换,由于没有对应的转换规则,所以能做的事情仅仅是重新解释数据的二进制位,但无法对数据的二进制位做出修正。这就是隐式类型转换和强制类型转换最根本的区别。
以上这些都是隐式类型转换,它对数据的调整都是有益的,能够让程序更加安全稳健地运行。隐式类型转换必须使用已知的转换规则,虽然灵活性受到了限制,但是由于能够对数据进行恰当地调整,所以更加安全(几乎没有风险)。强制类型转换能够在更大范围的数据类型之间进行转换,例如不同类型指针(引用)之间的转换、从 const 到非 const 的转换、从 int 到指针的转换(有些编译器也允许反过来)等,这虽然增加了灵活性,但是由于不能恰当地调整数据,所以也充满了风险,程序员要小心使用。下面的代码演示了不同类型指针之间的转换所带来的风险:
#include
using namespace std;
class Base{
public:
Base(int a = 0, int b = 0): m_a(a), m_b(b){ }
private:
int m_a;
int m_b;
};
int main(){
//风险①:破坏类的封装性
Base *pb = new Base(10, 20);
int n = *((int*)pb + 1);
cout<<n<<endl;
//风险②:进行无意义的操作
float f = 56.2;
int *pi = (int*)&f;
*pi = -23;
cout<<f<<endl;
return 0;
}
运行结果:
20
NaN
NaN 是“not a number”的缩写,意思是“不是一个数字”。
Base 类有两个 private 属性的成员变量,原则上讲它们不能在类的外部访问,但是当把对象指针进行强制类型转换后,就突破了这种限制,破坏了类的封装性。f 是 float 类型的变量,用来存储浮点数,但是通过指针将一个整数直接放到了 f 所在的内存,由于整数和浮点数的存储格式不一样,所以直接放入一个整数毫无意义。
隐式类型转换和显式类型转换最根本的区别是:隐式类型转换除了会重新解释数据的二进制位,还会利用已知的转换规则对数据进行恰当地调整;而显式类型转换只能简单粗暴地重新解释二进制位,不能对数据进行任何调整。其实,能不能对数据进行调整是显而易见地事情,有转换规则就可以调整,没有转换规则就不能调整,当进行数据类型转换时,编译器明摆着是知道有没有转换规则的。站在这个角度考虑,强制类型转换的语法就是多此一举,编译器完全可以自行判断是否需要调整数据。例如从int *转换到float *,加不加强制类型转换的语法都不能对数据进行调整。C/C++ 之所以增加强制类型转换的语法,是为了提醒程序员这样做存在风险,一定要谨慎小心。说得通俗一点,你现在的类型转换存在风险,你自己一定要知道。
类型转换只能发生在相关类型或者相近类型之间,两个毫不相干的类型不能相互转换,即使使用强制类型转换也不行。例如,两个没有继承关系的类不能相互转换,基类不能向派生类转换(向下转型),类类型不能向基本类型转换,指针和类类型之间不能相互转换。
下面的代码演示了不相干类型之间的转换:
#include
using namespace std;
class A{};
class B{};
class Base{ };
class Derived: public Base{ };
int main(){
A a;
B b;
Base obj1;
Derived obj2;
a = (A)b; //Error: 两个没有继承关系的类不能相互转换
int n = (int)a; //Error: 类类型不能向基本类型转换
int *p = (int*)b; //Error: 指针和类类型之间不能相互转换
obj2 = (Derived)obj1; //Error: 向下转型
obj1 = obj2; //Correct: 向上转型
return 0;
}
隐式类型转换是安全的,显式类型转换是有风险的,C语言之所以增加强制类型转换的语法,就是为了强调风险,让程序员意识到自己在做什么。
但是,这种强调风险的方式还是比较粗放,粒度比较大,它并没有表明存在什么风险,风险程度如何。再者,C风格的强制类型转换统一使用( ),而( )在代码中随处可见,所以也不利于使用文本检索工具(例如 Windows 下的 Ctrl+F、Linux 下的 grep 命令、Mac 下的 Command+F)定位关键代码。
为了使潜在风险更加细化,使问题追溯更加方便,使书写格式更加规范,C++对类型转换进行了分类,并新增了四个关键字来予以支持,它们分别是:
这四个关键字的语法格式都是一样的,具体为:
xxx_cast(data)
newType 是要转换成的新类型,data 是被转换的数据。例如,老式的C风格的 double 转 int 的写法为:
double scores = 95.5;
int n = (int)scores;
C++ 新风格的写法为:
double scores = 95.5;
int n = static_cast(scores);
static_cast 只能用于良性转换,这样的转换风险较低,一般不会发生什么意外,例如:
1)原有的自动类型转换,例如 short 转 int、int 转 double、const 转非 const、向上转型等;
2)void 指针和具体类型指针之间的转换,例如void *转int *、char *转void *等;
3)有转换构造函数或者类型转换函数的类与其它类型之间的转换,例如 double 转 Complex(调用转换构造函数)、Complex 转 double(调用类型转换函数)。
需要注意的是,static_cast 不能用于无关类型之间的转换,因为这些转换都是有风险的,例如:
1)两个具体类型指针之间的转换,例如int *转double *、Student *转int *等。不同类型的数据存储格式不一样,长度也不一样,用 A 类型的指针指向 B 类型的数据后,会按照 A 类型的方式来处理数据:如果是读取操作,可能会得到一堆没有意义的值;如果是写入操作,可能会使 B 类型的数据遭到破坏,当再次以 B 类型的方式读取数据时会得到一堆没有意义的值。
2)int 和指针之间的转换。将一个具体的地址赋值给指针变量是非常危险的,因为该地址上的内存可能没有分配,也可能没有读写权限,恰好是可用内存反而是小概率事件。
static_cast 也不能用来去掉表达式的 const 修饰和 volatile 修饰。换句话说,不能将 const/volatile 类型转换为非 const/volatile 类型。
static_cast 是“静态转换”的意思,也就是在编译期间转换,转换失败的话会抛出一个编译错误。
下面的代码演示了 static_cast 的正确用法和错误用法:
#include
#include
using namespace std;
class Complex{
public:
Complex(double real = 0.0, double imag = 0.0): m_real(real), m_imag(imag){ }
public:
operator double() const { return m_real; } //类型转换函数
private:
double m_real;
double m_imag;
};
int main(){
//下面是正确的用法
int m = 100;
Complex c(12.5, 23.8);
long n = static_cast<long>(m); //宽转换,没有信息丢失
char ch = static_cast<char>(m); //窄转换,可能会丢失信息
int *p1 = static_cast<int*>( malloc(10 * sizeof(int)) ); //将void指针转换为具体类型指针
void *p2 = static_cast<void*>(p1); //将具体类型指针,转换为void指针
double real= static_cast<double>(c); //调用类型转换函数
//下面的用法是错误的
float *p3 = static_cast<float*>(p1); //不能在两个具体类型的指针之间进行转换
p3 = static_cast<float*>(0X2DF9); //不能将整数转换为指针类型
return 0;
}
const_cast 比较好理解,它用来去掉表达式的 const 修饰或 volatile 修饰。换句话说,const_cast 就是用来将 const/volatile 类型转换为非 const/volatile 类型。
下面我们以 const 为例来说明 const_cast 的用法:
#include
using namespace std;
int main(){
const int n = 100;
int *p = const_cast<int*>(&n);
*p = 234;
cout<<"n = "<<n<<endl;
cout<<"*p = "<<*p<<endl;
return 0;
}
运行结果: n = 100
*p = 234
&n用来获取 n 的地址,它的类型为const int *,必须使用 const_cast 转换为int *
类型后才能赋值给 p。由于 p 指向了 n,并且 n 占用的是栈内存,有写入权限,所以可以通过 p 修改 n 的值。
有可能会问,为什么通过 n 和 *p 输出的值不一样呢?这是因为 C++ 对常量的处理更像是编译时期的#define,是一个值替换的过程,代码中所有使用 n 的地方在编译期间就被替换成了 100。换句话说,“cout<<"n = "< cout<<"n = "<<100< 这样以来,即使程序在运行期间修改 n 的值,也不会影响 cout 语句了。 使用 const_cast 进行强制类型转换可以突破 C/C++ 的常数限制,修改常数的值,因此有一定的危险性;但是程序员如果这样做的话,基本上会意识到这个问题,因此也还有一定的安全性。 reinterpret 是“重新解释”的意思,顾名思义,reinterpret_cast 这种转换仅仅是对二进制位的重新解释,不会借助已有的转换规则对数据进行调整,非常简单粗暴,所以风险很高。 reinterpret_cast 可以认为是 static_cast 的一种补充,一些 static_cast 不能完成的转换,就可以用 reinterpret_cast 来完成,例如两个具体类型指针之间的转换、int 和指针之间的转换(有些编译器只允许 int 转指针,不允许反过来)。 下面的代码代码演示了 reinterpret_cast 的使用: 运行结果: 可以想象,用一个 float 指针来操作一个 char 数组是一件多么荒诞和危险的事情,这样的转换方式不到万不得已的时候不要使用。将A转换为int,使用指针直接访问 private 成员刺穿了一个类的封装性,更好的办法是让类提供 get/set 函数,间接地访问成员变量。 dynamic_cast 用于在类的继承层次之间进行类型转换,它既允许向上转型(Upcasting),也允许向下转型(Downcasting)。向上转型是无条件的,不会进行任何检测,所以都能成功;向下转型的前提必须是安全的,要借助 RTTI 进行检测,所有只有一部分能成功。 dynamic_cast 与 static_cast 是相对的,dynamic_cast 是“动态转换”的意思,static_cast 是“静态转换”的意思。dynamic_cast 会在程序运行期间借助 RTTI 进行类型转换,这就要求基类必须包含虚函数;static_cast 在编译期间完成类型转换,能够更加及时地发现错误。 dynamic_cast 的语法格式为: dynamic_cast (expression) newType 和 expression 必须同时是指针类型或者引用类型。换句话说,dynamic_cast 只能转换指针类型和引用类型,其它类型(int、double、数组、类、结构体等)都不行。 对于指针,如果转换失败将返回 NULL;对于引用,如果转换失败将抛出std::bad_cast异常。 (1) 向上转型(Upcasting) 「向上转型时不执行运行期检测」虽然提高了效率,但也留下了安全隐患,请看下面的代码: 情况①是正确的,没有任何问题。对于情况②,pd1 指向的是整型变量 n,并没有指向一个 Derived 类的对象,在使用 dynamic_cast 进行类型转换时也没有检查这一点,而是将 pd1 的值直接赋给了 pb1(这里并不需要调整偏移量),最终导致 pb1 也指向了 n。因为 pb1 指向的不是一个对象,所以get_a()得不到 m_a 的值(实际上得到的是一个垃圾值),pb2->func()也得不到 func() 函数的正确地址。 pb2->func()得不到 func() 的正确地址的原因在于,pb2 指向的是一个假的“对象”,它没有虚函数表,也没有虚函数表指针,而 2) 向下转型(Downcasting) Downcasting successfully: A* to B* 这段代码中类的继承顺序为:A --> B --> C --> D。pa 是A类型的指针,当 pa 指向 A 类型的对象时,向下转型失败,pa 不能转换为B或C类型。当 pa 指向 D 类型的对象时,向下转型成功,pa 可以转换为B或C*类型。同样都是向下转型,为什么 pa 指向的对象不同,转换的结果就大相径庭呢? 在《5.9 RTTI机制下的对象内存模型(透彻)[1]》一节中,讲到了有虚函数存在时对象的真实内存模型,并且也了解到,每个类都会在内存中保存一份类型信息,编译器会将存在继承关系的类的类型信息使用指针“连接”起来,从而形成一个继承链(Inheritance Chain),也就是如下图所示的样子: 对于本例中的情况①,pa 指向 A 类对象,根据该对象找到的就是 A 的类型信息,当程序从这个节点开始向上遍历时,发现 A 的上方没有要转换的 B 类型或 C 类型(实际上 A 的上方没有任何类型了),所以就转换败了。对于情况②,pa 指向 D 类对象,根据该对象找到的就是 D 的类型信息,程序从这个节点向上遍历的过程中,发现了 C 类型和 B 类型,所以就转换成功了。 总起来说,dynamic_cast 会在程序运行过程中遍历继承链,如果途中遇到了要转换的目标类型,那么就能够转换成功,如果直到继承链的顶点(最顶层的基类)还没有遇到要转换的目标类型,那么就转换失败。对于同一个指针(例如 pa),它指向的对象不同,会导致遍历继承链的起点不一样,途中能够匹配到的类型也不一样,所以相同的类型转换产生了不同的结果。 从表面上看起来 dynamic_cast 确实能够向下转型,本例也很好地证明了这一点:B 和 C 都是 A 的派生类,我们成功地将 pa 从 A 类型指针转换成了 B 和 C 类型指针。但是从本质上讲,dynamic_cast 还是只允许向上转型,因为它只会向上遍历继承链。造成这种假象的根本原因在于,派生类对象可以用任何一个基类的指针指向它,这样做始终是安全的。本例中的情况②,pa 指向的对象是 D 类型的,pa、pb、pc 都是 D 的基类的指针,所以它们都可以指向 D 类型的对象,dynamic_cast 只是让不同的基类指针指向同一个派生类对象罢了。
3、reinterpret_cast 关键字
#include
3.0262e+29 254、dynamic_cast 关键字
向上转型时,只要待转换的两个类型之间存在继承关系,并且基类包含了虚函数(这些信息在编译期间就能确定),就一定能转换成功。因为向上转型始终是安全的,所以 dynamic_cast 不会进行任何运行期间的检查,这个时候的 dynamic_cast 和 static_cast 就没有什么区别了。#include
func() 是虚函数,必须到虚函数表中才能找到它的地址。
向下转型是有风险的,dynamic_cast 会借助 RTTI 信息进行检测,确定安全的才能转换成功,否则就转换失败。那么,哪些向下转型是安全地呢,哪些又是不安全的呢?下面通过一个例子来演示:#include
运行结果:
Downcasting failed: A* to B*
Downcasting failed: A* to C*
Class D
Downcasting successfully: A* to C*
Class D
当使用 dynamic_cast 对指针进行类型转换时,程序会先找到该指针指向的对象,再根据对象找到当前类(指针指向的对象所属的类)的类型信息,并从此节点开始沿着继承链向上遍历,如果找到了要转化的目标类型,那么说明这种转换是安全的,就能够转换成功,如果没有找到要转换的目标类型,那么说明这种转换存在较大的风险,就不能转换。