vc中常见字符类型的讨论

一、将要讨论的问题

char

wchar_t

TCHAR

_TCHAR

_T

_TEXT

__T

LPSTR  

LPCSTR  

LPCTSTR  

LPWSTR  

CString

 

 

二、一切的基础

首先,char就不说了,单个字节表示,ansi的方式

wchar_t是Unicode字符的数据类型,宽字符,用两个字节表示,它实际定义在<string.h>里:

 typedef unsigned short wchar_t;

我们都知道,在一个工程的属性中有一个选项:

Character set-----àUse UnicodeCharacter set   or    Use Multi-Byte Character set

它让你在以UNNICODE或MBCS的方式来使用字节

如果选了Use Unicode Character set,也就是说定义了宏:

#define UNICODE

如果Use  Multi-Byte Character set,也就是没有定义宏:

#define UNICODE,而定义了宏_MBCS

这是有很大区别的,直接造成了使用字符处理函数等多方面的差异。

尤其是在界面编程时,如果想考虑可移植性(即可在ansi下用,由可在Unicode下用),那么方法一:写两套代码,全部用宏的方式注释开,然后使用预处理,决定是使用Unicode还是MBCS。

方式二:和方式一一样,只不过编译器替我们做了这些,这就是TCHAR、TEXT、_T等一些列宏。

 

 

三、TCHAR及ANSI、UNICODE兼容性

TCHAR是定义在其中的一个宏,它视你是否定义了_UNICODE宏而定义成char或者wchar_t。

#ifdef UNICODE
typedef wchar_t TCHAR;
  #else
  typedef char TCHAR;
  #endif


如果你使用了TCHAR,那么就不应该使用ANSI的strXXX函数或者Unicode的wcsXXX函数了,而必须使用TChar.h中定义的_tcsXXX函数。另外,为了解决刚才提到带“L”的问题,TChar.h中定义了一个宏:“_TEXT”。

 以strcpy函数为例子,总结一下:
 .如果你想使用ANSI字符串,那么请使用这一套写法:
 char szString[100];
 strcpy(szString,"test");
 .如果你想使用Unicode字符串,那么请使用这一套:
 wchar_t szString[100];
 wcscpy(szString,L"test");
 .如果你想通过定义_UNICODE宏,而编译ANSI或者Unicode字符串代码:
 TCHAR szString[100];
 _tcscpy(szString,_TEXT("test"));

这样就很清楚了,还要注意一点是_TEXT这个宏

源码是这样的:

#define TEXT(quote) __TEXT(quote)   // r_winnt

如果定义了UNICODE,那么,#define __TEXT(quote) L##quote 

如果没有定义UNICODE,那么,#define __TEXT(quote) quote         // r_winnt

#define _T(x)       __T(x)

#define _TEXT(x)    __T(x)

如果定义了UNICODE,那么#define __T(x)      L ## x

如果没有定义UNICODE,那么#define __T(x)       x

很清楚了吧,本质上,_T   TEXT   _TEXT 这三个宏都是 __T 或者  __TEXT, 而后二者视情况决定在x前是否加上宏L

宏 L 表示将ANSI字符串转换成unicode的字符串,就是每个字符占用两个字节。

综上所述:当既想在ANSI上用,又想在UNICODE上用时,应该使用TCHAR来定义,然后使用_tcsXXX的函数,将字符串常量用TEXT等宏预处理。

 

四、常见基本字符类型及他们的引申宏定义在MBCS和UNICODE的指向:

Type

MBCS

Unicode

注释

TCHAR

char

wchar_t

映射宏,当定义UNICODE时,TCHAR映射到 wchar_t,否则,那么它映射到 char

_T

_TEXT

TEXT

__T

__TEXT

char

wchar_t

ASCII模式下,它们被忽略,也就是说被预处理器删除掉,但是如果定义了UNICODE,   则它们会将常量字符串转换成等价的   UNICODE

LPTSTR

TCHAR*

(实质上char*)

TCHAR*

(实质上wchar_t*)

 

LPCTSTR

const  TCHAR*

(实质上const char*)

const  TCHAR*

(实质上const wchar_t*)

 

WCHAR

wchar_t

wchar_t

始终是wchar_t

CHAR

char

char

始终是char

LPSTR

char*

char*

始终是char*

LPCSTR     

const char*

const char*

始终是const char*

LPWSTR

wchar_t*   

wchar_t*   

始终是wchar_t*   

LPCWSTR

const wchar_t*

const wchar_t*

始终是const wchar_t*

 

 

 

 

 

C表示const

W表示宽字符

T表示TCHAR,可移植

LP 指针

 

五、CString

MFC中封装了CString类,让很多初用MFC的人暗爽….但是久了会发现,CString和上述的多种类型转换、或者上述类型之间相互转换起来确实不方便,容易搞晕。

 

CString是封装了TCHAR,因此将编译条件从MBCS改为UNICODE(或者反过来时)都不需要修改代码,这就是TCHAR这个宏定义当初被引入的初衷。

构造CString对象的时候,会使用TCHAR数据类型,也就是说内部是根据编译条件(MBCS或UNICODE)将初始化数据转换为char或wchar_t的。

 

很多喜欢在MFC下编程的人一开始很喜欢CString,因为微软把他的基础功能封装的挺不错,不用去管理内存和使用指针。但是它还是有很多问题的,比如滥用operator操作使得内存拷贝越界,不过他的CopyBeforeWrite技术还是不错的,另外,他和stl的vector一样,使用了动态增加空间的方法。具体内部剖析:

http://blog.csdn.net/zp373860147/article/details/6968853

 

 

六、一些转换

话说现在,大部分程序开发会是在Unicode编译条件下进行吧。

那么char*和宽字符的互相转换就比较常用了。

1、 Unicode下CString转为char*:

方法一:使用API:WideCharToMultiByte进行转换

CString str = _T("你好world");

//注意:以下n和len的值大小不同,n是按字符计算的,len是按字节计算的
int n = str.GetLength();     // n = 7, len = 9

//获取宽字节字符的大小,大小是按字节计算的
int len = WideCharToMultiByte(CP_ACP,0,str,str.GetLength(),NULL,0,NULL,NULL);

//为多字节字符数组申请空间,数组大小为按字节计算的宽字节字节大小
char * pFileName = new char[len+1];   //以字节为单位

//宽字节编码转换成多字节编码
WideCharToMultiByte(CP_ACP,0,str,str.GetLength(),pFileName,len,NULL,NULL);

pFileName[len+1] = '\0';   //多字节字符以'\0'结束

 

方法二:使用函数:T2A、W2A

(ATL中的函数,使用USES_CONVERSION一定要小心,它们从堆栈上分配内存,直到调用它的函数返回,该内存不会被释放。如果在一个循环中,这个宏被反复调用几万次,将不可避免的产生stackoverflow。在一个函数的循环体中使用A2W等字符转换宏可能引起栈溢出。)

CString str = _T("你好world ");

//声明标识符
 USES_CONVERSION;

//调用函数,T2A和W2A均支持ATL和MFC中的字符转换
char * pFileName = T2A(str);  
//char * pFileName = W2A(str);//也可实现转换

//注意:有时候可能还需要添加引用#include   <afxpriv.h>

 

 

2、Unicode下char *转换为CString

方法一:使用API:MultiByteToWideChar进行转换

char * pFileName = "你好world";

//计算char *数组大小,以字节为单位,一个汉字占两个字节
int charLen = strlen(pFileName);

//计算多字节字符的大小,按字符计算。
int len = MultiByteToWideChar(CP_ACP,0,pFileName,charLen,NULL,0);

//为宽字节字符数组申请空间,数组大小为按字节计算的多字节字符大小
TCHAR *buf = new TCHAR[len + 1];

//多字节编码转换成宽字节编码
MultiByteToWideChar(CP_ACP,0,pFileName,charLen,buf,len);

buf[len] = '\0'; //添加字符串结尾,注意不是len+1

//将TCHAR数组转换为CString
CString pWideChar;
pWideChar.Append(buf);

//删除缓冲区
delete []buf;

方法二:使用函数:A2T、A2W

char * pFileName = "你好world";

USES_CONVERSION;
CString s = A2T(pFileName);

//CString s = A2W(pFileName);

方法三:使用_T宏,将字符串转换为宽字符

//多字节字符集,在vc6和vc7种可以编译通过的语句,但VS2005不能通过,默认为Unicode字符集
//AfxMessageBox("加载数据失败",0);

//书写代码使用TEXT("")或_T(""),文本在UNICODE和非UNICODE程序里都通用
AfxMessageBox(_T("加载数据失败"),0); 

//注意:直接转换在基于MBCS的工程可以,但在基于Unicode字符集的工程中直接转换是//不可行的,CString会以Unicode的形式来保存数据,强制类型转换只会返回第一个字符。

 

 


你可能感兴趣的:(编程,vector,null,mfc,character,程序开发)