本篇主要针对于Windows
编程过程中遇到字符串转换的一些问题,因为讲的比较详细,需要大家仔细读下去,读完之后,你就会豁然开朗(如果不想刨根问底,直接看最后的举例说明即可)。以后对于这样的问题你都能解决了。
再解决问题之前要先弄懂一些概念。
WIndows
里面有两种字符编码方式,分别为ANSI和UNICODE编码
。 什么是ANSI
,什么又是UNICODE
呢?
ANSI
字符集,它们正式的名称应该是多字节字符系统(Multi-Byte Chactacter System,即MBCS)
。
Unicode
码也是一种国际标准编码,采用二个字节编码,与ANSI
码不兼容。
ANSI
(使用"")中的字符采用8bit,而UNICODE
(使用L"")中的字符采用16bit。对于字符来说ANSI以单字节存放英文字符,以双字节存放中文等字符,而Unicode,英文和中文的字符都以双字节存放。 8bit的ANSI
编码只能表示256种字符,表示26个英文字母是绰绰有余的,但是表示汉字,韩国语等有着成千上万个字符的非西方字符肯定就不够了,正是如此才引入了UNICODE
标准。
那么ANSI
类型的字符和UNICODE
类型的字符在Windows
中如何定义,如何使用呢?
因为Windows
支持两种字符串,这样对应的就有了两套字符串处理函数,比如:strlen和wcslen
,分别用于处理两种字符串
ANSI:即char,可用字符串处理函数:strcat( ),strcpy( ), strlen( )等 以str打头的函数。
UNICODE:即wchar_t 可用字符串处理函数:wcscat(),wcscpy(),wcslen()等 以wcs打头的函数。
补充:
char
:单字节变量类型,最多表示256个字符,
wchar_t
:宽字节变量类型(即:unsigned short
类型),用于表示Unicode
Windows既支持ANSI又支持UNICODE
,在编写代码过程中不可能在要求类型转换的时候,重新改变字符串的类型,和使用于字符串上的操作函数。为此, 标准C
运行期库和Windows
提供了宏定义的方式。
在C语言里面提供了_UNICODE
宏(有下划线),在Windows
里面提供了UNICODE
宏(无下划线),只要定了_UNICODE宏和UNICODE宏
,系统就会自动切换到UNICODE
版本,否则,系统按照ANSI
的方式进行编译和运行。
即:
_UNICODE宏用于C运行期头文件,
UNICODE宏则用于Windows头文件.
只定义了宏并不能实现自动的转换,他还需要一系列的字符定义支持。为了存储这样的通用字符,就有了TCHAR LPTSTR这样一类通用类型。
TCHAR
如果定义了UNICODE宏则TCHAR被定义为wchar_t。
typedef wchar_t TCHAR;
否则TCHAR被定义为char
typedef char TCHAR;
LPTSTR
如果定义了UNICODE宏则LPTSTR被定义为LPWSTR。
typedef LPTSTR LPWSTR;
否则TCHAR被定义为char
typedef LPTSTR LPSTR;
当没有定义_UNICODE宏时,TCHAR = char,_tcslen =strlen
当定义了_UNICODE宏时,TCHAR = wchar_t , _tcslen = wcslen
T
是非常有意思的一个符号(TCHAR、LPCTSTR、LPTSTR、_T()、_TEXT()...)
,它表示使用一种中间类型,既不明确表示使用ANSI
,也不明确表示使用 UNICODE
。那到底使用哪种字符集?编译的时候才决定
我们一般用这几个宏定义(_T、TEXT("")和L"" )
来解决字符串类型的转换问题,我们经常见这三个符号,他们到底有啥区别呢?其实,_T、_TEXT、TEXT
三者效果相同,那这几个宏分别代表什么含义呢?
ANSI
字符串转换成unicode
的字符串,就是每个字符占用两个字节。 strlen("asd") = 3;
strlen(L"asd") = 6;
_T
的作用
_T宏可以把一个引号引起来的字符串,根据你的环境设置,使得编译器会根据编译目标环境选择合适的(Unicode还是ANSI)
字符处理方式 , 如果你定义了UNICODE,那么_T
宏会把字符串前面加一个L
。这时 _T("ABCD")
相当于L"ABCD"
,这是宽字符串。如果没有定义,那么_T
宏不会在字符串前面加那个L
,_T("ABCD")
就等价于"ABCD"
_T 、_TEXT、TEXT
使用说明
Example:
TCHAR szStr1[] = TEXT("str1");
char szStr2[] = "str2";
WCHAR szStr3[] = L("str3");
那么第一句话在定义了UNICODE
时会’解释’为第三句话,没有定义时就’解释’成第二句话。
但二句话无论是否定义了UNICODE
都是生成一个ANSI
字符串,而第三句话总是生成UNICODE
字符串。
为了程序的可移植性,建议都用第一种表示方法。 但在某些情况下,某个字符必须为ANSI或UNICODE
,那就用后两种方法。
讲了那么多,相信小伙伴们已经知道了原因,我就简单的用一个例子说一下。以MessageBox(
)函数举例,TextOut()
也一样。
int WINAPI MessageBox(HWND hWnd,LPCTSTR lpText,LPCTSTR lpCaption,UINT uType);
上面的LPCTSTR
是一个不确定的类型,所以我们写代码的时候也可以定义一个不确定的类型,用_T、_TEXT、TEXT
任选一个定义字符串即可 ,这里选择TEXT()
.
Egg:
TCHAR szBuffer[10]=TEXT("str1") ; //灵活的定义数组
//LPTSTR szBuffer1 = new TCHAR[100];//灵活的定义指针
//这里的LPCTSTR对应于_TEXT()这样类型可以任意转换,不管是什么类型的代码都不会出错
MessageBox(szBuffer, _TEXT("123"), MB_CANCELTRYCONTINUE);
补充:VS2015 设置字符集的方法
项目设置:项目–属性–配置属性–常规–字符集–使用Unicode字符集/使用多字节字符集
如果喜欢,就点个赞吧O_MMMM_O