最近一直在做基于Windows的开发,而windows的开发当中最让我迷惑的一个问题就是无穷无尽的字符串类型,char*, wchar *, lpstr, lptstr, lpctstr等等,然后还要经常涉及到其中的相互转换,所以想系统的研究一下所有的windows类型及其相互转换的关系。
1.字符类型
讲到字符串,首先首先需要了解的是字符,在Windows中主要包含两种字符,一种是ANSI字符,另一种是Unicode字符(使用UTF16编码,即每个字符编码为2个字节)。C++中表示ANSI字符的关键字是char,然后每个字符的长度是1;而表示Unicode字符的类型是wchar_t,每个字符的长度是2。而为了和语言有一些区别,Windows又定义了自己的数据类型(这是微软最烦的一点了!)
typedef charCHAR; //8位字符
typedefwchar_t WCHAR;//16位字符
2.字符串
讲完了字符类型,现在开始讲字符串了,Windows定义了非常多的字符指针或字符串指针
// 8位字符指针
typedef CHAR*PCHAR;
typedef CHAR*PSTR;
typedef CONSTCHAR *PCSTR
// 16位字符指针
typedef WCHAR*PWCHAR;
typedef WCHAR*PWSTR;
typedef CONSTWCHAR *PCWSTR;
首先介绍的是上面定义的六种字符指针,名字还是比较好记的,P代表Point(指针),W代码Unicode,C代表Const(常量),CHAR 和STR代码字符。所以PCHAR和PSTR的意思是一样的就是ANSI类型的字符指针;而PWCHAR和PWSTR的类型也是一样的,就是Unicode类型的字符指针;PCSTR和PCWSTR分别代表常量ANSI字符指针和常量Unicode字符指针(什么?不知道啥叫常量?请出门左转《EffectiveC++》条款03,尽可能使用Const)。
同时,Windows为了保证使用ANSI或Unicode都能通过编译,又定义了下面的类型,这些宏会自动检测是否定义了Unicode。
#ifdef UNICODE
typedef WCHAR TCHAR, *PTCHAR, PTSTR;
typedef CONST WCHAR *PCTSTR;
#define __TEXT(quote) quote // r_winnt
#define __TEXT(quote) L##quote
#else
typedef CHAR TCHAR, *PTCHAR, PTSTR;
typedef CONST CHAR *PCTSTR;
#define __TEXT(quote) quote
#endif
#defineTEXT(quote) __TEXT(quote)
从上面可以看出,如果定义了UNICODE宏,TCHAR等同于WCHAR, PTSTR和PTCHAR等同于PWCHAR和PWSTR,而如果没有定义UNICODE宏,则TCHAR等同于CHAR,PTSTR和PTCHAR等同于PCHAR和PSTR;PCTSTR也是同理。
同时还要注意的是,这里添加了TEXT宏,TEXT等同于__TEXT宏,__TEXT则能自动将字符串转换为ANSI类型字符串或UNICODE类型字符串。而L加字符串则自动表示为Unicode类型字符串。
而在很多场合还会出现LPSTR,LPCHAR, LPCSTR,这个L是对应于16位OS而已代表long,也就是长指针,而现在32位的OS上所有前面加L的类型和不加L的类型已经没有任何区别了。
下一种类型是BSTR, BSTR是一个Pascal-Style字符串和C-Style字符串的混合物,在COM中用的非常多,因为COM接口希望字符串可以用在所有语言中,继而定义了这个类型。Pascal-style字符串是在存储字符串的首几个字节会用在记录字符串的长度,所以这种类型的字符串不需要在末尾添加额外的字符标示结束。所以BSTR字符串的意思是在字符串的首几个字节存储字符串的长度,而字符串的结尾以\0结束。但是对BSTR字符串取下标时则是指向第一个字符而不是字符串长度,这样又利用C-Style的程序使用。
然后还有两个标准的字符串类, String和CString。String是标准C++中提供的程序库,而CString则是MFC中提供的字符串类。
好吧,我们最后来总结一下所有的字符串类型。
按照不同的style字符类型分有五类:
C-Style ANSI类型字符串:CHAR *,PSTR, LPSTR, LPCSTR, PCHAR.
C-StyleUnicode类型字符串:WCHAR *, PWSTR, LPWSTR, PWCHAR,LPCWSTR.
C-Style 同时兼容ANSI和Unicode类型字符串:TEXT,__TEXT(), TCHAR *, PTSTR, LPTSTR, PCTSTR, LPCTSTR.
C-style和Pascal-Style兼并的字符串:BSTR
两种C++类:String, CString.
不同类型字符串组合的含义技巧是:
L (无效) + P(字符指针) + 不加(ANSI类型)或W(Unicode类型) 或T (ANSI 或Unicode类型) + 不加(非常量字符串)或C(常量字符串) + STR或CHAR(CHAR结尾时前面不能加C).
3.转化
下面是重头戏,也就是不同类型直接的转换技巧:
转换的顺序是:
(1)首先先讲可以等号直接转换的:
CHAR * ==PSTR, LPSTR
WCHAR * ==PWSTR, LPWSTR
TCHAR * ==PTSTR, LPTSTR
原因也很明显,其实都是一种类型嘛。
同时CHAR *类型和WCHAR *也能同时转换为TCHAR *,反之不行。
而PSTR可以直接等于转换PCSTR,PWSTR等于转换为PWCSTR,反之则不行。
(2)PCSTR转换为PSTR
一般情况下可以使用C语言方式的强制类型转换,或者C++方式的Const_cast将const去掉。
(3)PSTR转换为PWSTR
一般有两种方式,第一种是简单的W2A或A2W,W2A代表将PWSTR转换为PSTR,反之A2W表示将PSTR转换为PWSTR,见下面的code:
USES_CONVERSION;
PWSTR wszText = L"1.Unicode字符转换为ANSI;";
PSTR szText="2.ANSI字符转换成Unicode.";
printf("%s\n",W2A(wszText));
wprintf(L"%s\n",A2W(szText));
注意一点是不要在大循环或者非常长的函数中使用W2A或A2W,具体分析看http://www.cnblogs.com/rainbowzc/archive/2009/09/07/1562168.html。
另一种转换方法是MultiByteToWideChar和WideCharToMultiByte。MultiByteToWideChar表示将ANSI字符串转换为Unicode字符串,而WideCharToMultiByte则是将Unicode字符串转换为ANSI字符串。
MultiByteToWideChar的形式是
int MultiByteToWideChar(
UINT CodePage,
DWORD dwFlags,
LPCSTRlpMultiByteStr,
intcchMultiByte,
LPWSTR lpWideCharStr,
intcchWideChar
);
6个参数的含义为:CodePage(多字符所对应的的字符集,一般是CP_ACP), dwFlags(一些标准位,一般不需要使用,置0即可),lpMultiByteStr(多字符的地址),cchMultiBytes(多字符的字符串长度,相当于字符串的字节数,如果是1,则由函数判断长度), lpWideCharStr(宽字符的地址),cchWideChar(宽字符的字符长度,相当于字符串的个数)。上面的两个长度都是包含‘\n’的长度。
如果lpWideCharStr不为NULL,返回转换成功的长度;如果lpWideCharStr为NULL,返回lpMultiByteStr的字符个数(不是字符串长度!!!)。
常用的用法为:
//先将lpWideCharStr置成NULL,从而得到szText的长度。
int iBuffSize =::MultiByteToWideChar(CP_ACP, 0, szText, -1, NULL, 0);
//判断字符长度是否大于0
if (iBuffSize> 0)
{
LPWSTRwszString = new wchar_t[iBuffSize+1];
int nChars= ::MultiByteToWideChar(CP_ACP, 0, szText, -1, wszString, iBuffSize);
//这是担心转换失败,从而nChars为0,再讲wszString置成空字符串
nChars= nChars < iBuffSize ? nChars:iBuffSize;
wszString[nChars]= 0;
}
另一个是宽字符到多字符:
intWideCharToMultiByte(
UINT CodePage,
DWORD dwFlags,
LPCWSTR lpWideCharStr,
int cchWideChar,
LPSTR lpMultiByteStr,
int cchMultiByte,
LPCSTR lpDefaultChar,
LPBOOL pfUsedDefaultChar
);
这里比MultiByteToWideChar多两个参数,而前面的六个参数都是一样的,lpDefaultChar的作用是当函数遇到一个不能转换的宽字符时,会用lpDefaultChar来代替,如果lpDefaultChar为NULL时,则用?代替。pfUsedDefaultChar的作用是如果有一个字符没有成功转换,则pfUsedDefaultChar为TRUE,否则为FALSE。
int iBuffSize =::WideCharToMultiByte(CodePage, 0, szString, -1, NULL, 0,NULL, false);
if (iBuffSize > 0 )
{
m_pString= new char[iBuffSize];
::WideCharToMultiByte(CodePage, 0,szString, -1, m_pString, iBuffSize, NULL, false);
}
(4)PSTR和BSTR的相互转换
首先是PSTR转换为BSTR:
BSTR bstrText = _bstr_t(“thisis a bstr”);
BSTR转换为PSTR:
_bstr_b b = bstrText;
PSTR lpszText = b;