最近一直在做基于Windows的开发,而windows的开发当中最让我迷惑的一个问题就是无穷无尽的字符串类型,char*, wchar *, lpstr, lptstr, lpctstr等等,然后还要经常涉及到其中的相互转换,所以想系统的研究一下所有的windows类型及其相互转换的关系。


1.字符类型

讲到字符串,首先首先需要了解的是字符,在Windows中主要包含两种字符,一种是ANSI字符,另一种是Unicode字符(使用UTF16编码,即每个字符编码为2个字节)。C++中表示ANSI字符的关键字是char,然后每个字符的长度是1;而表示Unicode字符的类型是wchar_t,每个字符的长度是2。而为了和语言有一些区别,Windows又定义了自己的数据类型(这是微软最烦的一点了!)

typedef charCHAR; //8位字符

typedefwchar_t WCHAR;//16位字符


2.字符串

讲完了字符类型,现在开始讲字符串了,Windows定义了非常多的字符指针或字符串指针

// 8位字符指针

typedef CHAR*PCHAR;

typedef CHAR*PSTR;

typedef CONSTCHAR *PCSTR

// 16位字符指针

typedef WCHAR*PWCHAR;

typedef WCHAR*PWSTR;

typedef CONSTWCHAR *PCWSTR;


首先介绍的是上面定义的六种字符指针,名字还是比较好记的,P代表Point(指针),W代码UnicodeC代表Const(常量),CHAR STR代码字符。所以PCHARPSTR的意思是一样的就是ANSI类型的字符指针;而PWCHARPWSTR的类型也是一样的,就是Unicode类型的字符指针;PCSTRPCWSTR分别代表常量ANSI字符指针和常量Unicode字符指针(什么?不知道啥叫常量?请出门左转《EffectiveC++》条款03,尽可能使用Const)。

同时,Windows为了保证使用ANSIUnicode都能通过编译,又定义了下面的类型,这些宏会自动检测是否定义了Unicode


#ifdef UNICODE

typedef WCHAR TCHAR, *PTCHAR, PTSTR;

typedef CONST WCHAR *PCTSTR;

#define __TEXT(quote) quote // r_winnt

#define __TEXT(quote) L##quote

#else

typedef CHAR TCHAR, *PTCHAR, PTSTR;

typedef CONST CHAR *PCTSTR;

#define __TEXT(quote) quote

#endif

#defineTEXT(quote) __TEXT(quote)


从上面可以看出,如果定义了UNICODE宏,TCHAR等同于WCHAR, PTSTRPTCHAR等同于PWCHARPWSTR,而如果没有定义UNICODE宏,则TCHAR等同于CHARPTSTRPTCHAR等同于PCHARPSTRPCTSTR也是同理。

同时还要注意的是,这里添加了TEXT宏,TEXT等同于__TEXT宏,__TEXT则能自动将字符串转换为ANSI类型字符串或UNICODE类型字符串。而L加字符串则自动表示为Unicode类型字符串。

而在很多场合还会出现LPSTRLPCHAR, LPCSTR,这个L是对应于16OS而已代表long,也就是长指针,而现在32位的OS上所有前面加L的类型和不加L的类型已经没有任何区别了。

下一种类型是BSTR BSTR是一个Pascal-Style字符串和C-Style字符串的混合物,在COM中用的非常多,因为COM接口希望字符串可以用在所有语言中,继而定义了这个类型。Pascal-style字符串是在存储字符串的首几个字节会用在记录字符串的长度,所以这种类型的字符串不需要在末尾添加额外的字符标示结束。所以BSTR字符串的意思是在字符串的首几个字节存储字符串的长度,而字符串的结尾以\0结束。但是对BSTR字符串取下标时则是指向第一个字符而不是字符串长度,这样又利用C-Style的程序使用。

然后还有两个标准的字符串类, StringCStringString是标准C++中提供的程序库,而CString则是MFC中提供的字符串类。

好吧,我们最后来总结一下所有的字符串类型。

按照不同的style字符类型分有五类:

C-Style ANSI类型字符串:CHAR *,PSTR, LPSTR, LPCSTR, PCHAR.

C-StyleUnicode类型字符串:WCHAR *, PWSTR, LPWSTR, PWCHAR,LPCWSTR.

C-Style 同时兼容ANSIUnicode类型字符串:TEXT,__TEXT(), TCHAR *, PTSTR, LPTSTR, PCTSTR, LPCTSTR.

C-stylePascal-Style兼并的字符串:BSTR

两种C++类:String, CString.

不同类型字符串组合的含义技巧是:

L (无效) + P(字符指针) + 不加(ANSI类型)W(Unicode类型)  T (ANSI Unicode类型) + 不加(非常量字符串)C(常量字符串) + STRCHAR(CHAR结尾时前面不能加C).


3.转化

下面是重头戏,也就是不同类型直接的转换技巧:

转换的顺序是:


1)首先先讲可以等号直接转换的:

CHAR * ==PSTR, LPSTR

WCHAR * ==PWSTR, LPWSTR

TCHAR * ==PTSTR, LPTSTR

原因也很明显,其实都是一种类型嘛。

同时CHAR *类型和WCHAR *也能同时转换为TCHAR *,反之不行。

PSTR可以直接等于转换PCSTRPWSTR等于转换为PWCSTR,反之则不行。


2PCSTR转换为PSTR

一般情况下可以使用C语言方式的强制类型转换,或者C++方式的Const_castconst去掉。


3PSTR转换为PWSTR

一般有两种方式,第一种是简单的W2AA2WW2A代表将PWSTR转换为PSTR,反之A2W表示将PSTR转换为PWSTR,见下面的code

USES_CONVERSION;

PWSTR wszText = L"1.Unicode字符转换为ANSI;";

PSTR szText="2.ANSI字符转换成Unicode.";

printf("%s\n",W2A(wszText));

wprintf(L"%s\n",A2W(szText));


注意一点是不要在大循环或者非常长的函数中使用W2AA2W,具体分析看http://www.cnblogs.com/rainbowzc/archive/2009/09/07/1562168.html

另一种转换方法是MultiByteToWideCharWideCharToMultiByteMultiByteToWideChar表示将ANSI字符串转换为Unicode字符串,而WideCharToMultiByte则是将Unicode字符串转换为ANSI字符串。

MultiByteToWideChar的形式是

int MultiByteToWideChar(

UINT CodePage,

DWORD dwFlags,

LPCSTRlpMultiByteStr,

intcchMultiByte,

LPWSTR lpWideCharStr,

intcchWideChar

);

6个参数的含义为:CodePage(多字符所对应的的字符集,一般是CP_ACP), dwFlags(一些标准位,一般不需要使用,置0即可),lpMultiByteStr(多字符的地址),cchMultiBytes(多字符的字符串长度,相当于字符串的字节数,如果是1,则由函数判断长度), lpWideCharStr(宽字符的地址),cchWideChar(宽字符的字符长度,相当于字符串的个数)。上面的两个长度都是包含‘\n’的长度。

如果lpWideCharStr不为NULL,返回转换成功的长度;如果lpWideCharStrNULL,返回lpMultiByteStr的字符个数(不是字符串长度!!!)。

常用的用法为:

//先将lpWideCharStr置成NULL,从而得到szText的长度。

int iBuffSize =::MultiByteToWideChar(CP_ACP, 0, szText, -1, NULL, 0);

//判断字符长度是否大于0

if (iBuffSize> 0)

{

   LPWSTRwszString = new wchar_t[iBuffSize+1];

   int nChars= ::MultiByteToWideChar(CP_ACP, 0, szText, -1,    wszString, iBuffSize);

   //这是担心转换失败,从而nChars0,再讲wszString置成空字符串

   nChars= nChars < iBuffSize ? nChars:iBuffSize;

   wszString[nChars]= 0;

}


另一个是宽字符到多字符:

intWideCharToMultiByte(

UINT CodePage,

DWORD dwFlags,

LPCWSTR lpWideCharStr,

int cchWideChar,

LPSTR lpMultiByteStr,

int cchMultiByte,

LPCSTR lpDefaultChar,

LPBOOL pfUsedDefaultChar

);


这里比MultiByteToWideChar多两个参数,而前面的六个参数都是一样的,lpDefaultChar的作用是当函数遇到一个不能转换的宽字符时,会用lpDefaultChar来代替,如果lpDefaultCharNULL时,则用?代替。pfUsedDefaultChar的作用是如果有一个字符没有成功转换,则pfUsedDefaultCharTRUE,否则为FALSE


int iBuffSize =::WideCharToMultiByte(CodePage, 0, szString, -1, NULL, 0,NULL, false);

if (iBuffSize > 0 )

{

   m_pString= new char[iBuffSize];

   ::WideCharToMultiByte(CodePage, 0,szString, -1, m_pString, iBuffSize, NULL, false);

}


4PSTRBSTR的相互转换

首先是PSTR转换为BSTR

BSTR bstrText = _bstr_t(“thisis a bstr”);

BSTR转换为PSTR

_bstr_b b = bstrText;

PSTR lpszText = b;