各种字符编码及串结构

首先不好意思在首页占块地方了

字符编码和串结构不是一回事,很多人连这个都不理解就问BSTR和ASCII ANSI UNICODE是怎么回事。

字符编码我理解的就是一套将字符集对应为数字的对应表。比如在ascii编码表中的97就是小写字母a,98是b,65是A,66是B,63是?号,64是@符号。

常用的字符编码有以下几种:
1) ASCII编码,7个二进制位表示(单字节),对应了127个字符。
2) ASC2编码,8个二进制位表示(单字节),对应了256个字符,前128个字符同ascii编码,扩充了一些控制符号。
3) ANSI编码,8个二进制位表示(单字节),对应了256个字符,前128个字符也同ascii编码,同样扩充了一批控制符号,不过符号的位置和ASCII2略有不同。
4) UNICODE编码,16个二进制位表示(双字节),对应65535个字符,范围很大,可以表示东方语言,比如汉字,日语,阿拉伯语等等。

再简单说下那个串结构,串结构太多了,尤其是在c++中的串结构相当繁琐,也是许多c++入门者却步的原因之一,因为c++的串种类太多了,简单列举几个
1) char*  可以表示ascii串,以0作为串结尾标识 和strlen()  strcmp()等函数配套使用
2) wchar* 表示双字节串,以00做为串结尾标识,和wstrlen() wstrcmp()等函数配套使用
3) TCHAR* 自适应UNICODE环境的TCHAR*,这个只是一个宏,Win32为其定义了LPTCHAR等
4) STL::string 是标准模板库的串结构,是unicode串,具体用前导长度的方式还是后缀结束符的方式表示一个串不知道,是一个类,使用非常方便
5) CString 是MFC里的串结构,也是unicode串
6) BSTR 是COM组件中使用的串结构,在调用COM组件时传递串参数都应该转换一下,前导数字的形式表示串长度
还有VB的String是以前导串长度的形式表示串结构等等。

以后再有遇到的字符编码和串结构  就记录在这里好了  也欢迎看到此文的朋友以留言方式补充勘误,我会及时添加或修正。

你可能感兴趣的:(字符编码)