常用的宽字符函数

常用的宽字符函数
由于Windows NT/2000/XP采用的是Unicode字符编码，字符都是双字节的。所以在MFC编程中，一般需要使用双字节的字符类型wchar_t和对应的字符串及其指针类型LPCWSTR和LPCTSTR，并在常数字符串前添加了L转换符，串长计算函数不能用strlen而改用wcslen，串格式打印函数也不能用sprintf，而是改用swprintf。
wchar_t类型，在标准C++中为内置的数据类型和关键字；在C99标准中则为typedef类型，其等价的数据类型与具体的实现有关，在Win32和VC中定义为：
typedef unsigned short wchar_t;
下面是若干常用的宽字符函数（包含在ISO C99 / ISO C++的标准库中）：
#include
size_t wcslen(const wchar_t *s);
int wprintf(const wchar_t * restrict format, ...);
int wscanf(const wchar_t * restrict format, ...);
int swprintf(wchar_t * restrict s, size_t n, const wchar_t * restrict format, ...);
int swscanf(const wchar_t * restrict s, const wchar_t * restrict format, ...);
long int wcstol(const wchar_t * restrict nptr, wchar_t ** restrict endptr, int base);
float wcstof(const wchar_t * restrict nptr, wchar_t ** restrict endptr);
double wcstod(const wchar_t * restrict nptr, wchar_t ** restrict endptr);

#include
errno_t _itow_s( int value, wchar_t *buffer, size_t sizeInCharacters, int radix );
errno_t _ultow_s( unsigned long value, wchar_t *str, size_t sizeOfstr, int radix );

多字节-multibyte
宽字符-widechar
非英语系的大部分语言，存在无法用有限的ascii字符表达的问题。
由此产生了使用多字节字符来表示的办法，比如GB编码的汉字。但多字节带来的一个显著不便就是多字节字符在处理的时候不太方便。比如文本编辑的时候，中英文混排，光标移动、汉字删除时会出现半个汉字的问题。

为了文本处理的方便，许多系统内部采用了将多字节字符和单字节字符都转换称宽字符的办法，将所有的字符都变成等宽，一切都方便了。
这就是说英文字符也可以采用宽字符的表达方式。也是我说上面的说发不够准确的原因。

但宽字符也不是完美的。最简单的问题就是使得采用unicode编码的英文文本体积会扩大一倍....:)

宽字符处理函数函数与普通函数对照表

只要看见“W”就是宽的意思，左边wchar_t，右边char

字符分类：
宽字符函数            普通C函数            描述
iswalnum()             isalnum()              测试字符是否为数字或字母
iswalpha()             isalpha()                测试字符是否是字母
iswcntrl()                iscntrl()                 测试字符是否是控制符
iswdigit()                isdigit()                 测试字符是否为数字
iswgraph()             isgraph()               测试字符是否是可见字符
iswlower()              islower()               测试字符是否是小写字符
iswprint()               isprint()                 测试字符是否是可打印字符
iswpunct()             ispunct()               测试字符是否是标点符号
iswspace()             isspace()              测试字符是否是空白符号
iswupper()             isupper()              测试字符是否是大写字符
iswxdigit()              isxdigit()              测试字符是否是十六进制的数字
wcslen()                 strlen()                  获取字符数组长度

大小写转换：
宽字符函数            普通C函数            描述
towlower()             tolower()            把字符转换为小写
towupper()            toupper()             把字符转换为大写

字符比较：
宽字符函数普通C函数描述
wcscoll() strcoll() 比较字符串

日期和时间转换：
宽字符函数            描述
strftime()               根据指定的字符串格式和locale设置格式化日期和时间
wcsftime()             根据指定的字符串格式和locale设置格式化日期和时间，并返回宽字符串
strptime()              根据指定格式把字符串转换为时间值，是strftime的反过程

打印和扫描字符串：
宽字符函数                       描述
fprintf()/fwprintf()             使用vararg参量的格式化输出
fscanf()/fwscanf()             格式化读入
printf()                              使用vararg参量的格式化输出到标准输出
scanf()                              从标准输入的格式化读入
sprintf()/swprintf()             根据vararg参量表格式化成字符串
sscanf()                           以字符串作格式化读入
vfprintf()/vfwprintf()           使用stdarg参量表格式化输出到文件
vprintf()                             使用stdarg参量表格式化输出到标准输出
vsprintf()/vswprintf()          格式化stdarg参量表并写到字符串

整型间转换：
宽字符函数    普通C函数         描述
wcstod()         strtod()               把宽字符的初始部分转换为双精度浮点数
wcstol()           strtol()               把宽字符的初始部分转换为长整数
wcstoul()          strtoul()             把宽字符的初始部分转换为无符号长整数

整型间转换扩充：
宽字符函数   普通C函数   描述
_itow_s()         itoa()         整型转宽字符串
_ltow_s()        ltoa()         长整型转宽字符串
_ultow_s()       ultoa()        无符号长整数同上

PS：最好别用“_itow”

多字节字符和宽字符转换及操作：
宽字符函数             描述
mblen()                   根据locale的设置确定字符的字节数
mbstowcs()             把多字节字符串转换为宽字符串
mbtowc()/btowc()    把多字节字符转换为宽字符
wcstombs()             把宽字符串转换为多字节字符串
wctomb()/wctob()    把宽字符转换为多字节字符

输入和输出：
宽字符函数     普通C函数     描述
fgetwc()           fgetc()           从流中读入一个字符并转换为宽字符
fgetws()           fgets()           从流中读入一个字符串并转换为宽字符串
fputwc()           fputc()           把宽字符转换为多字节字符并且输出到标准输出
fputws()           fputs()           把宽字符串转换为多字节字符并且输出到标准输出串
getwc()            getc()            从标准输入中读取字符，并且转换为宽字符
getwchar()       getchar()       从标准输入中读取字符，并且转换为宽字符
None               gets()            使用fgetws()
putwc()            putc()            把宽字符转换成多字节字符并且写到标准输出
putwchar()        putchar()       把宽字符转换成多字节字符并且写到标准输出
None               puts()             使用fputws()
ungetwc()         ungetc()         把一个宽字符放回到输入流中

字符串操作：
宽字符函数                   普通C函数          描述
wcscat()                        strcat()               把一个字符串接到另一个字符串的尾部
wcsncat()                      strncat()             类似于wcscat()，而且指定粘接字符串的粘接长度.
wcschr()                        strchr()               查找子字符串的第一个位置
wcsrchr()                       strrchr()             从尾部开始查找子字符串出现的第一个位置
wcspbrk()                      strpbrk()             从一字符字符串中查找另一字符串中任何一个字符第一次出现的位置

wcswcs()/wcsstr()         strchr()              在一字符串中查找另一字符串第一次出现的位置
wcscspn()                    strcspn()             返回不包含第二个字符串的的初始数目
wcsspn()                      strspn()              返回包含第二个字符串的初始数目
wcscpy()                      strcpy()              拷贝字符串
wcsncpy()                    strncpy()             类似于wcscpy()，同时指定拷贝的数目
wcscmp()                      strcmp()              比较两个宽字符串
wcsncmp()                   strncmp()             类似于wcscmp()，还要指定比较字符字符串的数目
wcslen()                       strlen()               获得宽字符串的数目
wcstok()                       strtok()               根据标示符把宽字符串分解成一系列字符串
wcswidth()                   None                   获得宽字符串的宽度
wcwidth()                      None                  获得宽字符的宽度

另外还有对应于memory操作的 wmemcpy()， wmemchr()， wmemcmp()， wmemmove()， wmemset()．

宽字符和多字节字符
C 语言原本是在英文环境中设计的，主要的字符集是7 位的ASCII 码。从此开始，8 位的byte（字节）变成最常见的字符编码单位，但是国际化软件必须能够表示不同的字符，而这些字符数量庞大，无法使用一个字节编码，于是世界上使用各式各样多字节的字符编码集合已经有数十年了，比如用来表示“非拉丁字母”以及“非字母”的中、日、韩文字系统。在1994 年，“Normative Addendum 1”（基准增补一）的采用，让ISO C 可以标准化两种表示大型字符集的方法：宽字符（wide character，该字符集内每个字符使用相同的位长）以及多字节字符（multibyte character，每个字符可以是一到多个字节不等，而某个字节序列的字符值由字符串或流（stream）所在的环境背景决定）。
注意：虽然C现在提供抽象机制，可以处理和转换不同种类的编码集合，但语言本身并没有定义或指定任何编码集合，或任何字符集（除前一节提到的基本源代码字符集和基本运行字符集外）。换句话说，这部分是由个别的实现版本指定如何编码宽字符，以及要支持什么类型的多字节字符编码机制。
自从1994 年的增补之后，C 不只提供char类型，还提供wchar_t类型（宽字符），此类型定义在stddef.h 头文件中。wchar_t 类型足以表示某个实现版本扩展字符集的任何元素。
虽然C 标准没有支持Unicode 字符集，许多实现版本使用Unicode 转换格式UTF-16 和UTF-32（参考http://www.unicode.org）来处理宽字符。Unicode 标准和ISO/IEC 10646标准相当接近，而且是许多既有字符集（包括7 位的ASCII）的超集。如果遵循Unicode标准，wchar_t类型至少是16或32位长，而wchar_t类型的一个值就代表一个Unicode字符。比方说，下列的定义将变量wc 初始化为希腊字母α。

在调用此函数之后，mbStr数组会得到多字节的字符，在这个例子中，也就是"\xCE\xB1"符号。此wctomb()函数的返回值是“所需要的字节个数”，在这个例子中，被赋值到变量nBytes 的值是2，意思是：希腊小写字母alpha 在多字节字符中需要占用两个字节。

常用的宽字符函数

宽字符处理函数函数与普通函数对照表

ANSI字符,UNICODE,宽字符,窄字符,多字节字符集

6.7 多字节字符和宽字符

6.7.1 亚洲语言需要多字节字符

6.7.2 编码变种

6.7.3 宽字符

6.7.4 转换函数

6.7.5 C 语言特征

你可能感兴趣的:(c/c++)