c++汉字按拼音排序

最近做个东西需要对汉字按拼音排序 , 开始对于一些编码方式什么的也不太了解 , 就上网看了一些东西 , 可以参考下面这个 , 我觉得写得比较全面了

http://blog.csdn.net/xiongxiao/article/details/3741731

 

方法亲测可用

 

unicode对汉字进行编码时采用的是偏旁部首  , 简单的汉字排序只需要将unicode转向ansi就行,问题的实质就是实现编码的转换

这个问题在com串处理好像出现的比较多

测试环境 : VS2010

 

 

1,最简单粗暴的方式 , 直接右击项目->属性->配置属性->常规->字符集更改即可  (多字节是ANSI编码)

 

 

2.winApi下的函数WideCharToMultiByte()(也有MultiBytetoWideChar)

下面关于函数的介绍可以参考百度百科.......

函数功能:该函数映射一个unicode字符串到一个多字节字符串

函数原型:

 

int WideCharToMultiByte(

UINT CodePage, //指定执行转换的代码页

DWORD dwFlags, //允许你进行额外的控制,它会影响使用了读音符号(比如重音)的字符

LPCWSTR lpWideCharStr, //指定要转换为宽字节字符串的缓冲区

int cchWideChar, //指定由参数lpWideCharStr指向的缓冲区的字符个数

LPSTR lpMultiByteStr, //指向接收被转换字符串的缓冲区

int cchMultiByte, //指定由参数lpMultiByteStr指向的缓冲区最大值

LPCSTR lpDefaultChar, //遇到一个不能转换的宽字符,函数便会使用pDefaultChar参数指向的字符

LPBOOL pfUsedDefaultChar //至少有一个字符不能转换为其多字节形式,函数就会把这个变量设为TRUE

);

CodePage:指定执行转换的代码页,这个参数可以为系统已安装或有效的任何代码页所给定的值。你也可以指定其为下面的任意一值:

CP_ACP:ANSI代码页;

CP_MACCP:Macintosh代码页;

CP_OEMCP:OEM代码页;

CP_SYMBOL:符号代码页(42);

CP_THREAD_ACP:当前线程ANSI代码页;

CP_UTF7:使用UTF-7转换;

CP_UTF8:使用UTF-8转换。

dwFlags:一组位标记用以指出是否未转换成预作或宽字符(若组合形式存在),是否使用象形文字替代控制字符,以及如何处理无效字符。你可以指定下面是标记常量的组合,含义如下:

  MB_PRECOMPOSED:通常使用预作字符——就是说,由一个基本字符和一个非空字符组成的字符只有一个单一的字符值。这是缺省的转换选择。不能与

  MB_COMPOSITE值一起使用。

  MB_COMPOSITE:通常使用组合字符——就是说,由一个基本字符和一个非空字符组成的字符分别有不同的字符值。这是缺省的转换选择。不能与MB_PRECOMPOSED值一起使用。

  MB_ERR_INVALID_CHARS:如果函数遇到无效的输入字符,它将运行失败,且GetLastErro返回ERROR_NO_UNICODE_TRANSLATION值。

  MB_USEGLYPHCHARS:使用象形文字替代控制字符。

  组合字符由一个基础字符和一个非空字符构成,每一个都有不同的字符值。每个预作字符都有单一的字符值给基础/非空字符的组成。在字符è中,e就是基础字符,而重音符标记就是非空字符。

  函数的缺省动作是转换成预作的形式。如果预作的形式不存在,函数将尝试转换成组合形式。

  标记MB_PRECOMPOSED和MB_COMPOSITE是互斥的,而标记MB_USEGLYPHCHARS和MB_ERR_INVALID_CHARS则不管其它标记如何都可以设置。

lpWideCharStr:指向将被转换的unicode字符串。

cchWideChar:指定由参数lpWideCharStr指向的缓冲区的字符个数。如果这个值为-1,字符串将被设定为以NULL为结束符的字符串,并且自动计算长度。

lpMultiByteStr:指向接收被转换字符串的缓冲区。

cchMultiByte:指定由参数lpMultiByteStr指向的缓冲区最大值(用字节来计量)。若此值为零,函数返回lpMultiByteStr指向的目标缓冲区所必需的字节数,在这种情况下,lpMultiByteStr参数通常为NULL。

lpDefaultCharpfUsedDefaultChar:只有当WideCharToMultiByte函数遇到一个宽字节字符,而该字符在uCodePage参数标识的代码页中并没有它的表示法时,WideCharToMultiByte函数才使用这两个参数。如果宽字节字符不能被转换,该函数便使用lpDefaultChar参数指向的字符。如果该参数是NULL(这是大多数情况下的参数值),那么该函数使用系统的默认字符。该默认字符通常是个问号。这对于文件名来说是危险的,因为问号是个通配符。pfUsedDefaultChar参数指向一个布尔变量,如果Unicode字符串中至少有一个字符不能转换成等价多字节字符,那么函数就将该变量置为TRUE。如果所有字符均被成功地转换,那么该函数就将该变量置为FALSE。当函数返回以便检查宽字节字符串是否被成功地转换后,可以测试该变量。

返回值:如果函数运行成功,并且cchMultiByte不为零,返回值是由 lpMultiByteStr指向的缓冲区中写入的字节数;如果函数运行成功,并且cchMultiByte为零,返回值是接收到待转换字符串的缓冲区所必需的字节数。如果函数运行失败,返回值为零。若想获得更多错误信息,请调用GetLastError函数。它可以返回下面所列错误代码:

ERROR_INSUFFICIENT_BJFFER;ERROR_INVALID_FLAGS;

ERROR_INVALID_PARAMETER;ERROR_NO_UNICODE_TRANSLATION。

注意:指针lpMultiByteStr和lpWideCharStr必须不一样。如果一样,函数将失败,GetLastError将返回ERROR_INVALID_PARAMETER的值。 

Windows CE:不支持参数CodePage中的CP_UTF7和CP_UTF8的值,以及参数dwFlags中的WC_NO_BEST_FIT_CHARS值.

例子:WideCharToMultiByte(CP_ACP , WC_COMPOSITECHECK , UNICODEString , -1 ,szANSIString ,  sizeof(szANSIString) , NULL ,NULL) ;

对于缓冲区一般取ANSI字符串的长度即可

 

3.size_t wcstombs(char *dest, const wchar_t *src, size_t n);

#include

如dest 非NULL,则wcstombs() function把宽字符src转换成多字符dest,最多转换n个字节(这里的n是转换后dest的字节数)。

转换成功,返回转换的字节数(不包括非0字符),不成功返回(size_t)(-1)。

注意:在调用前,要指明多字符的代码页

#include 之后

wcstombs调用前加上setlocale(LC_ALL, ".936");即可

 

好像其他的方法来转换,如CString的相关方法,我试了一下好像出现乱码,还有就是ATL宏转换(没试过)。

以上三种方式应该能大致实现功能了。

 

 

你可能感兴趣的:(c++汉字按拼音排序)