int
sqlite3_create_collation16
(
sqlite3*
db
,
const
char
*
zName
,
int
enc
,
void
*
pCtx
,
int
(*
xCompare
)(
void
*,
int
,
const
void
*,
int
,
const
void
*)
)
int
sqlite3_create_collation(
sqlite3*
db
,
const
char
*
zName
,
int
enc
,
void
*
pCtx
,
int
(*
xCompare
)(
void
*,
int
,
const
void
*,
int
,
const
void
*)
)
|
sqlite3_create_collation(
db
,
"BINARY"
, SQLITE_UTF8, 0,binCollFunc);
sqlite3_create_collation(
db
,
"BINARY"
, SQLITE_UTF16, 0,binCollFunc);
sqlite3_create_collation(
db
,
"NOCASE"
, SQLITE_UTF8, 0, nocaseCollatingFunc);
|
int
pinyin_cmp
(
void
*
NotUsed
,
int
nKey1
,
const
void
*
pKey1
,
int
nKey2
,
const
void
*
pKey2
)
{
int
n
=
nKey1
<
nKey1
?
nKey1
:
nKey2
;
return
pinyin_strncmp(
pKey1
,
pKey2
,
n
+ 1);
}
|
unsigned
short
zName
[] = {
'p'
,
'i'
,
'n'
,
'y'
,
'i'
,
'n'
, 0};
sqlite3_create_collation16(db,
zName
, SQLITE_UTF16, 16,
pinyin_cmp
);
|
sqlite> create table person(name text, age int);
sqlite> insert into person values("张三", 23);
sqlite> insert into person values("张三丰", 23);
sqlite> insert into person values("李四", 24);
sqlite> insert into person values("李四叔", 24);
sqlite> insert into person values("王五", 25);
sqlite> insert into person values("王五妹", 25);
sqlite> insert into person values("赵七", 26);
sqlite> insert into person values("赵七姑", 26);
sqlite>
sqlite> select * from person order by name collate pinyin;
李四
|24
李四叔
|24
王五
|25
王五妹
|25
张三
|23
张三丰
|23
赵七
|26
赵七姑
|26
sqlite> select * from person order by name;
张三
|23
张三丰
|23
李四
|24
李四叔
|24
王五
|25
王五妹
|25
赵七
|26
赵七姑
|26
|
[open source] 拼音排序函数库发布
最近在做资源管理器的设计,SPEC要求中文文件名按拼音排序。于是花了点时间去研究关于拼音排序的问题,然后又花了两小时写了一个函数库。其实知道了原理,按拼音排序的实现很简单,放到这里供大家参考吧。
我们知道,计算机中的每一个字符都有一个内码。在默认情况下,计算机排序时,比较两个字符的大小就是比较字符内码的大小,这对于英文来说没有问题,因为英文字母的内码是按字母顺序递增的。对于中文来说,就比较麻烦了:首先,中文的排序方式有多种,比如按内码排序、按拼音排序和按笔画排序,要通过参数指定排序的方式,否则计算机就按内码排序了。其次,汉字的内码顺序即不同于拼音顺序,也不同于按笔画顺序。在GB2312编码中,汉字基本上按拼音排序(据说有例外,不太清楚)。在GBK中,它在GB2312基础上进行了扩充,兼容GB2312中的所有字符,所以不是按拼音排序了。在Unicode中,汉字的排列似乎更没有什么规律可言了。
为了解决内码顺序与用户习惯顺序(如拼音顺序)的冲突,在glibc的locale数据里,要求提供排序方式(collate)的描述。我看了一下glibc-2.3.5提供的locale数据,在简体中文(zh_CN)的locale数据描述里,关于排序方式的描述如下:
% ISO 14651 collation sequence
LC_COLLATE
copy "iso14651_t1"
END LC_COLLATE
也就是说,照抄iso14651_t1的排序方式。打开iso14651_t1文件看了一下,也没有发现关于中文的特殊处理,可以推断glibc默认的排序方式就是按unicode排序。由此看来,glibc没有提供拼音排序功能,只能由我们自己去实现了。
实现拼音排序其实很简单,我们可以先取出汉字的拼音然后再比较。这种方法会不会性能低下呢?实际上不会,看起来取拼音过程可能会有点慢,但是一次比较函数调用只需要一次取拼音函数调用,因为只当它们的内码不同时才调用取拼音的函数。
如果仅仅是为了比较汉字的拼音顺序,其实我们可以用更简单的办法,而不必存储那些拼音数据。我们只要预先把所有汉字按拼音排序,汉字在排序后位置偏移量,就可以用来作为比较的基准值。
如何找到所有汉字呢?如果需要GBK/Unicode中的汉字,GBK和Unicode中的汉字是一一对应的,在Unicode中,汉字所在的区间为0x4e00 - 0x9FA5,所以一个循环就可以打印出所有的汉字。
如何按拼音排序呢?很简单,有很多工具可以完成这一功能,像wps/word/pagemaker/excel。Word排序太慢,而且对行数也有限制,还是用excel吧。
数据如何组织?很简单,建立一张unicode与排序偏移量的映射表就行了。考虑到汉字与非汉字之间的比较,我们需要把偏移量加上0x4e00。考虑到空间问题,0x4e00前面都不是汉字,我们的表只要0x9FA5 - 0x4e00 + 1大小就行了,所以表中的unicode要减去0x4e00。
有兴趣的朋友可以到这里下载。