开发符合国际化标准的软件

在X窗口系统下开发软件, 应尽量符合国际化标准.它包括, 设置合适 的locale(见前面讲述的在X下使用locale), 注意选择字符集和字体集, 本地化文本的处理, 输入方法等等.这里推荐用户尽量使用在国际化方面 已经比较完善的高层图形库, 如Qt, gtk+, Java等, 这样可以避免考虑以 上问题.选择Motif时需要考虑资源的国际化问题和FontList等.

  1. 开发国际化软件 
  2. 使用已经支持国际化的高层图形库开发支持国际化的软件基本上可以不用 考虑国际化问题.特别是输入问题, 在标准的输入区内(单行输入和多行输入), 都可以自动输入汉字.在字体处理上, 注意使用字体集.许多软件需要在资源 文件中指定字体和字体集, 所以开发的软件应提供一个缺省支持字体集的资源 文件.

    下面所介绍的开发国际化的软件是基于libX11的开发方法.除了前面所说的 在软件初始化时调用一些Locale的函数外, 在实际编程时, 还应注意以下问题:

    1. 字体载入: 在处理字符串时, 使用FontSet, 而不是Font: 
    2. XCreateFontSet() - 建立字体集
      XFreeFontSet() - 释放字体集内存
      XFontsOfFontSet() - 返回XFontStruct和字体名
      XBaseFontNameListOfFontSet() - 返回字体集的名称
      XLocaleOfFontSet() - 返回XFontSet的locale名
      XExtentsOfFontSet() - 获得FontSet的最大Extents

    3. 计算字符串的屏幕尺寸并画字符串: 
    4. Xmb/XwcDrawString() - 只画字型(glyphs)的前景
      Xmb/XwcDrawImageString() - 画前景和背景
      Xmb/XwcDrawText() - 复杂的间隔和字体集
      Xmb/XwcTextEscapement() - X 方向像素
      Xmb/XwcTextExtents() - 字符串轮廓

    5. 客户程序间通讯: 
    6. Xmb/wcTextListToTextProperty() - 根据locale的文本转换
      Xmb/wcTextPropertyToTextList() - 根据locale的文本转换
      XFreeStringList()
      Xmb/wcFreeStringList() - 释放StringList
      XSetWMProperties() - 设置窗口管理器属性
      XSetWMName() - 设置窗口窗口名
      XSetWMIconName() - 设置窗口图标名

    7. 输入: 
    8. XOpenIM()/XCloseIM() - 打开/关闭输入服务器
      XDisplayOfIM()/XLocaleOfIM()
      XSetIMValues()/XGetIMValues() - 设置/获取输入服务器属性
      XCreateIC()/XDestroyIC() - 建立/释放IC
      XIMOfIC()
      XSetICValues()/XGetICValues() - 设置/获取IC的值
      XSetICFocus()/XUnsetICFocus() - 聚焦/取消聚焦
      XmbResetIC()/XwcResetIC() - 重设IC
      XFilterEvent() - 过滤事件
      Xmb/wcLookupString() - 查找字符串
      XRegister/UnregisterIMInstantiateCallback() - 注册/取消回调 

  3. 使非国际化软件国际化 
  4. 修改已经存在的非国际化软件, 应根据具体情况采用不同的补丁.需要 注意的是修改后的软件应与原来的软件兼容, 不会对软件以前在西文和其它 语言的支持造成影响.Locale应该是软件的语言切换中心点.下面是笔者在 修改软件的过程中一些经验, 仅供参考.

    • 在软件初始化时设置Locale.
    • 定义gettext的宏, 并且把它与信息文件绑定.
    • 对所有静态信息使用gettext
    • 对文本绘制使用字体集代替字体
    • 绘制函数使用X下的多字节或宽字符函数
    • 初始化和XIM服务器的联接
    • 在事件循环中用XFilterEvent()过滤事件到XIM服务器
    • 使用Xmb/wcLookupString()查找字符串

五 目前中文化中存在的问题

现有的国际化标准中存在许多问题, 问题的原因主要出自目前的 国际化架构.对于中文化来说, 这些问题显得更加突出.
  1. 编码动态切换的问题 
  2. 对中文软件来说, 同时支持多内码(GB和Big5)是比较完善的中文软件, 但是动态切换内码, 特别是切换软件界面(如菜单项)的内码, 是受到信息 (Message)国际化中 gettext 的限制的.一般来说, 一旦软件载入, 所有 文本信息便被初始化, 而且在整个过程中不会再重新装载信息.退一步说, 即使重新装载了信息, 由于所装载信息的长度发生了变化, 软件界面调整 布局也是十分困难的.

    所以现有软件的动态编码切换仅仅是在部分区域实现, 例如Netscape. 遗憾的是, Netscape的编码切换并不彻底, 它切换的仅仅是显示部分, 输入 部分仍然有问题.比如在zh_CN.GBK的环境下启动Netscape, 当切换到有 输入条的繁体中文页面时, 如果采用输入软件自动识别Input Context的 编码的方式, 仍然会认为Netscape是GB编码, 输入结果不正确.如果输入 Big5编码, 必须缩定输出的编码为Big5.Chinput在这方面做了一些尝试, 结论是可以输入Big5编码, 但是在输入条中的显示不正确.

    一般来说, 使用中文平台来动态切换编码更容易实现.在中文Linux 的发布版本中, 有几个是可以使用中文平台来实现动态切换编码的, 其原理 十分简单, 只要在应用程序或X服务器把某个窗口的编码状态记住就行了, 以后的文本显示和输入都以此编码为标准.这种方法的缺点是, 应用程序 初始界面上的中文由于转化了编码变成了乱码.

  3. 中文编码自动识别问题 
  4. 在文本浏览,网页浏览或网页翻译时, 通常需要自动识别汉字的内码, 但是中文的GB编码和Big5编码有重叠区域, 所以很难区分开.目前公开 源代码的识别软件很少, 识别结果不能令人满意, 远没有达到目前商业软件 的识别水平.

  5. Linux上的中文平台到国际化的过渡 
  6. 但是从长远的角度看, 因为中文在对中文显示和输入上与国际化标准 存在很大差异, 所以亟需一种从中文平台到国际化标准的过渡性方案.在 过渡的过程中, 中文平台可能会和国际化标准共同存在一段时间.

    以CLE和TurboLinux为例, 它们在早期的版本中都采用了中文平台来 支持中文的显示和输入, 随着支持国际化标准的软件的增多, 逐步采用了 中文平台和国际化标准共同存在的版本作为过渡性版本.到目前为止, 已经 在缺省情况下放弃中文平台的使用.中文平台只是作为残留物包含在发布 版本中.

  7. Linux 文档中文化 
  8. Linux文档, 主要是指Linux上的一些命令帮助文档(man文件), 软件 手册和说明, 软件本身的Message文件(po).目前在这方面的工作还缺乏 统一的管理和广大Linux爱好者的参与.

参考资料
  • Unicode: http://www.unicode.org/
  • 香港增补字符集: http://www.digital21.gov.hk/chi/hkscs/introduction.html
  • CJK 有关信息: ftp://ftp.ora.com/pub/examples/nutshell/ujip/doc/cjk.inf
  • Linux国际化资料: http://i18n.linux.org.tw/
  • Linux国际化标准: http://www.li18nux.org/
  • MicroSoft 国际化: http://www.microsoft.com/globaldev/

六 附录

  1. 宽字符处理函数函数与普通函数对照表 
  2. 字符分类:

    宽字符函数 普通C函数 描述
    iswalnum() isalnum() 测试字符是否为数字或字母
    iswalpha() isalpha() 测试字符是否是字母
    iswcntrl() iscntrl() 测试字符是否是控制符
    iswdigit() isdigit() 测试字符是否为数字
    iswgraph() isgraph() 测试字符是否是可见字符
    iswlower() islower() 测试字符是否是小写字符
    iswprint() isprint() 测试字符是否是可打印字符
    iswpunct() ispunct() 测试字符是否是标点符号
    iswspace() isspace() 测试字符是否是空白符号
    iswupper() isupper() 测试字符是否是大写字符
    iswxdigit() isxdigit() 测试字符是否是十六进制的数字

     

    大小写转换:

    宽字符函数 普通C函数 描述
    towlower() tolower() 把字符转换为小写
    towupper() toupper() 把字符转换为大写

     

    字符比较:

    宽字符函数 普通C函数 描述
    wcscoll() strcoll() 比较字符串

     

    日期和时间转换:

    宽字符函数 描述
    strftime() 根据指定的字符串格式和locale设置格式化日期和时间
    wcsftime() 根据指定的字符串格式和locale设置格式化日期和时间, 并返回宽字符串
    strptime() 根据指定格式把字符串转换为时间值, 是strftime的反过程

     

    打印和扫描字符串:

    宽字符函数 描述
    fprintf()/fwprintf() 使用vararg参量的格式化输出
    fscanf()/fwscanf() 格式化读入
    printf() 使用vararg参量的格式化输出到标准输出
    scanf() 从标准输入的格式化读入
    sprintf()/swprintf() 根据vararg参量表格式化成字符串
    sscanf() 以字符串作格式化读入
    vfprintf()/vfwprintf() 使用stdarg参量表格式化输出到文件
    vprintf() 使用stdarg参量表格式化输出到标准输出
    vsprintf()/vswprintf() 格式化stdarg参量表并写到字符串

     

    数字转换:

    宽字符函数 普通C函数 描述
    wcstod() strtod() 把宽字符的初始部分转换为双精度浮点数
    wcstol() strtol() 把宽字符的初始部分转换为长整数
    wcstoul() strtoul() 把宽字符的初始部分转换为无符号长整数

     

    多字节字符和宽字符转换及操作:

    宽字符函数 描述
    mblen() 根据locale的设置确定字符的字节数
    mbstowcs() 把多字节字符串转换为宽字符串
    mbtowc()/btowc() 把多字节字符转换为宽字符
    wcstombs() 把宽字符串转换为多字节字符串
    wctomb()/wctob() 把宽字符转换为多字节字符
    输入和输出:
    宽字符函数 普通C函数 描述
    fgetwc() fgetc() 从流中读入一个字符并转换为宽字符
    fgetws() fgets() 从流中读入一个字符串并转换为宽字符串
    fputwc() fputc() 把宽字符转换为多字节字符并且输出到标准输出
    fputws() fputs() 把宽字符串转换为多字节字符并且输出到标准输出串
    getwc() getc() 从标准输入中读取字符, 并且转换为宽字符
    getwchar() getchar() 从标准输入中读取字符, 并且转换为宽字符
    None gets() 使用fgetws()
    putwc() putc() 把宽字符转换成多字节字符并且写到标准输出
    putwchar() getchar() 把宽字符转换成多字节字符并且写到标准输出
    None puts() 使用fputws()
    ungetwc() ungetc() 把一个宽字符放回到输入流中

     

    字符串操作:

    宽字符函数 普通C函数 描述
    wcscat() strcat() 把一个字符串接到另一个字符串的尾部
    wcsncat() strncat() 类似于wcscat(), 而且指定粘接字符串的粘接长度.
    wcschr() strchr() 查找子字符串的第一个位置
    wcsrchr() strrchr() 从尾部开始查找子字符串出现的第一个位置
    wcspbrk() strpbrk() 从一字符字符串中查找另一字符串中任何一个字符第一次出现的位置
    wcswcs()/wcsstr() strchr() 在一字符串中查找另一字符串第一次出现的位置
    wcscspn() strcspn() 返回不包含第二个字符串的的初始数目
    wcsspn() strspn() 返回包含第二个字符串的初始数目
    wcscpy() strcpy() 拷贝字符串
    wcsncpy() strncpy() 类似于wcscpy(), 同时指定拷贝的数目
    wcscmp() strcmp() 比较两个宽字符串
    wcsncmp() strncmp() 类似于wcscmp(), 还要指定比较字符字符串的数目
    wcslen() strlen() 获得宽字符串的数目
    wcstok() strtok() 根据标示符把宽字符串分解成一系列字符串
    wcswidth() None 获得宽字符串的宽度
    wcwidth() None 获得宽字符的宽度

     

    另外还有对应于memory操作的 wmemcpy(), wmemchr(), wmemcmp(), wmemmove(), wmemset().

  3. X 窗口系统下支持中文的函数
  4. 支持西文的函数 支持中文的函数 描述
    XLoadFont XCreateFontSet 载入字体集
    XTextExtents(16) Xmb/wcTextExtents
    Xmb/wcTextPerCharExtents
    返回文本的限制框
    XDrawString Xmb/wcDrawString 在窗口中画字符串, 背景填充
    XDrawImageString Xmb/wcDrawImageString 在窗口中画字符串
    XDrawText Xmb/wcDrawText 在窗口中画字符串
    XLookupString Xmb/wcLookupString 查找字符串
  5. 支持国际化的高层库
    • OSF/Motif
    • Qt/kdelib
    • gtk+/gnome-lib
    • Perl
    • Java
  6. 支持多语言的典型软件
    • 浏览器 Netscape
    • 编辑器 XEmacs
    • 编辑器 Mule
    • 编辑器 vim
    • 终端 rxvt
    • 排版软件 LaTeX/lyx
    • PostScript/PDF: gs/acroread
    • 图像处理: gimp
    • 幻灯片制作 mgp
    • 即将完成: StarOffice, KOffice
  7. 支持Unicode的软件
    • 高级图形库函数 Qt 2.x
    • Java 语言开发工具 JDK
    • 编辑器 yudit
    • 专用的支持Unicode的 X 终端
    • 基于GTK+的文本处理器 GScript

你可能感兴趣的:(开发符合国际化标准的软件)