from: http://blog.csdn.net/nivana999/archive/2009/06/06/4247844.aspx
UNICODE 汉字数据库
版本 |
5.0.0 |
作者 |
John Jenkins (井作恆)、Richard Cook (曲理查) |
发布日期 |
2006-07-10 |
当前版本 |
http://www.unicode.org/Public/5.0.0/ucd/Unihan.html |
上一版本 |
http://www.unicode.org/Public/4.1.0/ucd/Unihan.html |
最新版本 |
http://www.unicode.org/Public/UNIDATA/Unihan.html |
原文: http://www.unicode.org/Public/5.0.0/ucd/Unihan.html
译文:北大中文论坛 http://www.pkucn.com
译者:韦剑
整理: nivana999 于 2009-5-31
本文作为对 unicode 汉字数据库文件 unihan.txt 格式的分析和解读,列出并解释了文件中的常用属性,如 kGB0(GB2312-80 的区位码映射 ) , kMandarin(unicode 编码对应汉字的汉语拼音 ) 。
Unihan.txt 文件描述了每个 unicode 编码包含的众多属性,这些属性包括各种字符编码的映射关系、英文释意、字典索引、中文笔画、部首、汉语拼音等等。用户可根据这些属性生成自己的汉字数据库、字符编码映射表、输入法字典映射表等。
以下给出 unihan.txt 中一个 unicode 编码的格式实例,‘ # ‘后为注释:
U+4E00 kBigFive A440 #big 5 码
U+4E00 kCCCII 213021 # kCCCII 编码
U+4E00 kCNS1986 1-4421 # kCNS1986 编码
U+4E00 kCNS1992 1-4421 #kCNS1992 编码
U+4E00 kCangjie M # 倉頡输入法编码
U+4E00 kCantonese jat1
U+4E00 kCihaiT 1.101
U+4E00 kCowles 5133
U+4E00 kDaeJaweon 0129.010
U+4E00 kDefinition one; a, an; alone # 英文解释 ( 此字意为 1 个 )
U+4E00 kEACC 213021
U+4E00 kFenn 1A
U+4E00 kFennIndex 216.01 217.06 218.01 220.06
U+4E00 kFourCornerCode 1000.0
U+4E00 kFrequency 1 # 使用频度( 1 为最高)
U+4E00 kGB0 5027 #GB2312-80 中的区位码
U+4E00 kGB1 5027 #GB12345-90 中的区位码
U+4E00 kGSR 0394a
U+4E00 kGradeLevel 1
U+4E00 kHDZRadBreak ⼀ [U+2F00]:10001.010
U+4E00 kHKGlyph 0001
U+4E00 kHanYu 10001.010
U+4E00 kHangul 일
U+4E00 kHanyuPinlu yi1(32747) # 汉语出现的频率
U+4E00 kIICore 2.1
U+4E00 kIRGDaeJaweon 0129.010
U+4E00 kIRGDaiKanwaZiten 00001
U+4E00 kIRGHanyuDaZidian 10001.010
U+4E00 kIRGKangXi 0075.010
U+4E00 kIRG_GSource 0-523B
U+4E00 kIRG_JSource 0-306C
U+4E00 kIRG_KPSource KP0-FCD6
U+4E00 kIRG_KSource 0-6C69
U+4E00 kIRG_TSource 1-4421
U+4E00 kIRG_VSource 1-4A21
U+4E00 kJapaneseKun HITOTSU HITOTABI HAJIME
U+4E00 kJapaneseOn ICHI ITSU
U+4E00 kJis0 1676
U+4E00 kKPS0 FCD6
U+4E00 kKSC0 7673
U+4E00 kKangXi 0075.010
U+4E00 kKarlgren 175
U+4E00 kKorean IL
U+4E00 kLau 3341
U+4E00 kMainlandTelegraph 0001
U+4E00 kMandarin YI1 # 汉语拼音 (yi 的第一声,第二声为 yi2)
U+4E00 kMatthews 3016
U+4E00 kMeyerWempe 3837
U+4E00 kMorohashi 00001
U+4E00 kNelson 0001
U+4E00 kPhonetic 1499
U+4E00 kPrimaryNumeric 1
U+4E00 kRSAdobe_Japan1_6 C+1200+1.1.0
U+4E00 kRSKangXi 1.0
U+4E00 kRSUnicode 1.0
U+4E00 kSBGY 468.40
U+4E00 kSemanticVariant U+5F0C<kLau,kMatthews,kMeyerWempe U+58F9<kLau,kMatthews,kMeyerWempe
U+4E00 kSpecializedSemanticVariant U+58F9
U+4E00 kTaiwanTelegraph 0001
U+4E00 kTang *qit qit
U+4E00 kTotalStrokes 1 # 笔画数
U+4E00 kVietnamese nhất
U+4E00 kXHC1983 1351.020:yi ̄ 1360.040:yí 1368.160:yì
U+4E00 kXerox 241:042
本文分析了Unicode 字符数据库(UCD ) 里的Unihan.txt 文件的格式和内容。
本文和本文中所指的 “ 文件 ” 属于Unicode 字符数据库的一部分,统一受Unicode 标准资源使用协议(http://www.unicode.org/terms_of_use.html )的管理。
文末所列的参考资料 提供了有助于理解本文所需的一些相关知识。
注意: 本文所要解释的Unicode 字符属性和作用的用法并不完全都由本文给出,有时可能会要结合Unicode 字符数据库里面其他文件的数据来使用,这种数据链接所需的符号及其定义请参考Unicode 标准 。除非特别说明,本文所提及的 “ 字符 ” 均来自Unicode 标准5.0 版。
1. 摘要
2. 关于本文
3. 目录
4. 文档结构
字段 1 数据含义
字段 2 数据含义
字段 3 数据含义
5. Unihan 属性
5.1. Unihan 属性列表(按字母顺序排列)
5.2. Unihan 属性分类
字典索引
字典素材
IRG 字源资料
数值
与其他编码字符集的映射
部首/笔画数
变体
5.3. Unihan 属性分级
常规
资料
暂定
5.4. 属性详解
kAccountingNumeric (财会数字)
kBigFive ( Big5 编码)
kCCCII ( CCCII 编码)
kCNS1986 ( CNS 11643-1986 编码)
kCNS1992 ( CNS 11643-1992 编码)
kCangjie (仓颉码)
kCantonese (广东话读音)
kCheungBauer ( CheungBauer 资料)
kCheungBauerIndex ( CheungBauer 索引)
kCihaiT (《辞海》索引)
kCompatibilityVariant (相容变体)
kCowles ( Cowles 索引)
kDaeJaweon (《大字源》索引)
kDefinition (英文释义)
kEACC ( EACC 编码)
kFenn ( Fenn 资料)
kFennIndex ( Fenn 索引)
kFourCornerCode (四角号码)
kFrequency (频度等级)
kGB0 ( GB 2312-80 区位码)
kGB1 ( GB 12345-90 区位码)
kGB3 ( GB 7589-87 区位码)
kGB5 ( GB 7590-87 区位码)
kGB7 ( GB 8565-89 区位码)
kGB8 ( GB 8565-89 区位码)
kGSR (《漢文典(修訂本)》索引)
kGradeLevel (香港汉字教学水平等级)
kHDZRadBreak (《汉语大字典》部首字头索引)
kHKGlyph (香港《常用字字形表》索引)
kHKSCS (香港增补字符集 Big5 编码)
kHanYu (《汉语大字典》索引)
kHangul (谚文注音)
kHanyuPinlu (现代汉语读音频率)
kIBMJapan ( IBM 日文编码)
kIICore (国际表意文字核心集资料)
kIRGDaeJaweon (四字典定序用《大字源》索引)
kIRGDaiKanwaZiten (四字典定序用《大汉和辞典》索引)
kIRGHanyuDaZidian (四字典定序用《汉语大字典》索引)
kIRGKangXi (四字典定序用《康熙字典》索引)
Unihan.txt 文件数据正文中的每条记录都由三个字段组成,各字段之间用Tab 制表符分开。
形如U+[X]XXXX 这样的Unicode 编码点(即U+ 前缀的后面加上4 个或5 个十六进制数字)。
说明记录中第三个字段数据的类型或来源。
本条记录的(关键)数据值(UTF-8 格式,事实上整个Unihan.txt 都是UTF-8 编码格式的)。
下表列出了Unihan.txt 中字段1 的汉字编码点有效取值范围:
编码点范围 |
区域名称 |
首发版本 |
U+3400..U+4DB5 |
中日韩统一表意文字扩展集A |
3.0 |
U+4E00..U+9FA5 |
中日韩统一表意文字 |
1.1 |
U+9FA6..U+9FBB |
中日韩统一表意文字 |
4.1 |
U+F900..U+FA2D |
中日韩相容表意文字 |
1.1 |
U+FA30..U+FA6A |
中日韩相容表意文字 |
3.2 |
U+FA70..U+FAD9 |
中日韩相容表意文字 |
4.1 |
U+20000..U+2A6D6 |
中日韩统一表意文字扩展集B |
3.1 |
U+2F800..U+2FA1D |
增补中日韩相容表意文字 |
3.1 |
Unihan.txt 没有包括以下范围的中日韩字符的数据:
编码点范围 |
区域名称 |
首发版本 |
U+2E80..U+2E99 |
增补中日韩部首 |
3.0 |
U+2E9B..U+2EF3 |
增补中日韩部首 |
3.0 |
U+2F00..U+2FD5 |
康熙部首 |
3.0 |
U+3000..U+303F |
中日韩标点符号 |
多次修订 |
U+3200..U+3243 |
附加标记的中日韩文字和月份 |
多次修订 |
U+3250..U+32FE |
附加标记的中日韩文字和月份 |
多次修订 |
U+3300..U+33FF |
中日韩相容文字 |
多次修订 |
下面将列出Unihan.txt 的所有属性标记,并通过一个表格给出有关这些属性的信息。在Unihan 属性中只有少数属于Unicode 常规或资料属性,其余的则属于暂定属性。有关 “ 常规(Normative ) ” 、 “ 资料(Informative ) ” 和 “ 暂定(Provisional ) ” 三个属性分级标志的更多内容,请查阅Unicode 5.0[U5.0 ] 标准文档第三章 “ 属性 “ 一节中D33 、D35 和D36 三个名词解释条目的定义。有关属性和Unicode 字符数据库的一般结构的更多内容,请查阅UCD.html 。
kAccountingNumeric 、 kBigFive 、 kCCCII 、 kCNS1986 、 kCNS1992 、 kCangjie 、 kCantonese 、 kCheungBauer 、 kCheungBauerIndex 、 kCihaiT 、 kCompatibilityVariant 、 kCowles 、 kDaeJaweon 、 kDefinition 、 kEACC 、 kFenn 、 kFennIndex 、 kFourCornerCode 、 kFrequency 、 kGB0 、 kGB1 、 kGB3 、 kGB5 、 kGB7 、 kGB8 、 kGSR 、 kGradeLevel 、 kHDZRadBreak 、 kHKGlyph 、 kHKSCS 、 kHangul 、 kHanYu 、 kHanyuPinlu 、 kIBMJapan 、 kIICore 、 kIRGDaeJaweon 、 kIRGDaiKanwaZiten 、 kIRGHanyuDaZidian 、 kIRGKangXi 、 kIRG_GSource 、 kIRG_HSource 、 kIRG_JSource 、 kIRG_KPSource 、 kIRG_KSource 、 kIRG_TSource 、 kIRG_USource 、 kIRG_VSource 、 kJIS0213 、 kJapaneseKun 、 kJapaneseOn 、 kJis0 、 kJis1 、 kKPS0 、 kKPS1 、 kKSC0 、 kKSC1 、 kKangXi 、 kKarlgren 、 kKorean 、 kLau 、 kMainlandTelegraph 、 kMandarin 、 kMatthews 、 kMeyerWempe 、 kMorohashi 、 kNelson 、 kOtherNumeric 、 kPhonetic 、 kPrimaryNumeric 、 kPseudoGB1 、 kRSAdobe_Japan1_6 、 kRSJapanese 、 kRSKanWa 、 kRSKangXi 、 kRSKorean 、 kRSUnicode 、 kSBGY 、 kSemanticVariant 、 kSimplifiedVariant 、 kSpecializedSemanticVariant 、 kTaiwanTelegraph 、 kTang 、 kTotalStrokes 、 kTraditionalVariant 、 kVietnamese 、 kXerox 、 kZVariant 。
kCheungBauerIndex 、 kCihaiT 、 kCowles 、 kDaeJaweon 、 kFennIndex 、 kGSR 、 kHanYu 、 kIRGDaeJaweon 、 kIRGDaiKanwaZiten 、 kIRGHanyuDaZidian 、 kIRGKangXi 、 kKangXi 、 kKarlgren 、 kLau 、 kMatthews 、 kMeyerWempe 、 kMorohashi 、 kNelson 、 kSBGY 。
kCangjie 、 kCantonese 、 kCheungBauer 、 kDefinition 、 kFenn 、 kFourCornerCode 、 kFrequency 、 kGradeLevel 、 kHangul 、 kHanyuPinlu 、 kHDZRadBreak 、 kHKGlyph 、 kIICore 、 kJapaneseKun 、 kJapaneseOn 、 kKorean 、 kMandarin 、 kPhonetic 、 kTang 、 kTotalStrokes 、 kVietnamese 。
kIRG_GSource 、 kIRG_HSource 、 kIRG_JSource 、 kIRG_KPSource 、 kIRG_KSource 、 kIRG_TSource 、 kIRG_USource 、 kIRG_VSource 。
kAccountingNumeric 、 kOtherNumeric 、 kPrimaryNumeric 。
kBigFive 、 kCCCII 、 kCNS1986 、 kCNS1992 、 kEACC 、 kGB0 、 kGB1 、 kGB3 、 kGB5 、 kGB7 、 kGB8 、 kHKSCS 、 kIBMJapan 、 kJIS0213 、 kJis0 、 kJis1 、 kKPS0 、 kKPS1 、 kKSC0 、 kKSC1 、 kMainlandTelegraph 、 kPseudoGB1 、 kTaiwanTelegraph 、 kXerox 。
kRSAdobe_Japan1_6 、 kRSJapanese 、 kRSKanWa 、 kRSKangXi 、 kRSKorean 、 kRSUnicode 。
kCompatibilityVariant 、 kSemanticVariant 、 kSimplifiedVariant 、 kSpecializedSemanticVariant 、 kTraditionalVariant 、 kZVariant 。
kCompatibilityVariant 、 kIICore 、 kIRG_GSource 、 kIRG_HSource 、 kIRG_JSource 、 kIRG_KPSource 、 kIRG_KSource 、 kIRG_TSource 、 kIRG_USource 、 kIRG_VSource 。
kAccountingNumeric 、 kOtherNumeric 、 kPrimaryNumeric 、 kRSUnicode 。
kBigFive 、 kCCCII 、 kCNS1986 、 kCNS1992 、 kCangjie 、 kCantonese 、 kCheungBauer 、 kCheungBauerIndex 、 kCihaiT 、 kCowles 、 kDaeJaweon 、 kDefinition 、 kEACC 、 kFenn 、 kFennIndex 、 kFourCornerCode 、 kFrequency 、 kGB0 、 kGB1 、 kGB3 、 kGB5 、 kGB7 、 kGB8 、 kGSR 、 kGradeLevel 、 kHDZRadBreak 、 kHKGlyph 、 kHKSCS 、 kHangul 、 kHanYu 、 kHanyuPinlu 、 kIBMJapan 、 kIRGDaeJaweon 、 kIRGDaiKanwaZiten 、 kIRGHanyuDaZidian 、 kIRGKangXi 、 kJIS0213 、 kJapaneseKun 、 kJapaneseOn 、 kJis0 、 kJis1 、 kKPS0 、 kKPS1 、 kKSC0 、 kKSC1 、 kKangXi 、 kKarlgren 、 kKorean 、 kLau 、 kMainlandTelegraph 、 kMandarin 、 kMatthews 、 kMeyerWempe 、 kMorohashi 、 kNelson 、 kPhonetic 、 kPseudoGB1 、 kRSAdobe_Japan1_6 、 kRSJapanese 、 kRSKanWa 、 kRSKangXi 、 kRSKorean 、 kSBGY 、 kSemanticVariant 、 kSimplifiedVariant 、 kSpecializedSemanticVariant 、 kTaiwanTelegraph 、 kTang 、 kTotalStrokes 、 kTraditionalVariant 、 kVietnamese 、 kXerox 、 kZVariant 。
属性 |
kAccountingNumeric (财会数字) |
|
分类 |
数值 |
|
分级 |
资料 |
|
记录数 |
24 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9]+ |
|
首发版本 |
3.2 |
|
说明 |
在记录数据信息的时候,这类字符可以表示出 “ 数值 ” 的含义。在东亚地区的书面资料中,专用的财会数字通常可以起到 “ 数值表示上的不可篡改 ” 的作用。比如十(10 ),只要多加一笔就可以很容易地被改成千(1000 ),所以在对数值数据文本要求严谨的金融类文档中,规定必须使用专门的财会数字 “ 拾 ” 来表示10 这个数。Unihan 的三种数值属性不会重复定义,也就是说如果一个字符定义了kAccountingNumeric 属性,那它肯定就不会定义kPrimaryNumeric 或kOtherNumeric 属性,另外两个亦然。 |
属性 |
kBigFive (Big5 编码) |
|
分类 |
与其他编码字符集的映射 |
|
分级 |
暂定 |
|
记录 |
13063 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9A-F]{4} |
|
说明 |
某个汉字在Big5 字符集中的十六进制编码。注意:这里的Big5 指的是最初版本的Big5 编码字符集,不包括任何通用的Big5 扩展字符集,即使最常见的倚天扩充字集也是一样。 备注: Uinhan 数据库只收集汉字的属性资料,因此它的 kBigFive 属性中只包含了汉字的数据。如果想要得到 Big5 编码字符集中除汉字外其它字符的编码数据的话,可参考以下相关链接中的资料 |
属性 |
kCCCII (CCCII 编码) |
|
分类 |
与其他编码字符集的映射 |
|
分级 |
暂定 |
|
记录数 |
19698 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9A-F]{6} |
|
说明 |
某个汉字在CCCII 字符集中的十六进制编码。 |
属性 |
kCNS1986 (CNS 11643-1986 编码) |
|
分类 |
与其他编码字符集的映射 |
|
分级 |
暂定 |
|
记录数 |
17258 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[12E]-[0-9A-F]{4} |
|
说明 |
某个汉字在CNS 11643-1986 字符集中的十六进制编码。 |
属性 |
kCNS1992 (CNS 11643-1992 编码) |
|
分类 |
与其他编码字符集的映射 |
|
分级 |
暂定 |
|
记录数 |
17258 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[123]-[0-9A-F]{4} |
|
说明 |
某个汉字在CNS 11643-1992 字符集中的十六进制编码。 |
属性 |
kCangjie (仓颉码) |
|
分类 |
字典素材 |
|
分级 |
暂定 |
|
记录数 |
29147 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[A-Z]+ |
|
首发版本 |
3.1.1 |
|
说明 |
某个汉字的倉頡输入法编码。倉頡码数据来源于Christian Wittern 编写的cangjie-table.b5 文档。 |
属性 |
kCantonese (广东话读音) |
|
分类 |
字典素材 |
|
分级 |
暂定 |
|
记录数 |
20014 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[a-z]+[1-6] |
|
说明 |
用粤拼方案(即香港语言学学会粤语拼音方案,简称 “ 粤拼 ” )罗马字拼写法标注的汉字的广东话读音。 • 粤拼方案和耶鲁方案(译注:在Unihan 4.1 版以前,kCantonese 属性数据是以耶鲁式粤语罗马拼音方案为依据的)之间的主要区别在于:1) 粤拼会给出全部的声调标号并且不区分阳去和阳平音;2) 粤拼把长音的a 写作 “ aa ” ;3) 粤拼对应耶鲁元音 “ eu ” 的是 “ oe ” 和 “ eo ” ;4) 粤拼使用 “ c ” 代替 “ ch ” , “ z ” 代替 “ j ” ,以及用 “ j “ 代替 ” y “ 作为声母;5) 粤拼不省略声母(因此耶鲁式的 ” yut “ 在粤拼中写为 ” jyut “ )。 • 这里收录的广东话读音按照字母顺序排列,而不是使用频率。 • 注意:根据说话人和语言环境的不同,香港地区的广东话是有可能不出现NG- 声母的,因而许多不带声母的发音可以简单地加上一个NG- 声母讲出来。类似的,很多人在讲话的时候习惯用声母L- 来代替N- 。 • 广东话读音数据来自以下资料:Casey 、G. Hugh 和S.J. 整理的一万字字典;香港:Kelley 和Walsh ,1980 (参考kPhonetic 属性说明); Cheung Kwan-hin 和Robert S. Bauer 合著的《广东话的汉字标注法》(刊于《汉语语言学论丛》2002 年第18 期);Roy T. Cowles 编《广东话袖珍字典》(香港大学出版社1999 年版,有关该字典的更多内容,请参考kCowles 属性的说明);Sidney Lau 编《实用粤英字典》(香港政府印务局1977 年版,有关该字典的更多内容,请参考kLau 属性的说明);Bernard F. Meyer 和Theodore F. Wempe 编《学生用粤英字典》(由总部位于美国纽约的玛利诺外方传教会1947 年出版,有关该字典的详情请见kMeyerWempe 属性的说明);饒秉才编《廣州音字典》,Joint Publishing (H.K.) Co., Ltd., 1989 年版; 《中華新字典》,香港中華書局1987 年版; 黃港生编《商務新詞典》,香港商務印書館1991 版;《朗文初級中文詞典》,朗文香港2001 年版。 • 粤拼方案由香港语言学学会制定,其版权归属该学会。很高兴粤拼工作组能允许我们在产品研发过程中使用他们的电子资源。希望那些应用了Unihan 数据库中kCantonese 属性数据的产品或作品能在适当的位置上对粤拼工作组同样地致以感谢。 |
属性 |
kCheungBauer (CheungBauer 资料) |
|
分类 |
字典素材 |
|
分级 |
暂定 |
|
记录数 |
808 |
|
数据值格式 |
分隔符 |
无 |
语法 |
属性数据由三部分组成,其中用分号 “ ; ” 隔开:(1) 汉字的三位数部首笔画索引、斜杠 “ / ” 和两位数的笔画总数;(2) 汉字的仓颉码输入法编码(如果有的话);(3) 用逗号 “ , ” 隔开的粤拼式广东话读音表,采用拼音的字母顺序排列。 |
|
首发版本 |
5.0 |
|
说明 |
从Cheung Kwan-hin 和Robert S. Bauer 合著的《广东话的汉字标注法》(收录于《汉语语言学论丛》2002 年第18 期)中整理出的汉字属性数据。 |
属性 |
kCheungBauerIndex (CheungBauer 索引) |
|
分类 |
字典索引 |
|
分级 |
暂定 |
|
记录数 |
808 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9]{3}/.[0-9][0-9]{2} |
|
首发版本 |
5.0 |
|
说明 |
某个汉字在Cheung Kwan-hin 和Robert S. Bauer 合著的《广东话的汉字标注法》(收录于《汉语语言学论丛》2002 年第18 期)中的讨论位置。数据格式为三位数的页码和两位数的字序,中间用句点 “ . ” 隔开。 比如,数据值 “ 402.06 ” 表示402 页第6 字。 |
属性 |
kCihaiT (《辞海》索引) |
|
分类 |
字典索引 |
|
分级 |
暂定 |
|
记录数 |
13883 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[1-9][0-9]{0,3}/.[0-9]{3} |
|
首发版本 |
3.2 |
|
说明 |
某个汉字在《辭海》--單卷本,香港中華書局1983 年版(重印1947 年版),ISBN 962-231-005-2 --中的位置,用十进制数表示。数据值由前后两部分组成,中间用句点 “ . ” 隔开。句点前面的数字表示页码;句点后面第一位数字表示 “ 页内第几行 ” ,第二、三位表示 “ 行内第几字 ” 。 比如,数据值 “ 37.103 ” 表示37 页第1 行第3 字 |
属性 |
kCompatibilityVariant (相容变体) |
|
分类 |
变体 |
|
分级 |
常规 |
|
记录数 |
997 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
U/+2?[0-9A-F]{4} |
|
首发版本 |
3.2 |
|
说明 |
某个汉字另一个相容的变体汉字的Unicode 编码,编码数据来自UnicodeData.txt 文件(译者注:Unicode 公共数据文件中的一个,它记录了最新版本的Unicode 编码字符集中所有确定分配有字符或符号的编码点。这个文件可以在Unicode 网站的http://www.unicode.org/Public/UNIDATA/ 目录下找到)。 |
属性 |
kCowles (Cowles 索引) |
|
分类 |
字典索引 |
|
分级 |
暂定 |
|
记录数 |
4821 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9]{1,4}(/.[0-9]{1,2})? |
|
首发版本 |
3.1.1 |
|
说明 |
某个汉字在Roy T. Cowles 编《广东话袖珍字典》(香港大学出版社1999 年版)中的位置。 Cowles 字典索引一般为整数,但也有少部分为小数,这是根据具体的位置来决定的。在这些索引中缺少1222 和4949 ,以及四个被Cowles 字典收录了的 “ 苏州码子 ” (这几个字在Unicode 编码字符集中也收录有):2964 (〥 U+3025 )、3197 (〨 U+3028 )、3574 (〣 U+3023 )和4720 (〧 U+3027 )。 目前大概还有100 个Cowles 中的字已经由Unicode 提交给了IRG 但还没有正式确定收录进Unicode 编码字符集。 |
属性 |
kDaeJaweon (《大字源》索引) |
|
分类 |
字典索引 |
|
分级 |
暂定 |
|
记录数 |
16026 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9]{4}/.[0-9]{2}[0158] |
|
说明 |
某个汉字在《大字源》(韩国)中的位置,此字典是Unicode 用来确定汉字编码顺序的四本字典之一。此位置信息的格式为 “ 页码. 页内第几字 ” ,其中如果代表 “ 页内第几字 ” 的数字的最后一位为 “ 0 ” 的话,就表示这个汉字实际存在于字典之中;如果为 “ 1 “ 的话就表示这个汉字没有实际存在于字典之中,这是一个 ” 虚设 “ 的汉字位置,意思是如果字典中有这个字的话,那它就应该出现在这里。 比如,位置信息 “ 1187.060 “ 表示1187 页第6 字(实字)。如果想要表示一个字典中没有的字,但根据排序规则可以在1187 页的第6 和第7 字之间给它虚设一个位置的话,那么位置信息就应该写为 ” 1187.061 “ 。 这里使用的《大字源》版本为Samseong 出版社1988 年版第一版。 |
属性 |
kDefinition (英文释义) |
|
分类 |
字典素材 |
|
分级 |
暂定 |
|
记录数 |
20609 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
对于专用于除现代普通话之外的其他汉语方言(比如广东话)或非汉语(比如日语)的含义,会在解说文本中加上类似(Cant )或(J )那样的标记。 主要含义之间用分号 “ ; ” 隔开,次级含义之间用逗号 “ , ” 隔开。除了Tab 制表符、双引号和任何断行符之外,释义文本中可以使用任何有效的Unicode 字符。 |
|
说明 |
某个汉字的英文释义。这些汉字含义解释是根据现代书面汉语得来的,因此它们大体上(但非绝对)跟其它汉语字典或非汉语字典中的定义是一样的。在本属性的某些记录数据中,还指出了该汉字的同义字。 更全面的汉字变体信息,则需要参考变体类属性的数据了。 |
属性 |
kEACC (EACC 编码) |
|
分类 |
与其他编码字符集的映射 |
|
分级 |
暂定 |
|
记录数 |
13244 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9A-F]{6} |
|
说明 |
某个汉字在EACC 字符集中的十六进制编码。 |
属性 |
kFenn (Fenn 资料) |
|
分类 |
字典素材 |
|
分级 |
暂定 |
|
记录数 |
5075 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9]+a?[A-KP*] |
|
首发版本 |
3.1.1 |
|
说明 |
五千字字典(aka Fenn 的袖珍汉英字典)上记载的汉字资料。该字典是由麻省剑桥区哈佛大学的Courtenay H. Fenn 所编,采用哈佛大学出版社1979 年版。 属性数据值由一个十进制数加上一个A 到K 之间的字母、字母P 或星号 “ * ” 组成,其中:十进制数表示该汉字读音的Soothill 音素分组编号;而字母则表示一个大概的频率值,A 指最多有500 个发相同音的字,频率值的增量为500 (即B 为1000 ,C 是1500 ,依此类推一直到K )。 字母P 在Fenn 字典中表示一个罕用字,仅作为其他字的声旁(语音元素)来使用。 如果记录数据最后出现的是星号而非字母,则表示该汉字属于Soothill 音素分组中的一个,但它没有收录在Fenn 字典中。 拥有频率字母但没有Soothill 音素分组信息的数据被赋予0 分组(即数据值中开头那个十进制数为0 )。 |
属性 |
kFennIndex (Fenn 索引) |
|
分类 |
字典索引 |
|
分级 |
暂定 |
|
记录数 |
5937 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[1-9]{3}/.[01][0-9] |
|
说明 |
某个汉字在五千字字典(aka Fenn 的袖珍汉英字典)中的记录位置。该字典是由麻省剑桥区哈佛大学的Courtenay H. Fenn 所编,采用哈佛大学出版社1942 年版。 位置信息由一个三位数的页码和一个两位数的 “ 页内位置 ” 组成,中间用句点 “ . ” 隔开。 |
属性 |
kFourCornerCode (四角号码) |
|
分类 |
字典素材 |
|
分级 |
暂定 |
|
记录数 |
16256 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9]{4}(/.[0-9])? |
|
首发版本 |
5.0 |
|
说明 |
某个汉字的四角号码。数据来源自公共领域,由Hartmut Bohn 、Urs App 和Christian Wittern 提供。四角号码系统为每个字确定了一个四位数的号码,每位数字的取值为0 到9 ,分别表示汉字四个角(左上、右上、左下、右下)的十种笔形。可以选择第五位数字来更细致地区分汉字,第五位数字取的是汉字的中间或靠近第四角内侧的笔形。四角号码系统现在已经用得比较少了,有关它的更多资料,请参考这里 。 属性数据值由四位十进制数,和句点 “ . ” 以及第五位数字(如果有的话)组成。 |
属性 |
kFrequency (频度等级) |
|
分类 |
字典素材 |
|
分级 |
暂定 |
|
记录数 |
5089 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[1-5] |
|
首发版本 |
3.2 |
|
说明 |
对某个汉字在繁体中文网络新闻组上的出现频率进行分析而得到的一个大概的使用频度,共分为五级:1 级的使用频率最高,2 级次之, …… 5 级最低。 |
属性 |
kGB0 (GB 2312-80 区位码) |
|
分类 |
与其他编码字符集的映射 |
|
分级 |
暂定 |
|
记录数 |
6763 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9A-F]{4} |
|
说明 |
某个汉字在GB 2312-80 字符集中的区位码。 |
备注:
Unihan 的 kGB0 到 kGB8 (中间没有 kGB2 、 kGB4 和 kGB6 ) 6 个属性是关于中华人民共和国在国际标准汉字集出现之前,以国家标准的形式制定的一系列汉字编码字符集的编码数据。具体涉及的 GB 标准号,请参考各个属性的说明信息。
在 GBK 以前的 GB 汉字编码标准中,有一个很重要的概念,叫 “ 区位码 ” --它实际上是 GB 编码的原始码,但实际应用中为了避免和 ASCII 码冲突,必须给区位码的高、低字节分别加上 0xA0 ,得到我们通常所说的 GB 内码。有关区位码的含义及其和 GB 内码之间关系的更详细的解释,推荐参考伐木丁丁鸟鸣嘤嘤所写的 《谈谈 Unicode编码,简要解释 UCS、 UTF、 BMP、 BOM等名词》 一文。
大概是基于 GB 编码就是区位码的变形的原理吧, Unihan 在其 kGBn 系列属性中提供了原始的区位码。区位码的原理本身并不复杂,但关于它的历史却可能鲜为人知,比如在 Unihan 的 kGBn 系列属性的说明中,作者一再使用了 “mapping for this character in ku/ten form” 的概念,如果直译的话就是 “ 某个汉字 ku/ten 格式的编码 ” 。当然现在我们知道所谓 ku/ten 就是编码平面中 “ 行 ” 和 “ 列 ” 的日文发音,在 GB 编码字符集中与其对应的概念就是 “ 区 ” 和 “ 位 ” ,因此用我们的话来说 ku/ten 格式编码就是区位码。因为世界上最早实现出来的双字节编码字符集是日文 JIS X 0208 编码,正是它首次使用了由 94 行( ku )和 94 列( ten )组成的 94×94 字符平面的概念,所以再对照 GB 编码中 94 区和 94 位的定义,我们就不难理解区位码和 ku/ten 格式编码的渊源了--以上理解来自于本人去年在论坛上的 一个提问 ,相关的资料则请参考 http://czyborra.com/charsets/cjk.html 。
kGBn 系列属性中给出的区位码数据是十进制的,共有四位,其中前两位代表区码,后两位代表位码。在把它们转换为实际的 GB 内码的时候,应该把区、位码分开来处理。比如汉字 “ 一 ” 的 GB 2312-80 区位码是 5027 ,则它的 GB 2312-80 内码计算过程如下:
0x32 ( 50 的十六进制形式) +0xA0=0xD2 ,此即为内码高字节的值;
0x1B ( 27 的十六进制形式) +0xA0=0xBB ,此即为内码低字节的值;
内码值 = 内码高字节值 + 内码低字节值 =0xD2BB 。
属性 |
kGB1 (GB 12345-90 区位码) |
|
分类 |
与其他编码字符集的映射 |
|
分级 |
暂定 |
|
记录数 |
6866 |
|
说明 |
分隔符 |
空格 |
语法 |
[0-9A-F]{4} |
|
说明 |
某个汉字在GB 12345-90 字符集中的区位码。 |
属性 |
kGB3 (GB 7589-87 区位码) |
|
分类 |
与其他编码字符集的映射 |
|
分级 |
暂定 |
|
记录数 |
4836 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9A-F]{4} |
|
说明 |
某个汉字在GB 7589-87 字符集中的区位码。 |
属性 |
kGB5 (GB 7590-87 区位码) |
|
分类 |
与其他编码字符集的映射 |
|
分级 |
暂定 |
|
记录数 |
2842 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9A-F]{4} |
|
说明 |
某个汉字在GB 7590-87 字符集中的区位码。 |
属性 |
kGB7 (GB 8565-89 区位码) |
|
分类 |
与其他编码字符集的映射 |
|
分级 |
暂定 |
|
记录数 |
42 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9A-F]{4} |
|
说明 |
某个汉字在GB 8565-89 字符集中的区位码。 |
属性 |
kGB8 (GB 8565-89 区位码) |
|
分类 |
与其他编码字符集的映射 |
|
分级 |
暂定 |
|
记录数 |
785 |
|
说明 |
分隔符 |
空格 |
语法 |
[0-9]{4} |
|
说明 |
某个汉字在GB 8565-89 字符集中的区位码。 |
属性 |
kGSR (《漢文典(修訂本)》索引) |
|
分类 |
字典索引 |
|
分级 |
暂定 |
|
记录数 |
7403 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9]{4}[a-vx-z]/'* |
|
首发版本 |
4.0.1 |
|
说明 |
某个汉字在高本漢的《漢文典(修訂本)》(1957 )中的位置。 这个属性包含了7403 条记录的数据,格式为DDDa( ‘ ) ,其中: “ DDDD ” 是一个范围在 “ 0001 ” 到 “ 1260 ” 之间的四位数(不足四位在高位补0 ); “ a ” 是一个在 “ a ” 到 “ z ” 之间(不包括 “ w ” )的小写英文字母;最后的半角单引号 “’” 是可选的。数据来源自一个包含10,023 条引用参考的对应表,引用记录的格式在这里被省略了。 发布记录 2003 年12 月22 日 :首次发布。下列32 条引用数据的格式是未被编码过的:0059k 、 0069y 、 0079d 、 0275b 、 0286a 、 0289a 、 0289f 、 0293a 、 0325a 、 0389o 、 0391h 、 0392s 、 0468h 、 0480a 、 0516a 、 0526o 、 0566g' 、 0642y 、 0661a 、 0739i 、0775b 、 0837h 、 0893r 、 0969a 、 0969e 、 1019e 、 1062b 、 1112d 、 1124l 、 1129c' 、 1144a 、 1144b 。在某些情况下会对应表中出现形式和含义特异的对应记录,这些引用特例在这里就不多加说明了。 著作简介 Grammata Serica Recensa (中文译名:《漢文典(修訂本)》)是瑞典著名汉学家高本漢(Karlgren, Klas Bernhard Johannes 1889 – 1978 )所著的一部研究和整理汉语古文字字形及音韵的字典,本数据库参考了2000 年发表的该字典的一个电子版本。电子版《漢文典(修訂本)》包括了索引、正音、图片和高本汉著作(1957 )原文,资料来源自Richard Cook 主持的STEDT 项目,也部分参考了由Tor Ulving 和Ferenc Tafferner 完成的整理工作(参见下面的说明),获加利福尼亚大学伯克利分校授权使用。有关STEDT 项目的详细情况,请参考其网站<http://stedt.berkeley.edu/ > 。 高本汉1957 年重新修订的《汉文典》第一版发表在瑞典斯德哥尔摩《远东文物博物馆公报》(BMFEA )第29 卷上,由Elanders Boktrycker Aktiebolag 和Kungsbacka 于1972 年再版。另外,位于中国台湾台北市的南天書局有限公司也曾于1996 年再版此修订本,ISBN 书号:957-638-269-6 。 高本汉1940 年首次发表的Grammata Serica: Script and Phonetics in Chinese and Sino-Japanese (中文译名:《中日漢字形聲論》,亦即《漢文典》)原刊于BMFEA 第12 卷,台北成文出版社有限公司于1966 年再版了该著作。 Tor Ulving 和Ferenc Tafferner 根据高本汉的构拟重新编写了一本非常有用的书--Dictionary of Old and Middle Chinese: Bernhard Karlgren's Grammata Serica Recensa Alphabetically Arranged --中文译名为《上古和中古汉语字典:根据高本汉〈汉文典(修订本)〉音序排列》,由瑞典歌德堡大学学报于1997 年出版,ISBN 书号:91-7346-294-2 。 |
备注:
高本汉的 Grammata Serica Recensa 的中译名可以有很多种,这里我采用的是中文学界认同程度比较高的《汉文典》,虽然从著作者本人对该字典的说明其研究阐述的内容来说,个人认为应该译为《古汉语字典》更贴切一些。
另外 Grammata Serica 和 Grammata Serica Recensa 的常用译名相差甚远在我这个 “ 外行人 ” 看来也是一件比较别扭的事情,其实后者就是前者的修订本。
Unihan 数据库整理的《汉文典》索引数据所引用的位置实际上并不是关于原著的,而是关于它的一个电子版的索引,该电子版主要基于加州大学伯克利分校的 STEDT 项目提供的资料而构成,上述说明中所说的 “ 被省略掉 ” 的引用参考对应表及其记录数据的格式和含义相信应该指的就是 STEDT 上的资料结构。
属性 |
kGradeLevel (香港汉字教学水平等级) |
|
分类 |
字典素材 |
|
分级 |
暂定 |
|
记录数 |
2632 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[1-6] |
|
首发版本 |
3.2 |
|
说明 |
围绕香港教育系统中规定学生应该掌握的汉字而划分的一个基本水平等级,共有6 级。数据来源自朗文香港2001 年版《朗文初級中文詞典》。 |
属性 |
kHDZRadBreak (《汉语大字典》部首字头索引) |
|
|
分类 |
字典素材 |
|
|
分级 |
暂定 |
|
|
记录数 |
200 |
|
|
数据值格式 |
分隔符 |
无 |
|
语法 |
[x{2F00}-x{2FD5}][U+2?[0-9A-F]{4}]:[1-8][0-9]{4}/.[0-9]{2}[012] |
||
首发版本 |
4.1 |
|
|
说明 |
为《漢語大字典》中的部首字头建立的一个索引--即汉语大字典部首字头在字典正文中的位置。数据值包括对应的康熙部首(及其Unicode 编码点)、冒号 “ : ” 、kHanyu 属性数据格式的位置信息。 |
|
|
属性 |
kHKGlyph (香港《常用字字形表》索引) |
|
分类 |
字典素材 |
|
分级 |
暂定 |
|
记录数 |
4825 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9]{4} |
|
首发版本 |
3.1.1 |
|
说明 |
某个汉字在香港《常用字字形表(二零零零年修訂本)》中的位置,该表由香港教育學院于2000 年出版,ISBN 书号:962-949-040-4 。《字形表》收录香港基础教育阶段的常用字4759 个,制定了它们的 “ 标准 ” 字形。此位置信息由四位十进制数组成,不足四位的在高位补0 。 |
属性 |
kHKSCS (香港增补字符集Big5 编码) |
|
分类 |
与其他编码字符集的映射 |
|
分级 |
暂定 |
|
记录数 |
4375 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9A-F]{4} |
|
首发版本 |
3.1.1 |
|
说明 |
某个汉字在Big5 扩充-香港增补字符集中的十六进制编码。 |
属性 |
kHanYu (《汉语大字典》索引) |
|
分类 |
字典索引 |
|
分级 |
暂定 |
|
记录数 |
55817 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[1-8][0-9]{4}/.[0-9]{2}[0-3] |
|
说明 |
某个汉字在《汉语大字典》(HDZ )中的字头位置(有关该字典的介绍稍后给出)。 这个属性的数据值格式为 “ ABCDE.XYZ ” ,其中: “ A ” 表示卷号(范围在1 到8 之间); “ BCDE ” 是一个表示页码(范围在0001 到4809 之间)的四位数,不足四位的在高位补0 ; “ XY ” 是一个表示页内第几个字头(范围在01 到32 之间)的两位数,不足两位的在高位补0 ; “ Z ” 代表字头的存在状态,为 “ 0 ” 时表示该字头存在于字典中,若大于0 则表示该字头并不存在于字典中,但根据字典的编排规则可以 “ 虚设 ” 在第 “ Z ” 个字头的位置--也就是说如果字典要收录该字头的话,那它就应该被编排在这个位置。比如,索引值53024.060 表示一个实际存在于汉语大字典中的字头,它位于第五卷3024 页的第6 字头(即籉)。另外要说明的是,卷8 的 “ BCDE ” 取值范围在0008 到0044 之间,它实际上是字典末尾的附录补遗部分(真实页码从字典第5746 页之后开始)。 虚设字头位置在第一个的索引为1 ,第二个的索引为2 …… 等等,依次类推。 版本信息 在这个属性的全部56097 条记录中,有54728 条表示实际的汉语大字典字头索引(注意:是在字典正文中的位置),另外1369 条记录则表示虚设的字头位置(见下面的备注)。 在这其中,一共有55817 条记录是唯一的。之所以会说有五万六千多条是因为需要考虑IRG 字源认同因素,同一个编码点可能会出现不只一条汉语大字典索引(指向同一个字的相容变体)。字源认同的类型有两种:(1) 变体认同;(2) 检字结果相同认同。 为了验证所有索引数据的准确性,主要应该根据对三方面的资料进行相互校验来完成:(1) 字典原文;(2) Unihan.txt (3.1.1 d1 版)中的 “ kIRGHanyuDaZidian “ 属性数据;(3) 由中国中文信息学会最初发布和校验的 “ HDZ.TXT ” 文件。另外,本属性的数据还被反过来用于校验Unihan.txt (3.1.1d1 版)中的 “ kHanYu ” 和 “ kAlternateHanYu ” 属性数据,虽然现在这两个属性已经被别的属性取代了。 通过上述方法对数据值、数据长度、组合关键字、属性总数和页面总数等指标进行的完整核查,总共统计出上面列出的资料(2) 中的578 处 冗余/错误数据,现在已经全部确认或改好了。有些错误没有改是因为它们可能索引的是虚设位置,或者是用来对某页中的字头进行排序的,这跟那种涉及不同的两 页的错误是不一样的。在将来,可能会分离字源认同的记录,这样就需要更新某些索引数据的编码点了。不然就应该在数据库中删掉字源认同(重复编码点)的记 录。 在上面列出的资料(3) 中只有真实的汉语大字典字头的数据才能用于进行校验,而资料(2) 则可以拿来校验全部虚设位置。似乎编辑资料(2) 的人通常都会根据笔画数规定虚设位置,即使有时虚设位置跟实际字头的位置一样的(即该字是一个变体),与实际的笔画数无关。 本属性数据所依据的字典原文,是由四川辞书出版社和湖北辞书出版社于1986 至1990 年间联合出版的《汉语大字典(八卷本)》, ISBN 书号:7-5403-0030 2/H.16 。 |
属性 |
kHangul (谚文注音) |
|
分类 |
字典素材 |
|
分级 |
暂定 |
|
记录数 |
7745 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
谚文字符 |
|
首发版本 |
5.0 |
|
说明 |
用谚文标注的某个汉字在现代朝鲜语中的发音。 |
属性 |
kHanyuPinlu (现代汉语读音频率) |
|
分类 |
字典素材 |
|
分级 |
暂定 |
|
记录数 |
3799 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[a-z ü ]+[1-5]/([0-9]+/) |
|
首发版本 |
4.0.1 |
|
说明 |
某个汉字在现代汉语中的读音及其使用频率资料,数据主要来源于《現代漢語頻率詞典》(稍后将给出该词典的介绍)。 数据格式 本属性总共有3800 条记录,每条记录由两部分数据组成。 首先是汉字的汉语拼音,拼音字母的后面带有用数字表示的声调(1 至5 声,第5 声表示轻声)。 跟在声调数字后面的是一个用圆括号括起来的数字串,比如 “ a1(392) ” ,括号中的数字表示(由《现代汉语频率词典》统计的)该读音的使用频率。 多音字的各个读音按其使用频率排序(频率高的在前面),其间用逗号和空格分开。 版本信息 《现代汉语频率词典》所依据的是来源于现代规范汉语(普通话),分为四种类型(新闻出版物、科技文献、口语和文学作品),总共440799 字的语料。有关这些语料的具体情况就不方便在这里详细介绍了。 《现代汉语频率词典》第491 到656 页的8548 个(有的版本是8586 个)条目的资料是手工录入的,并由Richard Cook 于1994 年8 月4 日至1995 年3 月22 日间校对过。 当前版本发布的数据最后一次校对的时间就是上述的校对时间。 这里发布的汉语拼音资料于1995 年通过半自动和手工结合的方式校对过,主要来源于Ross Paterson (Department of Computing, Imperial College, London )提供的数据。 另外还应当感谢文林研究所<http://www.wenlin.com > 的负责人Tom 在本属性早期的数据校对工作中所提供的帮助。 此《现代汉语频率词典》数字化资料所使用的汉字基本上为中国内地的简体中文GB 2312-80 编码字符集(简体中文的Mac OS 7 到9 版即使用此编码标准)中的字,除了一个 “ 嗐 ” 字之外。 本属性的数据汇集过程为:先把原始资料文本转换为Big5 编码(缺一个 “ 腈 ” 字) ,然后分别把GB 和Big5码 的资料文本转换为Unicode 4.0 编码,最后合并两个Unicode 文本得到当前版本的3800 条记录。从现代汉语简体中文多音节词中统计出来的频率数据适用于简化字和繁体字使用频率的分析。 本属性资料的主要数据来源信息 《現代漢語頻率詞典》,北京語言學院語言教學研究所編著。 1986 年6 月第一次出版,1990 年4 月第二次印刷。ISBN 书号:ISBN 7-5619-0094-5/H.67 。 |
属性 |
kIBMJapan (IBM 日文编码) |
|
分类 |
与其他编码字符集的映射 |
|
分级 |
暂定 |
|
记录数 |
360 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
F[ABC][0-9A-F]{2} |
|
说明 |
某个汉字在IBM 日文字符集中的十六进制编码。 |
属性 |
kIICore (国际表意文字核心集资料) |
|
分类 |
字典素材 |
|
分级 |
常规 |
|
记录数 |
9810 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[1-9]/.[1-9] |
|
首发版本 |
4.1 |
|
说明 |
表示某个汉字被收录在了国际表意文字核心集(即International Ideographs Core ,简称IICore )里面,这是由IRG 提出的,为表示东亚国家共通使用的汉字所必需的一个最小字集。 本属性的数据值表示某字已被IRG 核准,但未经通过WG2 认证,或者表示在ISO/IEC 10646 中包含有该字的一个子集的子集标识符。 |
属性 |
kIRGDaeJaweon (四字典定序用《大字源》索引) |
|
|
分类 |
字典索引 |
|
|
分级 |
暂定 |
|
|
记录数 |
16024 |
|
|
数据值格式 |
分隔符 |
空格 |
|
语法 |
[0-9]{4}/.[0-9]{2}[01]|0000/.555 |
||
首发版本 |
3 |
|
|
说明 |
某个汉字在《大字源》(朝鲜)中的位置,这本字典是IRG 用来确定汉字编码顺序的四本字典之一。此位置信息的格式为 “ 页码. 页内第几字 ” ,其中如果代表 “ 页内第几字 ” 的数字的最后一位为 “ 0 ” 的话,就表示这个汉字实际存在于字典之中;如果为 “ 1 “ 的话就表示这个汉字没有实际存在于字典之中,这是一个 ” 虚设 “ 的汉字位置,意思是如果字典中有这个字的话,那它就应该出现在这里。 比如,位置信息 “ 1187.060 “ 表示1187 页第6 字(实字)。如果想要表示一个字典中没有的字,但根据排序规则可以在1187 页的第6 和第7 字之间给它虚设一个位置的话,那么位置信息就应该写为 ” 1187.061 “ 。 这个属性的数据值表示IRG 在用四字典定序法编排汉字时,所正式参考的某个汉字在《大字源》中的位置。 这里使用的《大字源》版本为Samseong 出版社1988 年版第一版。 |
|
|
属性 |
kIRGDaiKanwaZiten (四字典定序用《大汉和辞典》索引) |
|
分类 |
字典索引 |
|
分级 |
暂定 |
|
记录数 |
17864 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[0-9]{5}/'? |
|
首发版本 |
3 |
|
空格 |
某个汉字在《大汉和辞典》(日本,诸桥辙次著)中的位置,这本辞典是IRG 用来确定汉字编码顺序的四本字典之一。 这个属性的数据值表示IRG 在用四字典定序法编排汉字时,所正式参考的某个汉字在《大汉和辞典》中的位置。 这里使用的《大汉和辞典》版本为东京Taishuukan Shoten 1986 年版的修订本。 |
属性 |
kIRGHanyuDaZidian (四字典定序用《汉语大字典》索引) |
|
|
分类 |
字典索引 |
|
|
分级 |
暂定 |
|
|
记录数 |
55812 |
|
|
数据值格式 |
分隔符 |
空格 |
|
语法 |
[1-8][0-9]{4}/.[0-3][0-9][01] |
||
首发版本 |
3 |
|
|
说明 |
某个汉字在《汉语大字典》(中国)中的位置,这本字典是IRG 用来确定汉字编码顺序的四本字典之一。位置数据的格式为 “ 卷号页码. 页内第几个字头 ” ,其中页内第几个字头的最后一位数如果为0 表示字典中有这个字头,如果为1 则表示字典中没有这个字头(代表一个虚设位置)。 比如,数据值 “ 32264.080 ” 代表的是卷三2264 页第8 字头。如果一个汉字不是字典中的字头,但根据字典的编排规则应该把它安排在上述页次中的第8 和9 字头之间,则该汉字的虚设位置数据为 “ 32264.081 “ 。 这个属性的数据值表示IRG 在用四字典定序法编排汉字时,所正式参考的某个汉字在《汉语大字典》中的位置。 这里使用的《汉语大字典》版本为成都四川辞书出版社1986 年版。 |
|
|
属性 |
kIRGKangXi (四字典定序用《康熙字典》索引) |
|
分类 |
字典索引 |
|
分级 |
暂定 |
|
记录数 |
70205 |
|
数据值格式 |
分隔符 |
空格 |
语法 |
[01][0-9]{3}/.[0-7][0-9][01] |
|
首发版本 |
3 |
|
说明 |
某个汉字在《康熙字典》中的位置,这本字典是IRG 用来确定汉字编码顺序的四本字典之一。位置数据的格式为 “ 页码. 页内第几字头 “ ,其中页内第几字头的最后一位数如果为0 表示字典中有这个字头,如果为1 则表示字典中没有这个字头(代表一个虚设位置)。 比如,数据值 “ 1187.060 ” 表示的是1187 页第6 字头。如果一个汉字不是字典中的字头,但根据字典的编排规则应该把它安排在上述页次中的第6 和7 字头之间,则该汉字的虚设位置数据为 “ 1187.061 ” 。 这个属性的数据值表示IRG 在用四字典定序法编排汉字时,所正式参考的某个汉字在《康熙字典》中的位置。 这里使用的《康熙字典》版本为北京中华书局1989 年出的第七版。 |
备注:
有关 IRG 和四字典定序法的两篇简单介绍--
http://www.nits.org.cn/sc2/jieshao1.asp
http://glyph.iso10646hk.net/chinese/icharacters_3.htm
更详细的资料则请参考 《 Unihan之道》 。
属性 |
kMandarin ( 汉语拼音) |
分类 |
字典索引 |
分级 |
暂定 |
记录数 |
25477 |
说明 |
汉语拼音 ,使用频率排序,而不是字母顺序 |