from: http://blog.csdn.net/nivana999/archive/2009/06/06/4247844.aspx
UNICODE 汉字数据库
版本 |
5.0.0 |
作者 |
John Jenkins (井作恆)、Richard Cook (曲理查) |
发布日期 |
2006-07-10 |
当前版本 |
|
上一版本 |
|
最新版本 |
原文: http://www.unicode.org/Public/5.0.0/ucd/Unihan.html
译文:北大中文论坛 http://www.pkucn.com
译者:韦剑
整理: nivana999 于 2009-5-31
本文作为对 unicode 汉字数据库文件 unihan.txt 格式的分析和解读,列出并解释了文件中的常用属性,如 kGB0(GB2312-80 的区位码映射 ) , kMandarin(unicode 编码对应汉字的汉语拼音 ) 。
Unihan.txt 文件描述了每个 unicode 编码包含的众多属性,这些属性包括各种字符编码的映射关系、英文释意、字典索引、中文笔画、部首、汉语拼音等等。用户可根据这些属性生成自己的汉字数据库、字符编码映射表、输入法字典映射表等。
以下给出 unihan.txt 中一个 unicode 编码的格式实例,‘ # ‘后为注释:
U+4E00 kBigFive A440 #big 5 码
U+4E00 kCCCII 213021 # kCCCII 编码
U+4E00 kCNS1986 1-4421 # kCNS1986 编码
U+4E00 kCNS1992 1-4421 #kCNS1992 编码
U+4E00 kCangjie M # 倉頡输入法编码
U+4E00 kCantonese jat1
U+4E00 kCihaiT 1.101
U+4E00 kCowles 5133
U+4E00 kDaeJaweon 0129.010
U+4E00 kDefinition one; a, an; alone # 英文解释 ( 此字意为 1 个 )
U+4E00 kEACC 213021
U+4E00 kFenn 1A
U+4E00 kFennIndex 216.01 217.06 218.01 220.06
U+4E00 kFourCornerCode 1000.0
U+4E00 kFrequency 1 # 使用频度( 1 为最高)
U+4E00 kGB0 5027 #GB2312-80 中的区位码
U+4E00 kGB1 5027 #GB12345-90 中的区位码
U+4E00 kGSR 0394a
U+4E00 kGradeLevel 1
U+4E00 kHDZRadBreak ⼀ [U+2F00]:10001.010
U+4E00 kHKGlyph 0001
U+4E00 kHanYu 10001.010
U+4E00 kHangul 일
U+4E00 kHanyuPinlu yi1(32747) # 汉语出现的频率
U+4E00 kIICore 2.1
U+4E00 kIRGDaeJaweon 0129.010
U+4E00 kIRGDaiKanwaZiten 00001
U+4E00 kIRGHanyuDaZidian 10001.010
U+4E00 kIRGKangXi 0075.010
U+4E00 kIRG_GSource 0-523B
U+4E00 kIRG_JSource 0-306C
U+4E00 kIRG_KPSource KP0-FCD6
U+4E00 kIRG_KSource 0-6C69
U+4E00 kIRG_TSource 1-4421
U+4E00 kIRG_VSource 1-4A21
U+4E00 kJapaneseKun HITOTSU HITOTABI HAJIME
U+4E00 kJapaneseOn ICHI ITSU
U+4E00 kJis0 1676
U+4E00 kKPS0 FCD6
U+4E00 kKSC0 7673
U+4E00 kKangXi 0075.010
U+4E00 kKarlgren 175
U+4E00 kKorean IL
U+4E00 kLau 3341
U+4E00 kMainlandTelegraph 0001
U+4E00 kMandarin YI1 # 汉语拼音 (yi 的第一声,第二声为 yi2)
U+4E00 kMatthews 3016
U+4E00 kMeyerWempe 3837
U+4E00 kMorohashi 00001
U+4E00 kNelson 0001
U+4E00 kPhonetic 1499
U+4E00 kPrimaryNumeric 1
U+4E00 kRSAdobe_Japan1_6 C+1200+1.1.0
U+4E00 kRSKangXi 1.0
U+4E00 kRSUnicode 1.0
U+4E00 kSBGY 468.40
U+4E00 kSemanticVariant U+5F0C<kLau,kMatthews,kMeyerWempe U+58F9<kLau,kMatthews,kMeyerWempe
U+4E00 kSpecializedSemanticVariant U+58F9
U+4E00 kTaiwanTelegraph 0001
U+4E00 kTang *qit qit
U+4E00 kTotalStrokes 1 # 笔画数
U+4E00 kVietnamese nhất
U+4E00 kXHC1983 1351.020:yi ̄ 1360.040:yí 1368.160:yì
U+4E00 kXerox 241:042
本文分析了Unicode 字符数据库(UCD ) 里的Unihan.txt 文件的格式和内容。
本文和本文中所指的 “ 文件 ” 属于Unicode 字符数据库的一部分,统一受Unicode 标准资源使用协议(http://www.unicode.org/terms_of_use.html )的管理。
文末所列的参考资料 提供了有助于理解本文所需的一些相关知识。
注意: 本文所要解释的Unicode 字符属性和作用的用法并不完全都由本文给出,有时可能会要结合Unicode 字符数据库里面其他文件的数据来使用,这种数据链接所需的符号及其定义请参考Unicode 标准 。除非特别说明,本文所提及的 “ 字符 ” 均来自Unicode 标准5.0 版。
kCheungBauer ( CheungBauer 资料)
kCheungBauerIndex ( CheungBauer 索引)
margin: 0cm 0cm 0pt 21