[转]Unicode 汉字数据库

from: http://blog.csdn.net/nivana999/archive/2009/06/06/4247844.aspx

UNICODE 汉字数据库

版本

5.0.0

作者

John Jenkins (井作恆)、Richard Cook (曲理查)

发布日期

2006-07-10

当前版本

http://www.unicode.org/Public/5.0.0/ucd/Unihan.html

上一版本

http://www.unicode.org/Public/4.1.0/ucd/Unihan.html

最新版本

http://www.unicode.org/Public/UNIDATA/Unihan.html

原文: http://www.unicode.org/Public/5.0.0/ucd/Unihan.html

译文:北大中文论坛 http://www.pkucn.com

译者:韦剑

整理: nivana999 2009-5-31

1. 译序

本文作为对 unicode 汉字数据库文件 unihan.txt 格式的分析和解读,列出并解释了文件中的常用属性,如 kGB0(GB2312-80 的区位码映射 ) kMandarin(unicode 编码对应汉字的汉语拼音 )

Unihan.txt 文件描述了每个 unicode 编码包含的众多属性,这些属性包括各种字符编码的映射关系、英文释意、字典索引、中文笔画、部首、汉语拼音等等。用户可根据这些属性生成自己的汉字数据库、字符编码映射表、输入法字典映射表等。

以下给出 unihan.txt 中一个 unicode 编码的格式实例,‘ # ‘后为注释:

U+4E00 kBigFive A440 #big 5

U+4E00 kCCCII 213021 # kCCCII 编码

U+4E00 kCNS1986 1-4421 # kCNS1986 编码

U+4E00 kCNS1992 1-4421 #kCNS1992 编码

U+4E00 kCangjie M # 倉頡输入法编码

U+4E00 kCantonese jat1

U+4E00 kCihaiT 1.101

U+4E00 kCowles 5133

U+4E00 kDaeJaweon 0129.010

U+4E00 kDefinition one; a, an; alone # 英文解释 ( 此字意为 1 )

U+4E00 kEACC 213021

U+4E00 kFenn 1A

U+4E00 kFennIndex 216.01 217.06 218.01 220.06

U+4E00 kFourCornerCode 1000.0

U+4E00 kFrequency 1 # 使用频度( 1 为最高)

U+4E00 kGB0 5027 #GB2312-80 中的区位码

U+4E00 kGB1 5027 #GB12345-90 中的区位码

U+4E00 kGSR 0394a

U+4E00 kGradeLevel 1

U+4E00 kHDZRadBreak [U+2F00]:10001.010

U+4E00 kHKGlyph 0001

U+4E00 kHanYu 10001.010

U+4E00 kHangul

U+4E00 kHanyuPinlu yi1(32747) # 汉语出现的频率

U+4E00 kIICore 2.1

U+4E00 kIRGDaeJaweon 0129.010

U+4E00 kIRGDaiKanwaZiten 00001

U+4E00 kIRGHanyuDaZidian 10001.010

U+4E00 kIRGKangXi 0075.010

U+4E00 kIRG_GSource 0-523B

U+4E00 kIRG_JSource 0-306C

U+4E00 kIRG_KPSource KP0-FCD6

U+4E00 kIRG_KSource 0-6C69

U+4E00 kIRG_TSource 1-4421

U+4E00 kIRG_VSource 1-4A21

U+4E00 kJapaneseKun HITOTSU HITOTABI HAJIME

U+4E00 kJapaneseOn ICHI ITSU

U+4E00 kJis0 1676

U+4E00 kKPS0 FCD6

U+4E00 kKSC0 7673

U+4E00 kKangXi 0075.010

U+4E00 kKarlgren 175

U+4E00 kKorean IL

U+4E00 kLau 3341

U+4E00 kMainlandTelegraph 0001

U+4E00 kMandarin YI1 # 汉语拼音 (yi 的第一声,第二声为 yi2)

U+4E00 kMatthews 3016

U+4E00 kMeyerWempe 3837

U+4E00 kMorohashi 00001

U+4E00 kNelson 0001

U+4E00 kPhonetic 1499

U+4E00 kPrimaryNumeric 1

U+4E00 kRSAdobe_Japan1_6 C+1200+1.1.0

U+4E00 kRSKangXi 1.0

U+4E00 kRSUnicode 1.0

U+4E00 kSBGY 468.40

U+4E00 kSemanticVariant U+5F0C<kLau,kMatthews,kMeyerWempe U+58F9<kLau,kMatthews,kMeyerWempe

U+4E00 kSpecializedSemanticVariant U+58F9

U+4E00 kTaiwanTelegraph 0001

U+4E00 kTang *qit qit

U+4E00 kTotalStrokes 1 # 笔画数

U+4E00 kVietnamese nhất

U+4E00 kXHC1983 1351.020:yi ̄ 1360.040:yí 1368.160:yì

U+4E00 kXerox 241:042

2. 摘要

本文分析了Unicode 字符数据库(UCD 里的Unihan.txt 文件的格式和内容。

3. 关于本文

本文和本文中所指的 文件 属于Unicode 字符数据库的一部分,统一受Unicode 标准资源使用协议(http://www.unicode.org/terms_of_use.html )的管理。

文末所列的参考资料 提供了有助于理解本文所需的一些相关知识。

注意: 本文所要解释的Unicode 字符属性和作用的用法并不完全都由本文给出,有时可能会要结合Unicode 字符数据库里面其他文件的数据来使用,这种数据链接所需的符号及其定义请参考Unicode 标准 。除非特别说明,本文所提及的 字符 均来自Unicode 标准5.0 版。

4. 目录

1. 摘要 .... 1

2. 关于本文 .... 1

3. 目录 .... 1

4. 文档结构 .... 3

字段 1 数据含义 ... 3

字段 2 数据含义 ... 3

字段 3 数据含义 ... 3

5. Unihan 属性 .... 4

5.1. Unihan 属性列表(按字母顺序排列) ... 4

5.2. Unihan 属性分类 ... 5

字典索引 ... 5

字典素材 ... 5

IRG 字源资料 ... 5

数值 ... 5

与其他编码字符集的映射 ... 5

部首/笔画数 ... 5

变体 ... 6

5.3. Unihan 属性分级 ... 6

常规 ... 6

资料 ... 6

暂定 ... 6

5.4. 属性详解 ... 6

kAccountingNumeric (财会数字) ... 6

kBigFive Big5 编码) ... 7

kCCCII CCCII 编码) ... 7

kCNS1986 CNS 11643-1986 编码) ... 8

kCNS1992 CNS 11643-1992 编码) ... 8

kCangjie (仓颉码) ... 8

kCantonese (广东话读音) ... 9

kCheungBauer CheungBauer 资料) ... 10

kCheungBauerIndex CheungBauer 索引) ... 10

kCihaiT (《辞海》索引) ... 11

kCompatibilityVariant (相容变体) ... 11

kCowles Cowles 索引) ... 12

kDaeJaweon (《大字源》索引) ... 12

kDefinition (英文释义) ... 13

kEACC EACC 编码) ... 13

kFenn Fenn 资料) ... 14

kFennIndex Fenn 索引) ... 14

kFourCornerCode (四角号码) ... 15

kFrequency (频度等级) ... 15

kGB0 GB 2312-80 区位码) ... 16

kGB1 GB 12345-90 区位码) ... 17

kGB3 GB 7589-87 区位码) ... 17

kGB5 GB 7590-87 区位码) ... 17

kGB7 GB 8565-89 区位码) ... 18

kGB8 GB 8565-89 区位码) ... 18

kGSR (《漢文典(修訂本)》索引) ... 18

margin: 0cm 0cm 0pt 21

你可能感兴趣的:(html,数据结构,.net,Blog)