ablo_zhou

[转]Unicode 汉字数据库

from: http://blog.csdn.net/nivana999/archive/2009/06/06/4247844.aspx

UNICODE 汉字数据库

版本	5.0.0
作者	John Jenkins （井作恆）、Richard Cook （曲理查）
发布日期	2006-07-10
当前版本	http://www.unicode.org/Public/5.0.0/ucd/Unihan.html
上一版本	http://www.unicode.org/Public/4.1.0/ucd/Unihan.html
最新版本	http://www.unicode.org/Public/UNIDATA/Unihan.html

原文： http://www.unicode.org/Public/5.0.0/ucd/Unihan.html

译文：北大中文论坛 http://www.pkucn.com

译者：韦剑

整理： nivana999 于 2009-5-31

1. 译序

本文作为对 unicode 汉字数据库文件 unihan.txt 格式的分析和解读，列出并解释了文件中的常用属性，如 kGB0(GB2312-80 的区位码映射 ) ， kMandarin(unicode 编码对应汉字的汉语拼音 ) 。

Unihan.txt 文件描述了每个 unicode 编码包含的众多属性，这些属性包括各种字符编码的映射关系、英文释意、字典索引、中文笔画、部首、汉语拼音等等。用户可根据这些属性生成自己的汉字数据库、字符编码映射表、输入法字典映射表等。

以下给出 unihan.txt 中一个 unicode 编码的格式实例，‘ # ‘后为注释：

U+4E00 kBigFive A440 #big 5 码

U+4E00 kCCCII 213021 # kCCCII 编码

U+4E00 kCNS1986 1-4421 # kCNS1986 编码

U+4E00 kCNS1992 1-4421 #kCNS1992 编码

U+4E00 kCangjie M # 倉頡输入法编码

U+4E00 kCantonese jat1

U+4E00 kCihaiT 1.101

U+4E00 kCowles 5133

U+4E00 kDaeJaweon 0129.010

U+4E00 kDefinition one; a, an; alone # 英文解释 ( 此字意为 1 个 )

U+4E00 kEACC 213021

U+4E00 kFenn 1A

U+4E00 kFennIndex 216.01 217.06 218.01 220.06

U+4E00 kFourCornerCode 1000.0

U+4E00 kFrequency 1 # 使用频度（ 1 为最高）

U+4E00 kGB0 5027 #GB2312-80 中的区位码

U+4E00 kGB1 5027 #GB12345-90 中的区位码

U+4E00 kGSR 0394a

U+4E00 kGradeLevel 1

U+4E00 kHDZRadBreak ⼀ [U+2F00]:10001.010

U+4E00 kHKGlyph 0001

U+4E00 kHanYu 10001.010

U+4E00 kHangul 일

U+4E00 kHanyuPinlu yi1(32747) # 汉语出现的频率

U+4E00 kIICore 2.1

U+4E00 kIRGDaeJaweon 0129.010

U+4E00 kIRGDaiKanwaZiten 00001

U+4E00 kIRGHanyuDaZidian 10001.010

U+4E00 kIRGKangXi 0075.010

U+4E00 kIRG_GSource 0-523B

U+4E00 kIRG_JSource 0-306C

U+4E00 kIRG_KPSource KP0-FCD6

U+4E00 kIRG_KSource 0-6C69

U+4E00 kIRG_TSource 1-4421

U+4E00 kIRG_VSource 1-4A21

U+4E00 kJapaneseKun HITOTSU HITOTABI HAJIME

U+4E00 kJapaneseOn ICHI ITSU

U+4E00 kJis0 1676

U+4E00 kKPS0 FCD6

U+4E00 kKSC0 7673

U+4E00 kKangXi 0075.010

U+4E00 kKarlgren 175

U+4E00 kKorean IL

U+4E00 kLau 3341

U+4E00 kMainlandTelegraph 0001

U+4E00 kMandarin YI1 # 汉语拼音 (yi 的第一声，第二声为 yi2)

U+4E00 kMatthews 3016

U+4E00 kMeyerWempe 3837

U+4E00 kMorohashi 00001

U+4E00 kNelson 0001

U+4E00 kPhonetic 1499

U+4E00 kPrimaryNumeric 1

U+4E00 kRSAdobe_Japan1_6 C+1200+1.1.0

U+4E00 kRSKangXi 1.0

U+4E00 kRSUnicode 1.0

U+4E00 kSBGY 468.40

U+4E00 kSemanticVariant U+5F0C<kLau,kMatthews,kMeyerWempe U+58F9<kLau,kMatthews,kMeyerWempe

U+4E00 kSpecializedSemanticVariant U+58F9

U+4E00 kTaiwanTelegraph 0001

U+4E00 kTang *qit qit

U+4E00 kTotalStrokes 1 # 笔画数

U+4E00 kVietnamese nhất

U+4E00 kXHC1983 1351.020:yi ̄ 1360.040:yí 1368.160:yì

U+4E00 kXerox 241:042

2. 摘要

本文分析了Unicode 字符数据库（UCD ）里的Unihan.txt 文件的格式和内容。

3. 关于本文

本文和本文中所指的 “ 文件 ” 属于Unicode 字符数据库的一部分，统一受Unicode 标准资源使用协议（http://www.unicode.org/terms_of_use.html ）的管理。

文末所列的参考资料提供了有助于理解本文所需的一些相关知识。

注意： 本文所要解释的Unicode 字符属性和作用的用法并不完全都由本文给出，有时可能会要结合Unicode 字符数据库里面其他文件的数据来使用，这种数据链接所需的符号及其定义请参考Unicode 标准。除非特别说明，本文所提及的 “ 字符 ” 均来自Unicode 标准5.0 版。

4. 目录

1. 摘要 .... 1

2. 关于本文 .... 1

3. 目录 .... 1

4. 文档结构 .... 3

字段 1 数据含义 ... 3

字段 2 数据含义 ... 3

字段 3 数据含义 ... 3

5. Unihan 属性 .... 4

5.1. Unihan 属性列表（按字母顺序排列） ... 4

5.2. Unihan 属性分类 ... 5

字典索引 ... 5

字典素材 ... 5

IRG 字源资料 ... 5

数值 ... 5

与其他编码字符集的映射 ... 5

部首／笔画数 ... 5

变体 ... 6

5.3. Unihan 属性分级 ... 6

常规 ... 6

资料 ... 6

暂定 ... 6

5.4. 属性详解 ... 6

kAccountingNumeric （财会数字） ... 6

kBigFive （ Big5 编码） ... 7

kCCCII （ CCCII 编码） ... 7

kCNS1986 （ CNS 11643-1986 编码） ... 8

kCNS1992 （ CNS 11643-1992 编码） ... 8

kCangjie （仓颉码） ... 8

kCantonese （广东话读音） ... 9

kCheungBauer （ CheungBauer 资料） ... 10

kCheungBauerIndex （ CheungBauer 索引） ... 10

kCihaiT （《辞海》索引） ... 11

kCompatibilityVariant （相容变体） ... 11

kCowles （ Cowles 索引） ... 12

kDaeJaweon （《大字源》索引） ... 12

kDefinition （英文释义） ... 13

kEACC （ EACC 编码） ... 13

kFenn （ Fenn 资料） ... 14

kFennIndex （ Fenn 索引） ... 14

kFourCornerCode （四角号码） ... 15

kFrequency （频度等级） ... 15

kGB0 （ GB 2312-80 区位码） ... 16

kGB1 （ GB 12345-90 区位码） ... 17

kGB3 （ GB 7589-87 区位码） ... 17

kGB5 （ GB 7590-87 区位码） ... 17

kGB7 （ GB 8565-89 区位码） ... 18

kGB8 （ GB 8565-89 区位码） ... 18

kGSR （《漢文典（修訂本）》索引） ... 18

kGradeLevel （香港汉字教学水平等级） ... 20

kHDZRadBreak （《汉语大字典》部首字头索引） ... 20

kHKGlyph （香港《常用字字形表》索引） ... 21

kHKSCS （香港增补字符集 Big5 编码） ... 21

kHanYu （《汉语大字典》索引） ... 22

kHangul （谚文注音） ... 23

kHanyuPinlu （现代汉语读音频率） ... 23

kIBMJapan （ IBM 日文编码） ... 25

kIICore （国际表意文字核心集资料） ... 25

kIRGDaeJaweon （四字典定序用《大字源》索引） ... 26

kIRGDaiKanwaZiten （四字典定序用《大汉和辞典》索引） ... 26

kIRGHanyuDaZidian （四字典定序用《汉语大字典》索引） ... 27

kIRGKangXi （四字典定序用《康熙字典》索引） ... 28

5. 文档结构

Unihan.txt 文件数据正文中的每条记录都由三个字段组成，各字段之间用Tab 制表符分开。

字段 1 数据含义

形如U+[X]XXXX 这样的Unicode 编码点（即U+ 前缀的后面加上4 个或5 个十六进制数字）。

字段 2 数据含义

说明记录中第三个字段数据的类型或来源。

字段 3 数据含义

本条记录的（关键）数据值（UTF-8 格式，事实上整个Unihan.txt 都是UTF-8 编码格式的）。

下表列出了Unihan.txt 中字段1 的汉字编码点有效取值范围：

编码点范围	区域名称	首发版本
U+3400..U+4DB5	中日韩统一表意文字扩展集A	3.0
U+4E00..U+9FA5	中日韩统一表意文字	1.1
U+9FA6..U+9FBB	中日韩统一表意文字	4.1
U+F900..U+FA2D	中日韩相容表意文字	1.1
U+FA30..U+FA6A	中日韩相容表意文字	3.2
U+FA70..U+FAD9	中日韩相容表意文字	4.1
U+20000..U+2A6D6	中日韩统一表意文字扩展集B	3.1
U+2F800..U+2FA1D	增补中日韩相容表意文字	3.1

Unihan.txt 没有包括以下范围的中日韩字符的数据：

编码点范围	区域名称	首发版本
U+2E80..U+2E99	增补中日韩部首	3.0
U+2E9B..U+2EF3	增补中日韩部首	3.0
U+2F00..U+2FD5	康熙部首	3.0
U+3000..U+303F	中日韩标点符号	多次修订
U+3200..U+3243	附加标记的中日韩文字和月份	多次修订
U+3250..U+32FE	附加标记的中日韩文字和月份	多次修订
U+3300..U+33FF	中日韩相容文字	多次修订

6. Unihan 属性

下面将列出Unihan.txt 的所有属性标记，并通过一个表格给出有关这些属性的信息。在Unihan 属性中只有少数属于Unicode 常规或资料属性，其余的则属于暂定属性。有关 “ 常规（Normative ） ” 、 “ 资料（Informative ） ” 和 “ 暂定（Provisional ） ” 三个属性分级标志的更多内容，请查阅Unicode 5.0[U5.0 ] 标准文档第三章 “ 属性 “ 一节中D33 、D35 和D36 三个名词解释条目的定义。有关属性和Unicode 字符数据库的一般结构的更多内容，请查阅UCD.html 。

6.1. Unihan 属性列表（按字母顺序排列）

kAccountingNumeric 、 kBigFive 、 kCCCII 、 kCNS1986 、 kCNS1992 、 kCangjie 、 kCantonese 、 kCheungBauer 、 kCheungBauerIndex 、 kCihaiT 、 kCompatibilityVariant 、 kCowles 、 kDaeJaweon 、 kDefinition 、 kEACC 、 kFenn 、 kFennIndex 、 kFourCornerCode 、 kFrequency 、 kGB0 、 kGB1 、 kGB3 、 kGB5 、 kGB7 、 kGB8 、 kGSR 、 kGradeLevel 、 kHDZRadBreak 、 kHKGlyph 、 kHKSCS 、 kHangul 、 kHanYu 、 kHanyuPinlu 、 kIBMJapan 、 kIICore 、 kIRGDaeJaweon 、 kIRGDaiKanwaZiten 、 kIRGHanyuDaZidian 、 kIRGKangXi 、 kIRG_GSource 、 kIRG_HSource 、 kIRG_JSource 、 kIRG_KPSource 、 kIRG_KSource 、 kIRG_TSource 、 kIRG_USource 、 kIRG_VSource 、 kJIS0213 、 kJapaneseKun 、 kJapaneseOn 、 kJis0 、 kJis1 、 kKPS0 、 kKPS1 、 kKSC0 、 kKSC1 、 kKangXi 、 kKarlgren 、 kKorean 、 kLau 、 kMainlandTelegraph 、 kMandarin 、 kMatthews 、 kMeyerWempe 、 kMorohashi 、 kNelson 、 kOtherNumeric 、 kPhonetic 、 kPrimaryNumeric 、 kPseudoGB1 、 kRSAdobe_Japan1_6 、 kRSJapanese 、 kRSKanWa 、 kRSKangXi 、 kRSKorean 、 kRSUnicode 、 kSBGY 、 kSemanticVariant 、 kSimplifiedVariant 、 kSpecializedSemanticVariant 、 kTaiwanTelegraph 、 kTang 、 kTotalStrokes 、 kTraditionalVariant 、 kVietnamese 、 kXerox 、 kZVariant 。

6.2. Unihan 属性分类

字典索引

kCheungBauerIndex 、 kCihaiT 、 kCowles 、 kDaeJaweon 、 kFennIndex 、 kGSR 、 kHanYu 、 kIRGDaeJaweon 、 kIRGDaiKanwaZiten 、 kIRGHanyuDaZidian 、 kIRGKangXi 、 kKangXi 、 kKarlgren 、 kLau 、 kMatthews 、 kMeyerWempe 、 kMorohashi 、 kNelson 、 kSBGY 。

字典素材

kCangjie 、 kCantonese 、 kCheungBauer 、 kDefinition 、 kFenn 、 kFourCornerCode 、 kFrequency 、 kGradeLevel 、 kHangul 、 kHanyuPinlu 、 kHDZRadBreak 、 kHKGlyph 、 kIICore 、 kJapaneseKun 、 kJapaneseOn 、 kKorean 、 kMandarin 、 kPhonetic 、 kTang 、 kTotalStrokes 、 kVietnamese 。

IRG 字源资料

kIRG_GSource 、 kIRG_HSource 、 kIRG_JSource 、 kIRG_KPSource 、 kIRG_KSource 、 kIRG_TSource 、 kIRG_USource 、 kIRG_VSource 。

数值

kAccountingNumeric 、 kOtherNumeric 、 kPrimaryNumeric 。

与其他编码字符集的映射

kBigFive 、 kCCCII 、 kCNS1986 、 kCNS1992 、 kEACC 、 kGB0 、 kGB1 、 kGB3 、 kGB5 、 kGB7 、 kGB8 、 kHKSCS 、 kIBMJapan 、 kJIS0213 、 kJis0 、 kJis1 、 kKPS0 、 kKPS1 、 kKSC0 、 kKSC1 、 kMainlandTelegraph 、 kPseudoGB1 、 kTaiwanTelegraph 、 kXerox 。

部首／笔画数

kRSAdobe_Japan1_6 、 kRSJapanese 、 kRSKanWa 、 kRSKangXi 、 kRSKorean 、 kRSUnicode 。

变体

kCompatibilityVariant 、 kSemanticVariant 、 kSimplifiedVariant 、 kSpecializedSemanticVariant 、 kTraditionalVariant 、 kZVariant 。

6.3. Unihan 属性分级

常规

kCompatibilityVariant 、 kIICore 、 kIRG_GSource 、 kIRG_HSource 、 kIRG_JSource 、 kIRG_KPSource 、 kIRG_KSource 、 kIRG_TSource 、 kIRG_USource 、 kIRG_VSource 。

资料

kAccountingNumeric 、 kOtherNumeric 、 kPrimaryNumeric 、 kRSUnicode 。

暂定

kBigFive 、 kCCCII 、 kCNS1986 、 kCNS1992 、 kCangjie 、 kCantonese 、 kCheungBauer 、 kCheungBauerIndex 、 kCihaiT 、 kCowles 、 kDaeJaweon 、 kDefinition 、 kEACC 、 kFenn 、 kFennIndex 、 kFourCornerCode 、 kFrequency 、 kGB0 、 kGB1 、 kGB3 、 kGB5 、 kGB7 、 kGB8 、 kGSR 、 kGradeLevel 、 kHDZRadBreak 、 kHKGlyph 、 kHKSCS 、 kHangul 、 kHanYu 、 kHanyuPinlu 、 kIBMJapan 、 kIRGDaeJaweon 、 kIRGDaiKanwaZiten 、 kIRGHanyuDaZidian 、 kIRGKangXi 、 kJIS0213 、 kJapaneseKun 、 kJapaneseOn 、 kJis0 、 kJis1 、 kKPS0 、 kKPS1 、 kKSC0 、 kKSC1 、 kKangXi 、 kKarlgren 、 kKorean 、 kLau 、 kMainlandTelegraph 、 kMandarin 、 kMatthews 、 kMeyerWempe 、 kMorohashi 、 kNelson 、 kPhonetic 、 kPseudoGB1 、 kRSAdobe_Japan1_6 、 kRSJapanese 、 kRSKanWa 、 kRSKangXi 、 kRSKorean 、 kSBGY 、 kSemanticVariant 、 kSimplifiedVariant 、 kSpecializedSemanticVariant 、 kTaiwanTelegraph 、 kTang 、 kTotalStrokes 、 kTraditionalVariant 、 kVietnamese 、 kXerox 、 kZVariant 。

6.4. 属性详解

kAccountingNumeric （财会数字）

属性	kAccountingNumeric （财会数字）
分类	数值
分级	资料
记录数	24
数据值格式	分隔符	空格
	语法	[0-9]+
首发版本	3.2
说明	在记录数据信息的时候，这类字符可以表示出 “ 数值 ” 的含义。在东亚地区的书面资料中，专用的财会数字通常可以起到 “ 数值表示上的不可篡改 ” 的作用。比如十（10 ），只要多加一笔就可以很容易地被改成千（1000 ），所以在对数值数据文本要求严谨的金融类文档中，规定必须使用专门的财会数字 “ 拾 ” 来表示10 这个数。Unihan 的三种数值属性不会重复定义，也就是说如果一个字符定义了kAccountingNumeric 属性，那它肯定就不会定义kPrimaryNumeric 或kOtherNumeric 属性，另外两个亦然。

kBigFive （ Big5 编码）

属性	kBigFive （Big5 编码）
分类	与其他编码字符集的映射
分级	暂定
记录	13063
数据值格式	分隔符	空格
	语法	[0-9A-F]{4}
说明	某个汉字在Big5 字符集中的十六进制编码。注意：这里的Big5 指的是最初版本的Big5 编码字符集，不包括任何通用的Big5 扩展字符集，即使最常见的倚天扩充字集也是一样。备注： Uinhan 数据库只收集汉字的属性资料，因此它的 kBigFive 属性中只包含了汉字的数据。如果想要得到 Big5 编码字符集中除汉字外其它字符的编码数据的话，可参考以下相关链接中的资料

kCCCII （ CCCII 编码）

属性	kCCCII （CCCII 编码）
分类	与其他编码字符集的映射
分级	暂定
记录数	19698
数据值格式	分隔符	空格
	语法	[0-9A-F]{6}
说明	某个汉字在CCCII 字符集中的十六进制编码。

kCNS1986 （ CNS 11643-1986 编码）

属性	kCNS1986 （CNS 11643-1986 编码）
分类	与其他编码字符集的映射
分级	暂定
记录数	17258
数据值格式	分隔符	空格
	语法	[12E]-[0-9A-F]{4}
说明	某个汉字在CNS 11643-1986 字符集中的十六进制编码。

kCNS1992 （ CNS 11643-1992 编码）

属性	kCNS1992 （CNS 11643-1992 编码）
分类	与其他编码字符集的映射
分级	暂定
记录数	17258
数据值格式	分隔符	空格
	语法	[123]-[0-9A-F]{4}
说明	某个汉字在CNS 11643-1992 字符集中的十六进制编码。

kCangjie （仓颉码）

属性	kCangjie （仓颉码）
分类	字典素材
分级	暂定
记录数	29147
数据值格式	分隔符	空格
	语法	[A-Z]+
首发版本	3.1.1
说明	某个汉字的倉頡输入法编码。倉頡码数据来源于Christian Wittern 编写的cangjie-table.b5 文档。

kCantonese （广东话读音）

属性	kCantonese （广东话读音）
分类	字典素材
分级	暂定
记录数	20014
数据值格式	分隔符	空格
	语法	[a-z]+[1-6]
说明	用粤拼方案（即香港语言学学会粤语拼音方案，简称 “ 粤拼 ” ）罗马字拼写法标注的汉字的广东话读音。 • 粤拼方案和耶鲁方案（译注：在Unihan 4.1 版以前，kCantonese 属性数据是以耶鲁式粤语罗马拼音方案为依据的）之间的主要区别在于：1) 粤拼会给出全部的声调标号并且不区分阳去和阳平音；2) 粤拼把长音的a 写作 “ aa ” ；3) 粤拼对应耶鲁元音 “ eu ” 的是 “ oe ” 和 “ eo ” ；4) 粤拼使用 “ c ” 代替 “ ch ” ， “ z ” 代替 “ j ” ，以及用 “ j “ 代替 ” y “ 作为声母；5) 粤拼不省略声母（因此耶鲁式的 ” yut “ 在粤拼中写为 ” jyut “ ）。 • 这里收录的广东话读音按照字母顺序排列，而不是使用频率。 • 注意：根据说话人和语言环境的不同，香港地区的广东话是有可能不出现NG- 声母的，因而许多不带声母的发音可以简单地加上一个NG- 声母讲出来。类似的，很多人在讲话的时候习惯用声母L- 来代替N- 。 • 广东话读音数据来自以下资料：Casey 、G. Hugh 和S.J. 整理的一万字字典；香港：Kelley 和Walsh ，1980 （参考kPhonetic 属性说明）； Cheung Kwan-hin 和Robert S. Bauer 合著的《广东话的汉字标注法》（刊于《汉语语言学论丛》2002 年第18 期）；Roy T. Cowles 编《广东话袖珍字典》（香港大学出版社1999 年版，有关该字典的更多内容，请参考kCowles 属性的说明）；Sidney Lau 编《实用粤英字典》（香港政府印务局1977 年版，有关该字典的更多内容，请参考kLau 属性的说明）；Bernard F. Meyer 和Theodore F. Wempe 编《学生用粤英字典》（由总部位于美国纽约的玛利诺外方传教会1947 年出版，有关该字典的详情请见kMeyerWempe 属性的说明）；饒秉才编《廣州音字典》，Joint Publishing (H.K.) Co., Ltd., 1989 年版；《中華新字典》，香港中華書局1987 年版；黃港生编《商務新詞典》，香港商務印書館1991 版；《朗文初級中文詞典》，朗文香港2001 年版。 • 粤拼方案由香港语言学学会制定，其版权归属该学会。很高兴粤拼工作组能允许我们在产品研发过程中使用他们的电子资源。希望那些应用了Unihan 数据库中kCantonese 属性数据的产品或作品能在适当的位置上对粤拼工作组同样地致以感谢。

kCheungBauer （ CheungBauer 资料）

属性	kCheungBauer （CheungBauer 资料）
分类	字典素材
分级	暂定
记录数	808
数据值格式	分隔符	无
	语法	属性数据由三部分组成，其中用分号 “ ; ” 隔开：(1) 汉字的三位数部首笔画索引、斜杠 “ / ” 和两位数的笔画总数；(2) 汉字的仓颉码输入法编码（如果有的话）；(3) 用逗号 “ , ” 隔开的粤拼式广东话读音表，采用拼音的字母顺序排列。
首发版本	5.0
说明	从Cheung Kwan-hin 和Robert S. Bauer 合著的《广东话的汉字标注法》（收录于《汉语语言学论丛》2002 年第18 期）中整理出的汉字属性数据。

kCheungBauerIndex （ CheungBauer 索引）

属性	kCheungBauerIndex （CheungBauer 索引）
分类	字典索引
分级	暂定
记录数	808
数据值格式	分隔符	空格
	语法	[0-9]{3}/.[0-9][0-9]{2}
首发版本	5.0
说明	某个汉字在Cheung Kwan-hin 和Robert S. Bauer 合著的《广东话的汉字标注法》（收录于《汉语语言学论丛》2002 年第18 期）中的讨论位置。数据格式为三位数的页码和两位数的字序，中间用句点 “ . ” 隔开。比如，数据值 “ 402.06 ” 表示402 页第6 字。

kCihaiT （《辞海》索引）

属性	kCihaiT （《辞海》索引）
分类	字典索引
分级	暂定
记录数	13883
数据值格式	分隔符	空格
	语法	[1-9][0-9]{0,3}/.[0-9]{3}
首发版本	3.2
说明	某个汉字在《辭海》－－單卷本，香港中華書局1983 年版（重印1947 年版），ISBN 962-231-005-2 －－中的位置，用十进制数表示。数据值由前后两部分组成，中间用句点 “ . ” 隔开。句点前面的数字表示页码；句点后面第一位数字表示 “ 页内第几行 ” ，第二、三位表示 “ 行内第几字 ” 。比如，数据值 “ 37.103 ” 表示37 页第1 行第3 字

kCompatibilityVariant （相容变体）

属性	kCompatibilityVariant （相容变体）
分类	变体
分级	常规
记录数	997
数据值格式	分隔符	空格
	语法	U/+2?[0-9A-F]{4}
首发版本	3.2
说明	某个汉字另一个相容的变体汉字的Unicode 编码，编码数据来自UnicodeData.txt 文件（译者注：Unicode 公共数据文件中的一个，它记录了最新版本的Unicode 编码字符集中所有确定分配有字符或符号的编码点。这个文件可以在Unicode 网站的http://www.unicode.org/Public/UNIDATA/ 目录下找到）。

kCowles （ Cowles 索引）

属性	kCowles （Cowles 索引）
分类	字典索引
分级	暂定
记录数	4821
数据值格式	分隔符	空格
	语法	[0-9]{1,4}(/.[0-9]{1,2})?
首发版本	3.1.1
说明	某个汉字在Roy T. Cowles 编《广东话袖珍字典》（香港大学出版社1999 年版）中的位置。 Cowles 字典索引一般为整数，但也有少部分为小数，这是根据具体的位置来决定的。在这些索引中缺少1222 和4949 ，以及四个被Cowles 字典收录了的 “ 苏州码子 ” （这几个字在Unicode 编码字符集中也收录有）：2964 （〥 U+3025 ）、3197 （〨 U+3028 ）、3574 （〣 U+3023 ）和4720 （〧 U+3027 ）。目前大概还有100 个Cowles 中的字已经由Unicode 提交给了IRG 但还没有正式确定收录进Unicode 编码字符集。

kDaeJaweon （《大字源》索引）

属性	kDaeJaweon （《大字源》索引）
分类	字典索引
分级	暂定
记录数	16026
数据值格式	分隔符	空格
	语法	[0-9]{4}/.[0-9]{2}[0158]
说明	某个汉字在《大字源》（韩国）中的位置，此字典是Unicode 用来确定汉字编码顺序的四本字典之一。此位置信息的格式为 “ 页码. 页内第几字 ” ，其中如果代表 “ 页内第几字 ” 的数字的最后一位为 “ 0 ” 的话，就表示这个汉字实际存在于字典之中；如果为 “ 1 “ 的话就表示这个汉字没有实际存在于字典之中，这是一个 ” 虚设 “ 的汉字位置，意思是如果字典中有这个字的话，那它就应该出现在这里。比如，位置信息 “ 1187.060 “ 表示1187 页第6 字（实字）。如果想要表示一个字典中没有的字，但根据排序规则可以在1187 页的第6 和第7 字之间给它虚设一个位置的话，那么位置信息就应该写为 ” 1187.061 “ 。这里使用的《大字源》版本为Samseong 出版社1988 年版第一版。

kDefinition （英文释义）

属性	kDefinition （英文释义）
分类	字典素材
分级	暂定
记录数	20609
数据值格式	分隔符	空格
	语法	对于专用于除现代普通话之外的其他汉语方言（比如广东话）或非汉语（比如日语）的含义，会在解说文本中加上类似（Cant ）或（J ）那样的标记。主要含义之间用分号 “ ; ” 隔开，次级含义之间用逗号 “ , ” 隔开。除了Tab 制表符、双引号和任何断行符之外，释义文本中可以使用任何有效的Unicode 字符。
说明	某个汉字的英文释义。这些汉字含义解释是根据现代书面汉语得来的，因此它们大体上（但非绝对）跟其它汉语字典或非汉语字典中的定义是一样的。在本属性的某些记录数据中，还指出了该汉字的同义字。更全面的汉字变体信息，则需要参考变体类属性的数据了。

kEACC （ EACC 编码）

属性	kEACC （EACC 编码）
分类	与其他编码字符集的映射
分级	暂定
记录数	13244
数据值格式	分隔符	空格
	语法	[0-9A-F]{6}
说明	某个汉字在EACC 字符集中的十六进制编码。

kFenn （ Fenn 资料）

属性	kFenn （Fenn 资料）
分类	字典素材
分级	暂定
记录数	5075
数据值格式	分隔符	空格
	语法	[0-9]+a?[A-KP*]
首发版本	3.1.1
说明	五千字字典（aka Fenn 的袖珍汉英字典）上记载的汉字资料。该字典是由麻省剑桥区哈佛大学的Courtenay H. Fenn 所编，采用哈佛大学出版社1979 年版。属性数据值由一个十进制数加上一个A 到K 之间的字母、字母P 或星号 “ * ” 组成，其中：十进制数表示该汉字读音的Soothill 音素分组编号；而字母则表示一个大概的频率值，A 指最多有500 个发相同音的字，频率值的增量为500 （即B 为1000 ，C 是1500 ，依此类推一直到K ）。字母P 在Fenn 字典中表示一个罕用字，仅作为其他字的声旁（语音元素）来使用。如果记录数据最后出现的是星号而非字母，则表示该汉字属于Soothill 音素分组中的一个，但它没有收录在Fenn 字典中。拥有频率字母但没有Soothill 音素分组信息的数据被赋予0 分组（即数据值中开头那个十进制数为0 ）。

kFennIndex （ Fenn 索引）

属性	kFennIndex （Fenn 索引）
分类	字典索引
分级	暂定
记录数	5937
数据值格式	分隔符	空格
	语法	[1-9]{3}/.[01][0-9]
说明	某个汉字在五千字字典（aka Fenn 的袖珍汉英字典）中的记录位置。该字典是由麻省剑桥区哈佛大学的Courtenay H. Fenn 所编，采用哈佛大学出版社1942 年版。位置信息由一个三位数的页码和一个两位数的 “ 页内位置 ” 组成，中间用句点 “ . ” 隔开。

kFourCornerCode （四角号码）

属性	kFourCornerCode （四角号码）
分类	字典素材
分级	暂定
记录数	16256
数据值格式	分隔符	空格
	语法	[0-9]{4}(/.[0-9])?
首发版本	5.0
说明	某个汉字的四角号码。数据来源自公共领域，由Hartmut Bohn 、Urs App 和Christian Wittern 提供。四角号码系统为每个字确定了一个四位数的号码，每位数字的取值为0 到9 ，分别表示汉字四个角（左上、右上、左下、右下）的十种笔形。可以选择第五位数字来更细致地区分汉字，第五位数字取的是汉字的中间或靠近第四角内侧的笔形。四角号码系统现在已经用得比较少了，有关它的更多资料，请参考这里。属性数据值由四位十进制数，和句点 “ . ” 以及第五位数字（如果有的话）组成。

kFrequency （频度等级）

属性	kFrequency （频度等级）
分类	字典素材
分级	暂定
记录数	5089
数据值格式	分隔符	空格
	语法	[1-5]
首发版本	3.2
说明	对某个汉字在繁体中文网络新闻组上的出现频率进行分析而得到的一个大概的使用频度，共分为五级：1 级的使用频率最高，2 级次之， …… 5 级最低。

kGB0 （ GB 2312-80 区位码）

属性	kGB0 （GB 2312-80 区位码）
分类	与其他编码字符集的映射
分级	暂定
记录数	6763
数据值格式	分隔符	空格
	语法	[0-9A-F]{4}
说明	某个汉字在GB 2312-80 字符集中的区位码。

备注：

Unihan 的 kGB0 到 kGB8 （中间没有 kGB2 、 kGB4 和 kGB6 ） 6 个属性是关于中华人民共和国在国际标准汉字集出现之前，以国家标准的形式制定的一系列汉字编码字符集的编码数据。具体涉及的 GB 标准号，请参考各个属性的说明信息。

在 GBK 以前的 GB 汉字编码标准中，有一个很重要的概念，叫 “ 区位码 ” －－它实际上是 GB 编码的原始码，但实际应用中为了避免和 ASCII 码冲突，必须给区位码的高、低字节分别加上 0xA0 ，得到我们通常所说的 GB 内码。有关区位码的含义及其和 GB 内码之间关系的更详细的解释，推荐参考伐木丁丁鸟鸣嘤嘤所写的《谈谈 Unicode编码，简要解释 UCS、 UTF、 BMP、 BOM等名词》一文。

大概是基于 GB 编码就是区位码的变形的原理吧， Unihan 在其 kGBn 系列属性中提供了原始的区位码。区位码的原理本身并不复杂，但关于它的历史却可能鲜为人知，比如在 Unihan 的 kGBn 系列属性的说明中，作者一再使用了 “mapping for this character in ku/ten form” 的概念，如果直译的话就是 “ 某个汉字 ku/ten 格式的编码 ” 。当然现在我们知道所谓 ku/ten 就是编码平面中 “ 行 ” 和 “ 列 ” 的日文发音，在 GB 编码字符集中与其对应的概念就是 “ 区 ” 和 “ 位 ” ，因此用我们的话来说 ku/ten 格式编码就是区位码。因为世界上最早实现出来的双字节编码字符集是日文 JIS X 0208 编码，正是它首次使用了由 94 行（ ku ）和 94 列（ ten ）组成的 94×94 字符平面的概念，所以再对照 GB 编码中 94 区和 94 位的定义，我们就不难理解区位码和 ku/ten 格式编码的渊源了－－以上理解来自于本人去年在论坛上的一个提问，相关的资料则请参考 http://czyborra.com/charsets/cjk.html 。

kGBn 系列属性中给出的区位码数据是十进制的，共有四位，其中前两位代表区码，后两位代表位码。在把它们转换为实际的 GB 内码的时候，应该把区、位码分开来处理。比如汉字 “ 一 ” 的 GB 2312-80 区位码是 5027 ，则它的 GB 2312-80 内码计算过程如下：
0x32 （ 50 的十六进制形式） +0xA0=0xD2 ，此即为内码高字节的值；
0x1B （ 27 的十六进制形式） +0xA0=0xBB ，此即为内码低字节的值；
内码值 = 内码高字节值 + 内码低字节值 =0xD2BB 。

kGB1 （ GB 12345-90 区位码）

属性	kGB1 （GB 12345-90 区位码）
分类	与其他编码字符集的映射
分级	暂定
记录数	6866
说明	分隔符	空格
	语法	[0-9A-F]{4}
说明	某个汉字在GB 12345-90 字符集中的区位码。

kGB3 （ GB 7589-87 区位码）

属性	kGB3 （GB 7589-87 区位码）
分类	与其他编码字符集的映射
分级	暂定
记录数	4836
数据值格式	分隔符	空格
	语法	[0-9A-F]{4}
说明	某个汉字在GB 7589-87 字符集中的区位码。

kGB5 （ GB 7590-87 区位码）

属性	kGB5 （GB 7590-87 区位码）
分类	与其他编码字符集的映射
分级	暂定
记录数	2842
数据值格式	分隔符	空格
	语法	[0-9A-F]{4}
说明	某个汉字在GB 7590-87 字符集中的区位码。

kGB7 （ GB 8565-89 区位码）

属性	kGB7 （GB 8565-89 区位码）
分类	与其他编码字符集的映射
分级	暂定
记录数	42
数据值格式	分隔符	空格
	语法	[0-9A-F]{4}
说明	某个汉字在GB 8565-89 字符集中的区位码。

kGB8 （ GB 8565-89 区位码）

属性	kGB8 （GB 8565-89 区位码）
分类	与其他编码字符集的映射
分级	暂定
记录数	785
说明	分隔符	空格
	语法	[0-9]{4}
说明	某个汉字在GB 8565-89 字符集中的区位码。

kGSR （《漢文典（修訂本）》索引）

属性	kGSR （《漢文典（修訂本）》索引）
分类	字典索引
分级	暂定
记录数	7403
数据值格式	分隔符	空格
	语法	[0-9]{4}[a-vx-z]/'*
首发版本	4.0.1
说明	某个汉字在高本漢的《漢文典（修訂本）》（1957 ）中的位置。这个属性包含了7403 条记录的数据，格式为DDDa( ‘ ) ，其中： “ DDDD ” 是一个范围在 “ 0001 ” 到 “ 1260 ” 之间的四位数（不足四位在高位补0 ）； “ a ” 是一个在 “ a ” 到 “ z ” 之间（不包括 “ w ” ）的小写英文字母；最后的半角单引号 “’” 是可选的。数据来源自一个包含10,023 条引用参考的对应表，引用记录的格式在这里被省略了。发布记录 2003 年12 月22 日：首次发布。下列32 条引用数据的格式是未被编码过的：0059k 、 0069y 、 0079d 、 0275b 、 0286a 、 0289a 、 0289f 、 0293a 、 0325a 、 0389o 、 0391h 、 0392s 、 0468h 、 0480a 、 0516a 、 0526o 、 0566g' 、 0642y 、 0661a 、 0739i 、0775b 、 0837h 、 0893r 、 0969a 、 0969e 、 1019e 、 1062b 、 1112d 、 1124l 、 1129c' 、 1144a 、 1144b 。在某些情况下会对应表中出现形式和含义特异的对应记录，这些引用特例在这里就不多加说明了。著作简介 Grammata Serica Recensa （中文译名：《漢文典（修訂本）》）是瑞典著名汉学家高本漢（Karlgren, Klas Bernhard Johannes 1889 – 1978 ）所著的一部研究和整理汉语古文字字形及音韵的字典，本数据库参考了2000 年发表的该字典的一个电子版本。电子版《漢文典（修訂本）》包括了索引、正音、图片和高本汉著作（1957 ）原文，资料来源自Richard Cook 主持的STEDT 项目，也部分参考了由Tor Ulving 和Ferenc Tafferner 完成的整理工作（参见下面的说明），获加利福尼亚大学伯克利分校授权使用。有关STEDT 项目的详细情况，请参考其网站<http://stedt.berkeley.edu/ > 。高本汉1957 年重新修订的《汉文典》第一版发表在瑞典斯德哥尔摩《远东文物博物馆公报》（BMFEA ）第29 卷上，由Elanders Boktrycker Aktiebolag 和Kungsbacka 于1972 年再版。另外，位于中国台湾台北市的南天書局有限公司也曾于1996 年再版此修订本，ISBN 书号：957-638-269-6 。高本汉1940 年首次发表的Grammata Serica: Script and Phonetics in Chinese and Sino-Japanese （中文译名：《中日漢字形聲論》，亦即《漢文典》）原刊于BMFEA 第12 卷，台北成文出版社有限公司于1966 年再版了该著作。 Tor Ulving 和Ferenc Tafferner 根据高本汉的构拟重新编写了一本非常有用的书－－Dictionary of Old and Middle Chinese: Bernhard Karlgren's Grammata Serica Recensa Alphabetically Arranged －－中文译名为《上古和中古汉语字典：根据高本汉〈汉文典（修订本）〉音序排列》，由瑞典歌德堡大学学报于1997 年出版，ISBN 书号：91-7346-294-2 。

备注：
高本汉的 Grammata Serica Recensa 的中译名可以有很多种，这里我采用的是中文学界认同程度比较高的《汉文典》，虽然从著作者本人对该字典的说明其研究阐述的内容来说，个人认为应该译为《古汉语字典》更贴切一些。

另外 Grammata Serica 和 Grammata Serica Recensa 的常用译名相差甚远在我这个 “ 外行人 ” 看来也是一件比较别扭的事情，其实后者就是前者的修订本。

Unihan 数据库整理的《汉文典》索引数据所引用的位置实际上并不是关于原著的，而是关于它的一个电子版的索引，该电子版主要基于加州大学伯克利分校的 STEDT 项目提供的资料而构成，上述说明中所说的 “ 被省略掉 ” 的引用参考对应表及其记录数据的格式和含义相信应该指的就是 STEDT 上的资料结构。

kGradeLevel （香港汉字教学水平等级）

属性	kGradeLevel （香港汉字教学水平等级）
分类	字典素材
分级	暂定
记录数	2632
数据值格式	分隔符	空格
	语法	[1-6]
首发版本	3.2
说明	围绕香港教育系统中规定学生应该掌握的汉字而划分的一个基本水平等级，共有6 级。数据来源自朗文香港2001 年版《朗文初級中文詞典》。

kHDZRadBreak （《汉语大字典》部首字头索引）

属性	kHDZRadBreak （《汉语大字典》部首字头索引）
分类	字典素材
分级	暂定
记录数	200
数据值格式	分隔符	无
	语法	[x{2F00}-x{2FD5}][U+2?[0-9A-F]{4}]:[1-8][0-9]{4}/.[0-9]{2}[012]
首发版本	4.1
说明	为《漢語大字典》中的部首字头建立的一个索引－－即汉语大字典部首字头在字典正文中的位置。数据值包括对应的康熙部首（及其Unicode 编码点）、冒号 “ : ” 、kHanyu 属性数据格式的位置信息。

kHKGlyph （香港《常用字字形表》索引）

属性	kHKGlyph （香港《常用字字形表》索引）
分类	字典素材
分级	暂定
记录数	4825
数据值格式	分隔符	空格
	语法	[0-9]{4}
首发版本	3.1.1
说明	某个汉字在香港《常用字字形表（二零零零年修訂本）》中的位置，该表由香港教育學院于2000 年出版，ISBN 书号：962-949-040-4 。《字形表》收录香港基础教育阶段的常用字4759 个，制定了它们的 “ 标准 ” 字形。此位置信息由四位十进制数组成，不足四位的在高位补0 。

kHKSCS （香港增补字符集 Big5 编码）

属性	kHKSCS （香港增补字符集Big5 编码）
分类	与其他编码字符集的映射
分级	暂定
记录数	4375
数据值格式	分隔符	空格
	语法	[0-9A-F]{4}
首发版本	3.1.1
说明	某个汉字在Big5 扩充－香港增补字符集中的十六进制编码。

kHanYu （《汉语大字典》索引）

属性	kHanYu （《汉语大字典》索引）
分类	字典索引
分级	暂定
记录数	55817
数据值格式	分隔符	空格
	语法	[1-8][0-9]{4}/.[0-9]{2}[0-3]
说明	某个汉字在《汉语大字典》（HDZ ）中的字头位置（有关该字典的介绍稍后给出）。这个属性的数据值格式为 “ ABCDE.XYZ ” ，其中： “ A ” 表示卷号（范围在1 到8 之间）； “ BCDE ” 是一个表示页码（范围在0001 到4809 之间）的四位数，不足四位的在高位补0 ； “ XY ” 是一个表示页内第几个字头（范围在01 到32 之间）的两位数，不足两位的在高位补0 ； “ Z ” 代表字头的存在状态，为 “ 0 ” 时表示该字头存在于字典中，若大于0 则表示该字头并不存在于字典中，但根据字典的编排规则可以 “ 虚设 ” 在第 “ Z ” 个字头的位置－－也就是说如果字典要收录该字头的话，那它就应该被编排在这个位置。比如，索引值53024.060 表示一个实际存在于汉语大字典中的字头，它位于第五卷3024 页的第6 字头（即籉）。另外要说明的是，卷8 的 “ BCDE ” 取值范围在0008 到0044 之间，它实际上是字典末尾的附录补遗部分（真实页码从字典第5746 页之后开始）。虚设字头位置在第一个的索引为1 ，第二个的索引为2 …… 等等，依次类推。版本信息在这个属性的全部56097 条记录中，有54728 条表示实际的汉语大字典字头索引（注意：是在字典正文中的位置），另外1369 条记录则表示虚设的字头位置（见下面的备注）。在这其中，一共有55817 条记录是唯一的。之所以会说有五万六千多条是因为需要考虑IRG 字源认同因素，同一个编码点可能会出现不只一条汉语大字典索引（指向同一个字的相容变体）。字源认同的类型有两种：(1) 变体认同；(2) 检字结果相同认同。为了验证所有索引数据的准确性，主要应该根据对三方面的资料进行相互校验来完成：(1) 字典原文；(2) Unihan.txt （3.1.1 d1 版）中的 “ kIRGHanyuDaZidian “ 属性数据；(3) 由中国中文信息学会最初发布和校验的 “ HDZ.TXT ” 文件。另外，本属性的数据还被反过来用于校验Unihan.txt （3.1.1d1 版）中的 “ kHanYu ” 和 “ kAlternateHanYu ” 属性数据，虽然现在这两个属性已经被别的属性取代了。通过上述方法对数据值、数据长度、组合关键字、属性总数和页面总数等指标进行的完整核查，总共统计出上面列出的资料(2) 中的578 处冗余／错误数据，现在已经全部确认或改好了。有些错误没有改是因为它们可能索引的是虚设位置，或者是用来对某页中的字头进行排序的，这跟那种涉及不同的两页的错误是不一样的。在将来，可能会分离字源认同的记录，这样就需要更新某些索引数据的编码点了。不然就应该在数据库中删掉字源认同（重复编码点）的记录。在上面列出的资料(3) 中只有真实的汉语大字典字头的数据才能用于进行校验，而资料(2) 则可以拿来校验全部虚设位置。似乎编辑资料(2) 的人通常都会根据笔画数规定虚设位置，即使有时虚设位置跟实际字头的位置一样的（即该字是一个变体），与实际的笔画数无关。本属性数据所依据的字典原文，是由四川辞书出版社和湖北辞书出版社于1986 至1990 年间联合出版的《汉语大字典（八卷本）》， ISBN 书号：7-5403-0030 2/H.16 。

kHangul （谚文注音）

属性	kHangul （谚文注音）
分类	字典素材
分级	暂定
记录数	7745
数据值格式	分隔符	空格
	语法	谚文字符
首发版本	5.0
说明	用谚文标注的某个汉字在现代朝鲜语中的发音。

kHanyuPinlu （现代汉语读音频率）

属性	kHanyuPinlu （现代汉语读音频率）
分类	字典素材
分级	暂定
记录数	3799
数据值格式	分隔符	空格
	语法	[a-z ü ]+[1-5]/([0-9]+/)
首发版本	4.0.1
说明	某个汉字在现代汉语中的读音及其使用频率资料，数据主要来源于《現代漢語頻率詞典》（稍后将给出该词典的介绍）。数据格式本属性总共有3800 条记录，每条记录由两部分数据组成。首先是汉字的汉语拼音，拼音字母的后面带有用数字表示的声调（1 至5 声，第5 声表示轻声）。跟在声调数字后面的是一个用圆括号括起来的数字串，比如 “ a1(392) ” ，括号中的数字表示（由《现代汉语频率词典》统计的）该读音的使用频率。多音字的各个读音按其使用频率排序（频率高的在前面），其间用逗号和空格分开。版本信息《现代汉语频率词典》所依据的是来源于现代规范汉语（普通话），分为四种类型（新闻出版物、科技文献、口语和文学作品），总共440799 字的语料。有关这些语料的具体情况就不方便在这里详细介绍了。《现代汉语频率词典》第491 到656 页的8548 个（有的版本是8586 个）条目的资料是手工录入的，并由Richard Cook 于1994 年8 月4 日至1995 年3 月22 日间校对过。当前版本发布的数据最后一次校对的时间就是上述的校对时间。这里发布的汉语拼音资料于1995 年通过半自动和手工结合的方式校对过，主要来源于Ross Paterson （Department of Computing, Imperial College, London ）提供的数据。另外还应当感谢文林研究所<http://www.wenlin.com > 的负责人Tom 在本属性早期的数据校对工作中所提供的帮助。此《现代汉语频率词典》数字化资料所使用的汉字基本上为中国内地的简体中文GB 2312-80 编码字符集（简体中文的Mac OS 7 到9 版即使用此编码标准）中的字，除了一个 “ 嗐 ” 字之外。本属性的数据汇集过程为：先把原始资料文本转换为Big5 编码（缺一个 “ 腈 ” 字) ，然后分别把GB 和Big5码的资料文本转换为Unicode 4.0 编码，最后合并两个Unicode 文本得到当前版本的3800 条记录。从现代汉语简体中文多音节词中统计出来的频率数据适用于简化字和繁体字使用频率的分析。本属性资料的主要数据来源信息《現代漢語頻率詞典》，北京語言學院語言教學研究所編著。 1986 年6 月第一次出版，1990 年4 月第二次印刷。ISBN 书号：ISBN 7-5619-0094-5/H.67 。

kIBMJapan （ IBM 日文编码）

属性	kIBMJapan （IBM 日文编码）
分类	与其他编码字符集的映射
分级	暂定
记录数	360
数据值格式	分隔符	空格
	语法	F[ABC][0-9A-F]{2}
说明	某个汉字在IBM 日文字符集中的十六进制编码。

kIICore （国际表意文字核心集资料）

属性	kIICore （国际表意文字核心集资料）
分类	字典素材
分级	常规
记录数	9810
数据值格式	分隔符	空格
	语法	[1-9]/.[1-9]
首发版本	4.1
说明	表示某个汉字被收录在了国际表意文字核心集（即International Ideographs Core ，简称IICore ）里面，这是由IRG 提出的，为表示东亚国家共通使用的汉字所必需的一个最小字集。本属性的数据值表示某字已被IRG 核准，但未经通过WG2 认证，或者表示在ISO/IEC 10646 中包含有该字的一个子集的子集标识符。

kIRGDaeJaweon （四字典定序用《大字源》索引）

属性	kIRGDaeJaweon （四字典定序用《大字源》索引）
分类	字典索引
分级	暂定
记录数	16024
数据值格式	分隔符	空格
	语法	[0-9]{4}/.[0-9]{2}[01]\|0000/.555
首发版本	3
说明	某个汉字在《大字源》（朝鲜）中的位置，这本字典是IRG 用来确定汉字编码顺序的四本字典之一。此位置信息的格式为 “ 页码. 页内第几字 ” ，其中如果代表 “ 页内第几字 ” 的数字的最后一位为 “ 0 ” 的话，就表示这个汉字实际存在于字典之中；如果为 “ 1 “ 的话就表示这个汉字没有实际存在于字典之中，这是一个 ” 虚设 “ 的汉字位置，意思是如果字典中有这个字的话，那它就应该出现在这里。比如，位置信息 “ 1187.060 “ 表示1187 页第6 字（实字）。如果想要表示一个字典中没有的字，但根据排序规则可以在1187 页的第6 和第7 字之间给它虚设一个位置的话，那么位置信息就应该写为 ” 1187.061 “ 。这个属性的数据值表示IRG 在用四字典定序法编排汉字时，所正式参考的某个汉字在《大字源》中的位置。这里使用的《大字源》版本为Samseong 出版社1988 年版第一版。

kIRGDaiKanwaZiten （四字典定序用《大汉和辞典》索引）

属性	kIRGDaiKanwaZiten （四字典定序用《大汉和辞典》索引）
分类	字典索引
分级	暂定
记录数	17864
数据值格式	分隔符	空格
	语法	[0-9]{5}/'?
首发版本	3
空格	某个汉字在《大汉和辞典》（日本，诸桥辙次著）中的位置，这本辞典是IRG 用来确定汉字编码顺序的四本字典之一。这个属性的数据值表示IRG 在用四字典定序法编排汉字时，所正式参考的某个汉字在《大汉和辞典》中的位置。这里使用的《大汉和辞典》版本为东京Taishuukan Shoten 1986 年版的修订本。

kIRGHanyuDaZidian （四字典定序用《汉语大字典》索引）

属性	kIRGHanyuDaZidian （四字典定序用《汉语大字典》索引）
分类	字典索引
分级	暂定
记录数	55812
数据值格式	分隔符	空格
	语法	[1-8][0-9]{4}/.[0-3][0-9][01]
首发版本	3
说明	某个汉字在《汉语大字典》（中国）中的位置，这本字典是IRG 用来确定汉字编码顺序的四本字典之一。位置数据的格式为 “ 卷号页码. 页内第几个字头 ” ，其中页内第几个字头的最后一位数如果为0 表示字典中有这个字头，如果为1 则表示字典中没有这个字头（代表一个虚设位置）。比如，数据值 “ 32264.080 ” 代表的是卷三2264 页第8 字头。如果一个汉字不是字典中的字头，但根据字典的编排规则应该把它安排在上述页次中的第8 和9 字头之间，则该汉字的虚设位置数据为 “ 32264.081 “ 。这个属性的数据值表示IRG 在用四字典定序法编排汉字时，所正式参考的某个汉字在《汉语大字典》中的位置。这里使用的《汉语大字典》版本为成都四川辞书出版社1986 年版。

kIRGKangXi （四字典定序用《康熙字典》索引）

属性	kIRGKangXi （四字典定序用《康熙字典》索引）
分类	字典索引
分级	暂定
记录数	70205
数据值格式	分隔符	空格
	语法	[01][0-9]{3}/.[0-7][0-9][01]
首发版本	3
说明	某个汉字在《康熙字典》中的位置，这本字典是IRG 用来确定汉字编码顺序的四本字典之一。位置数据的格式为 “ 页码. 页内第几字头 “ ，其中页内第几字头的最后一位数如果为0 表示字典中有这个字头，如果为1 则表示字典中没有这个字头（代表一个虚设位置）。比如，数据值 “ 1187.060 ” 表示的是1187 页第6 字头。如果一个汉字不是字典中的字头，但根据字典的编排规则应该把它安排在上述页次中的第6 和7 字头之间，则该汉字的虚设位置数据为 “ 1187.061 ” 。这个属性的数据值表示IRG 在用四字典定序法编排汉字时，所正式参考的某个汉字在《康熙字典》中的位置。这里使用的《康熙字典》版本为北京中华书局1989 年出的第七版。

备注：

有关 IRG 和四字典定序法的两篇简单介绍－－
http://www.nits.org.cn/sc2/jieshao1.asp
http://glyph.iso10646hk.net/chinese/icharacters_3.htm

更详细的资料则请参考《 Unihan之道》。

kMandarin( 汉语拼音 )

属性	kMandarin ( 汉语拼音)
分类	字典索引
分级	暂定
记录数	25477
说明	汉语拼音，使用频率排序，而不是字母顺序

你可能感兴趣的:(数据库,IBM,文档,输入法,语言,出版)

掌握Python与LDAP在域认证中的应用 seiji morisako
本文还有配套的精品资源，点击获取简介：信息技术领域中的域认证机制利用LDAP协议实现用户身份验证。Python脚本语言通过python-ldap库与LDAP服务器交互，执行用户认证。本文将详细介绍Python如何使用python-ldap库进行LDAP连接、搜索、绑定操作，以及如何处理Web开发中的Cookie。学习这些技能有助于构建安全的用户登录系统和提升Web应用的用户体验。1.LDAP协议基
Android的Audio子系统雷古拉斯移动操作系统之Android
Android边录边播应用AP（ApplicationProcessor主处理器）DSP（Codec）BP（BasebandProcessor基带处理器，猫）一、AudioTrack播放基本流程1.初始化newAudioTrack完成通路创建，也在MixerThread线程中创建Track。getOutput（以及openOutput）frameworks/av/media/libmedia/Au
数据霸权与公共利益的博弈：强制许可制度能否打破数字帝国的城墙
首席数据官高鹏律师数字经济团队创作，AI辅助当数据成为新贵：一场静默的“圈地运动”2025年的某个清晨，某头部电商平台的数据库负责人在晨会上宣布：“我们的用户行为数据集已覆盖8亿活跃用户，这是我们的护城河。”这句话背后，藏着一个被忽视的真相：数据的排他性权利正在催生新的垄断形态——那些掌握海量数据的企业，正悄然构建起数字时代的“封建领地”。数据知识产权的排他性，本意是保护企业对数据的投入与创新，但
【AI大模型】Spring AI 基于Redis实现对话持久存储详解小码农叔叔 AI 大模型应用到项目实战高手 springboot 入门到精通项目实战 Spring AI会话存储 Spring AI会话记忆 Spring AI持久化会话 Spring AI会话持久化 Spring AI会话 Spring AI记忆
目录一、前言二、SpringAI会话记忆介绍2.1SpringAI会话记忆概述2.2常用的会话记忆实现方式2.2.1集成数据库持久存储会话实现步骤2.3适用场景三、SpringAI基于内存会话记忆存储3.1本地开发环境准备3.2工程搭建与集成3.2.1添加核心依赖3.3.2添加配置文件3.3.3添加测试接口3.2ChatMemory介绍3.2.1ChatMemory概述3.2.2InMemoryC
SpringBoot-jdbcTemplate访问数据库 xiatianit springboot spring boot 数据库 java
在实际的企业级应用开发中，却很少有人直接使用原生的JDBCAPI进行开发，这是因为使用JDBCAPI对数据库进行操作十分繁琐，需要我们对每一步都做到“步步把控，处处关心”，例如我们需要手动控制数据库连接的开启，异常处理、事务处理、最后还要手动关闭连接释放资源等等。Spring提供了一个SpringJDBC模块，它对JDBCAPI进行了封装，其的主要目的降低JDBCAPI的使用难度，以一种更直接、更
同态加密库（HElib） deepdata_cn 同态加密同态加密
HElib是一个开源的同态加密软件库，由耶鲁大学专家开发，最初由ShaiHalevi和VictorShoup开发，CraigGentry在IBM任职期间也参与相关研究，于2013年5月5日首次发布。主要支持带自举（Bootstrapping）的Brakerski-Gentry-Vaikuntanathan（BGV）方案和近似数Cheon-Kim-Kim-Song（CKKS）方案。一、项目概述开发背
基于PaddleOCR的表格识别系统开发 pk_xz123456 仿真模型深度学习算法深度学习开发语言分类安全 cnn
基于PaddleOCR的表格识别系统开发1.项目概述本项目旨在使用PaddleOCR框架开发一个高性能的表格识别系统，能够准确识别约30种不同类型的表格结构。系统将处理2500张合成表格图像作为训练数据，并在合成测试集上进行评估。系统核心功能包括表格检测、表格结构识别和表格内容识别三部分。1.1项目背景表格是信息传递的重要载体，广泛存在于各类文档中。传统表格识别方法需要复杂的规则和模板，而基于深度
spring —— 使用 JDBCTemplate 对数据库操作张民遇 spring 数据库 spring oracle
在传统方法中，我们一般建立Connection链接，然后通过Statementstm=conn.createStatement()来获取Statement对象，最后用Statement对象操作数据库。在spring中，则是通过com.alibaba的druid配置数据源工具，来配置要连接的数据库，然后将配置好的数据源作为属性传入JDBCTemplate对象当中，最后用JDBCTemplate对象操
springboot3集成minio
1.说明注意：本代码是在若依springboot3版本上实现的，如果你不是在若依上面实现，需要将所有用到若依的相关代码修改后才能运行文件管理文件上传：支持单文件上传，可指定存储桶和路径，支持自动按日期目录存储文件下载：支持文件直接下载，自动处理文件名编码文件预览：支持图片、文档等文件的在线预览功能文件删除：支持单文件删除和批量删除文件重命名：支持文件重命名操作图片处理：支持图片压缩和格式转换(We
大模型系列——Ollama WebUI 简明教程猫猫姐大模型大模型人工智能
大模型系列——OllamaWebUI简明教程OpenWebUI，以前称为OllamaWebUI，支持各种大型语言模型(LLM)运行器，是本地部署并与语言模型交互的多功能工具。OpenWebUI，以前称为OllamaWebUI，是一个可扩展、功能丰富且用户友好的自托管Web界面，旨在完全离线运行。它支持各种大型语言模型(LLM)运行器，使其成为部署和与语言模型交互的多功能工具。OpenWebUI提供
2025年AI编程工具推荐小猴崽 AI编程 AI编程 ai编程
以下基于2025年权威技术报告、开发者社区评测及厂商白皮书，对当前主流AI编程工具进行客观综述与推荐。数据来源包括IDC《2025中国生态告》、信通院《AI辅助编程技术成熟度评》、StackOverflow开发者调查及头部企业实测案例。一、国际主流AI编程工具GitHubCopilotX核心能力：基于GPT-4模型升级，支持37种编程语言（Python/Java/JS等），可解析数万行代码库的全局
【学习】《算法图解》第七章学习笔记：树程序员
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
Hibernate ORM 映射深度解析后端
在Java持久层技术体系中，Hibernate作为经典的ORM（对象关系映射）框架，通过自动化对象与数据库表的映射关系，显著提升了数据访问层的开发效率。本文从核心映射机制、高级特性、性能优化及面试高频问题四个维度，结合源码与工程实践，系统解析Hibernate的ORM映射原理与最佳实践。一、核心映射机制1.1基础映射类型映射类型描述示例注解实体映射将Java类映射到数据库表@Entity,@Tab
主流AI代码编程工具分享 scuter_yu ai ai编程
在当今数字化时代，AI代码编程工具已成为提升开发效率、优化代码质量的重要助手。这些工具利用人工智能技术，为开发者提供从代码生成、补全到调试、优化等一系列功能，极大地简化了编程流程，让编程变得更加高效、便捷和智能。以下将介绍几款热门的AI代码编程工具。通义灵码产品介绍：通义灵码是阿里云出品的基于通义大模型的智能编程辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成
Redis在企业实战开发中的核心作用：从缓存到分布式系统的关键支柱 LambdaCat 缓存 redis java
在高并发、分布式系统成为主流的今天，Redis已成为企业技术栈中不可或缺的组件。据2024年最新统计，超过82%的互联网企业在生产环境中使用Redis，处理着每秒数十万甚至上百万级的请求在现代软件开发领域，高性能、高并发和可扩展性已成为系统设计的核心要求。面对海量用户和实时数据处理需求，传统数据库在性能方面逐渐显现瓶颈。正是在这样的背景下，Redis（RemoteDictionaryServer）
接口自动化测试（Python+pytest+PyMySQL+Jenkins）万能程序员-传康Kk python pytest jenkins
接口自动化测试一个完整的企业级接口自动化测试解决方案目录项目介绍技术架构功能特性项目结构环境要求安装部署使用方法测试用例说明预期结果报告系统配置说明数据库设计Jenkins集成常见问题项目亮点扩展指南联系方式项目介绍项目背景接口自动化测试作为现代软件开发流程的核心环节，已成为保障系统质量、提升交付效率的关键手段。本项目基于Python技术栈，构建了一套完整的接口自动化测试解决方案，旨在为开发团队提
健康医院门诊在线挂号系统学长代码V spring boot 后端
基于SSM框架与MySQL数据库实现的健康医院门诊在线挂号系统在当今数字化时代，健康医院门诊在线挂号系统的开发对于提升医院运营效率和患者就医体验至关重要。本文将介绍一个基于SSM框架与MySQL数据库实现的健康医院门诊在线挂号系统，探讨其技术路线和主要功能，并分享相关资源。技术路线该健康医院门诊在线挂号系统采用成熟的SSM（Spring+SpringMVC+MyBatis）框架进行开发。SSM框架
Delphi编程深度详解教程 Paula-柒月拾
本文还有配套的精品资源，点击获取简介：《Delphi详细教程》是一个全面介绍Delphi编程的资源包，涵盖了Delphi开发环境和ObjectPascal编程语言的深入学习。教程内容包括Delphi体系结构、核心类库、集合与RTTI、接口、抽象类、定制组件开发、界面设计、数据控件使用、SQL程序设计以及创建WindowsNT服务等关键知识点，旨在帮助学习者深入理解和掌握Delphi编程，并应用于实
基于C#开发的，支持多平台二维图表开源编辑器编程乐趣 c#编辑器开发语言
推荐一个基于C#开发的，支持多平台的二维图表开源编辑器。01项目简介Core2D是一个支持跨平台、多平台的应用程序，内置wyswig矢量图形编辑器，可用于数据驱动生成二维图。**1、wyswig矢量图形编辑器：**内置了一个强大的图形编辑器，它允许用户将数据绑定到形状，这使得图表制作变得非常灵活和易于操作。**2、跨文档数据共享：**支持在多个文档之间共享数据，这使得用户可以轻松地在不同的图表之间
七、SPringCloud中间件 @平常心～～～ spring cloud 中间件 spring
1.Nacos(配置数据库)注册中心配置中心注册中心：服务治理:引入注册中心(将服务注册到注册中心)1.注册中心:存的是服务提供者的服务,和可以被推送的服务2.服务消费者:从注册中心订阅服务,既可以拉取服务,也可以推送变更3.服务提供者:向注册中心提供服务的端口号,IP等,心跳续约:隔一段时间会向注册中心推送新的服务注册中心挂断,不会立即断开连接,除非服务提供者改变IP,有缓存用户如何挑选实例(服
Windows系统部署YOLOv5 v6.1版本的训练与推理环境保姆级教程 lujx_1024 windows YOLO
文章目录一·概述二·依赖环境(`prerequisites`)2.1硬件环境2.2软件环境三·环境安装3.1创建并激活虚拟环境3.2安装`Pytorch`与`torchvision`3.3校验`Pytorch`安装3.4下载`YOLOv5``v6.1`源码3.5安装`YOLOv5`依赖3.6下载预训练模型3.7安装其他依赖3.8测试环境安装3.9测试训练流程四·参考链接一·概述本文档主要记录使用工
HarmonyOS NEXT仓颉开发语言实战案例：动态广场幽蓝计划 harmonyos 华为
大家好，今日要分享的是使用仓颉语言开发动态广场页面，也比较像朋友圈页面：整个页面分为两部分，分别是导航栏和状态列表，导航栏比较简单，我们可以先写下导航栏的具体代码和页面的基本结构：Column{Row(10){Text('推荐').fontColor(Color.BLACK).fontSize(17).fontWeight(FontWeight.Bold)Text('关注').fontColor(
Docker-compose部署nacos集群及nginx实现负载均衡超级无敌约翰大王 nacos docker-compose docker 容器运维
目录一、环境二、部署过程1.docker和docker-compose部署2.拉取镜像3.创建网络4.创建目录5.启动数据库并导入sql6.启动7.配置nginx代理总结一、环境主机：centos7.9docker版本：24.0.6docker-compose版本：2.23.1nacos镜像版本：2.1.1数据库镜像版本：Mariadb10.5.16nginx镜像版本：1.24.0二、部署过程1.
卷积神经网络亿只小灿灿 Python 算法与数据结构人工智能 cnn 人工智能神经网络
一、引言在当今人工智能的浪潮中，卷积神经网络（ConvolutionalNeuralNetwork，CNN）无疑是一颗璀璨的明星。它在图像识别、语音处理、自然语言处理等众多领域取得了巨大的成功，极大地推动了人工智能技术的发展。那么，什么是卷积神经网络？它的算法原理是什么？本文将深入探讨这些问题，并通过Python代码实现一个简单的卷积神经网络，以帮助读者更好地理解和掌握这一强大的技术。二、卷积神经
鸿蒙ArkTS容器组件：【Scroll】鸿蒙系统小能手Mr.Li 鸿蒙开发 harmonyos 鸿蒙鸿蒙开发 OpenHarmony 组件 arkts 程序员
Scroll可滚动的容器组件，当子组件的布局尺寸超过父组件的尺寸时，内容可以滚动。说明：开发前请熟悉鸿蒙开发指导文档：gitee.com/li-shizhen-skin/harmony-os/blob/master/README.md点击或者复制转到。该组件从APIversion7开始支持。后续版本如有新增内容，则采用上角标单独标记该内容的起始版本。该组件嵌套List子组件滚动时，若List不设置
非法指针引用的‘连环杀手’：C语言程序员的必修生存课（2万字长文）大模型大数据攻城狮 c语言面试智能指针野指针函数指针内存泄露 C++面经
1.指针的本质：内存的“遥控器”要搞懂指针的安全性，先得明白指针到底是个啥。简单来说，指针是个变量，但它存的不是普通数据，而是内存地址。你可以把它想象成一个遥控器，指向内存里的某个位置，告诉你：“嘿，数据在这儿！”通过指针，你可以直接读写那块内存的数据。但问题来了：如果这个“遥控器”指向的地方压根儿没数据，或者指向了不该碰的地方（比如系统内存），那程序可就炸了。这就是非法指针引用的根源。
《Python之禅》：优雅代码的哲学指南郝学胜-神的一滴 Python python 开发语言
Python不仅仅是一门编程语言，它更像是一种编程哲学的体现。而这份哲学的精髓，就藏在一句简单的代码中：importthis运行这段代码，你会看到一段充满诗意的“代码准则”——《Python之禅》（TheZenofPython）。它由Python之父GuidovanRossum的同事TimPeters编写，用19条简洁的格言，定义了Python语言的设计理念和开发者应遵循的编码哲学。《Python
互联网大厂Java面试实战：严肃面试官与搞笑谢飞机的三轮提问 Fu Dun Yao Java场景面试宝典 Java 面试 JUC JVM 多线程线程池 HashMap
互联网大厂Java面试实战：严肃面试官与搞笑谢飞机的三轮提问本文通过一个面试故事，展示了互联网大厂Java求职者与严肃面试官的对话。面试官就Java核心技术、JUC、JVM、多线程、线程池、HashMap、ArrayList、Spring及相关框架、分布式技术、消息队列、中间件、数据库、Linux、Docker、设计模式及DDD等多个技术点，分三轮提问。求职者谢飞机偶尔能准确回答简单问题获得认可，
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
java 2 图形设计卷i awt_JAVA2图形设计卷I：AWT 源代码 zip 尹云亮 java 2 图形设计卷i awt
【实例简介】JAVA2图形设计卷I：AWT源代码zip是机械工业出版社的那本书的源代码非常难得是时候拿点好的东西给大家分享了【实例截图】【核心代码】JAVA2图形设计卷I：AWT(原代码)└──SourceCode├──partFive│├──animation││├──BackingStore.class││├──BackingStore.java││├──BulletinLayout.clas
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一