汉字国标码的起始二进制位置选择00100001即(33)10是为了跳过ASCII码的32个控制字符和空格字符。所以,汉字国标码的高位和低位分别比对应的区位码大(32)10或(00100000)2或(20)H,即:国标码高位 = 区码 + 20H (H表示十六进制) 国标码低位 = 位码 + 20H
2) 汉字机内码(内码)(汉字存储码)
GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。
汉字机内码(内码)(汉字存储码)的作用是统一了各种不同的汉字输入码在计算机内部的表示。
为了将汉字的各种输入码在计算机内部统一起来,就有了专用于计算机内部存储汉字使用的汉字机内码,用以将输入时使用的多种汉字输入码统一转换成汉字机内码进行存储,以方便机内的汉字处理
汉字机内码是在计算机内部存储、处理的代码。计算机既要处理汉字,又要处理英文。因此计算机必须能区别汉字字符和英文字符。英文字符的的机内码是最高为为0的8位ASCII码。为了不与7位ASCII码发生冲突,把国标码每个字节的最高位由0改为1,其余位不变的编码作为汉字字符的机内码。
汉字机内码的范围用二进制表示是: 10100001 10100001 11111110 11111110
机内码的高位和低位比对应的国标码的高位和低位大(128)10或(10000000)2或(80)H
即: 机内码高位 = 国标码高位 + 80H 机内码低位 = 国标码低位 + 80H
又因为: 国标码高位 = 区码 + 20H 国标码低位 = 位码 + 20H
所以: 机内码高位 = 区码 + A0H 机内码低位 = 位码 + A0H
也就是说,机内码高位和机内码低位分别比对应的区码和位码大(160)10或(10100000)2或(A0)H
例如:汉字"啊"的区位码为"1601",其中区码为(16)10或(10)H,位码为(01)10或(01)H。
则: 机内码高位 = 10H + A0H = B0H 机内码低位 = 01H + A0H = A1H 所以:
机内码= B0A1H
private void btnBrowser_Click(object sender, EventArgs e)
{
string s = tbCharOrString.Text;
string st = string.Empty;
byte[] array = System.Text.Encoding.Default.GetBytes(s);
for (int i = 0; i < array.Length; i++)
{
if (array[i] >= 161 && array[i] <= 247)
{
st =st+System.Text.Encoding.Default.GetString(array,
i, 2);
st = st + string.Format(" 高字节:{0},低字节:{1}"+Environment.NewLine , array[i], array[i + 1]);
i++;
}
else
{
st =st+ System.Text.Encoding.Default.GetString(array,
i,1);
st = st + string.Format(" ASCII:{0}" +
Environment.NewLine, array[i]);
}
}
tbResult.Text = st;
}
演示界面如下图: