前言:
TXT 文件中保存的是字符的核心:它的编码值。而 Notepad 上显示时, 这些字符对应什么样的形状态,这是由字符文件决定的。编码值,字体是两个不一样的东西,比如 A 的编码值是 0x41,但是在屏幕上显示出来时可以使用不同的形状。
什么叫编码?就是一个字符用什么数字来表示。在计算机里一切都是用数字来表示,比如字符 A,用 0x01 还是 0x02 来表示它?我们使用 0x41 来表示它。 当你去打开一个 TXT 文件时,发现里面含有数值 0x41,你就知道了:哦,这里有一个字符 A。
下面让我们一起学习一下文字的编码方式吧
目录
一、字符的编码方式
1.编码与字体
(1)ASCII
(2)ANSI
(3)UNICODE
2.UNICODE 编码实现
(1)使用 3 个字节表示一个 UNICODE
(2)UCS-2 Little endian/UTF-16 LE
(3)UCS-2 Big endian/UTF-16 BE
(4)UTF8
二、ASCII 字符的点阵显示
1.获取点阵
2.描点
3.main 函数
4.编译 c 文件 show_ascii.c
5.上机实验:
三、中文字符的点阵显示
1.编码格式
(1)默认编码:
(2)指定编码格式
1)GB2312 转为 UTF-8
2)UTF-8 转为 GB2312
2.汉字区位码
(1)打开汉字库文件
(2)编写显示汉字的函数
(3) 使用 lcd_put_chinese 函数
四、编译程序与上机测试
1.编译命令:
2.上机实验
3.实验效果 :
是“American Standard Code for Information Interchange”的缩 写,美国信息交换标准代码。 电脑毕竟是西方人发明的,他们常用字母就 26 个,区分大小写、加上标点 符号也没超过 127 个,每个字符用一个字节来表示就足够了。一个字节的 7 位就 可以表示 128 个数值,在 ASCII 码中最高位永远是 0。
字符和数值的对应关系可以参考:https://baike.baidu.com/item/ASCII
使用记事本保存文件时,可以选择“ANSI”编码,却没有“ASCII”,如图
ASNI 是 ASCII 的扩展,向下包含 ASCII。对于 ASCII 字符仍以一个字节来 表示,对于非 ASCII 字符则使用 2 字节来表示。并没有固定的 ASNI 编码,它跟 “本地化”(locale)密切相关。比如在中国大陆地区,ANSI 的默认编码是 GB2312; 在港澳台地区默认编码是 BIG5。
以数值“0xd0d6”为例,对于 GB2312 编码它 表示“中”;对于 BIG5 编码它表示“笢”。所以对于 ANSI 编码的 TXT 文件,如 果你打开它发现乱码,那么还得再次细分它的具体编码。
比如对于一个 TXT 文件,里面的数值如下:
使用 Notepad 打开后,选择不同的编码(或称为字符集),有不一样的显示, 如下:
这仅仅是在中国地区就出现这些不兼容的问题。对于不同国家,它们默认的 ANSI 编码各不相同,所以同一个 TXT 文件在不同国家就很有可能出现乱码。
根本的原理在于没有“统一的编码”,那解决方法自然就是使用“统一的编码”:UNICODE。
在 ANSI 标准中,很多种文字都有自己的编码标准,汉字简体字有 GB2312、 繁体字有 BIG5,这难免同一个数值对应不同字符。比如数值“0xd0d6”,对于 GB2312 编码它表示“中”;对于 BIG5 编码它表示“笢”。这造成了使用 ANSI 编码保存的文件,不适合跨地区交流。
UNICODE 编码就是解决这类问题:对于地球上任意一个字符,都给它一个唯 一的数值。 UNICODE 仍然向下兼容 ASCII,但是对于其他字符会有对应的数值,比如对 于“中”、“笢”,它们的数值分别是:0x4e2d、0x7b22
UNICODE 中的数值范围是 0x0000 至 0x10FFFF,有 1,114,111 即 100 多万 个数值,可以表示 100 多万个字符,足够地球人使用了.
所谓编码实现,就是对于一个数值,怎么表示它。这很奇怪,数值还能怎么 表示?比如“中”的 UNICODE 值是 0x4e2d,在 TXT 文件中怎么表示 0x4e2d? 直接写入 0x4e2d?不行!
比如在 TXT 文件中写入 2 字节数据“0x2d 0x4e”,它可以用来表示“中” 字吗?不能!它们对应 ASCII 字符“-N”。
问题的关键在于:怎么断字。在 TXT 文件中,2 字节数据“0x2d 0x4e”是作为一个整体看待,还是拆成 2 部分看待?
UNICODE 的最大值是 0x10FFFF,那使用 3 个字节来表示一个 UNICODE 数值?这当然是很省事的方法,但是会造成浪费,比如字符 A 的 UNICOCDE 值是 0x41,难道也用“0x41 0x00 0x00”这 3 个字节来表示?这样会造成很大的内存浪费。
每个 UNICODE 值用 3 字节来表示有点浪费,那只用 2 字节呢?它可以表示 2^16=65536 个字符,全世界常用的字符都可以表示了。
Little endian 表示小字节序,数值中权重低的字节放在前面,比如字符 “A 中”在 TXT 文件中的数值如下,其中的“A”使用“0x41 0x00”两字节表 示;“中”使用“0x2d 0x4e”两字节表示。文件开头的“0xff 0xfe”表示“UTF-16 LE”。
Big endian 表示大字节序,数值中权重低的字节放在后面,比如字符“ab 中”在 TXT 文件中的数值如下,其中的“A”使用“0x00 0x41”两字节表示; “中”使用“0x4e 0x2d”两字节表示。文件开头的“0xfe 0xff”表示“UTF-16 BE”。
在上面 2 种方法中,每一个 UNICODE 使用 2 字节来表示,这有 3 个缺点: 表示的字符数量有限、对于 ASCII 字符有空间浪费、如果文件中有某个字节丢失,这会使得后面所有字符都因为错位而无法显示。
使用 UTF8 可以解决上述所有问题。UTF8 是变长的编码方法,有 2 种 UTF8 格式的文件:带有头部、不带头部。先举例,看图
对于其中的 ASCII 字符,在 UTF8 文件中直接用其 ASCII 码来表示,比如上图中的 0x61 表示字符 a、0x62 表示字符 b。上图中的 3 个字节“0xe4 0xb8 0xad”表示的数值是 0x4e2d,对应“中”的 UNICODE 码 。
对于非 ASCII 字符,使用变长的编码:每一个字节的高位都自带长度信息。
0xe4 的二进制是“11100100”,高位有 3 个 1,表示从当前字节起有 3 字节参与表示 UNICODE;
0xb8 的二进制是“10111000”,高位有 1 个 1,表示从当前字节起有 1 字节 参与表示 UNICODE;
0xad 的二进制是“10101101”,高位有 1 个 1,表示从当前字节起有 1 字节 参与表示 UNICODE;
除去高位的“1110”、“10”、“10”后,剩下的二进制数组合起来得到 “01001110001101”,它就是 0x4e2d,即“中”的 UNICODE 值。
使用 UTF8 编码时,即使 TXT 文件中丢失了某些数据,也只会影响到当前字 符的显示,后面的字符不受影响。
要在 LCD 中显示一个 ASCII 字符,即英文字母这些字符,首先是要找到字 符对应的点阵。在 Linux 内核源码中有这个文件:lib\fonts\font_8x16.c, 里面以数组形式保存各个字符的点阵,比如:
数组里的数字是如何表示点阵的?以字符 A 为例
上图左侧有 16 行数值,每行 1 个字节。每一个节对应右侧一行中 8 个像素: 像素从右边数起,bit0 对应第 0 个像素,bit1 对应第 1 个像素,……,bit7 对 应第 7 个像素。某位的值为 1时,表示对应的像素要被点亮;值为 0 时表示对应 的像素要熄灭。
所以要显示某个字符时,根据它的 ASCII 码在 fontdata_8x16 数组中找到 它的点阵,然后取出这 16 个字节去描画 16 行像素。
比如字符 A 的 ASCII 值是 0x41,那么从 fontdata_8x16[0x41*16]开始取 其点阵数据。
核心函数是 void lcd_put_ascii(int x, int y, unsigned char c), 它在 LCD 的(x,y)位置处显示字符 c,代码如下图所示:
4691 void lcd_put_ascii(int x, int y, unsigned char c)
4692 {
4693 unsigned char *dots = (unsigned char *)&fontdata_8x16[c*16];
4694 int i, b;
4695 unsigned char byte;
4696
4697 for (i = 0; i < 16; i++)
4698 {
4699 byte = dots[i];
4700 for (b = 7; b >= 0; b--)
4701 {
4702 if (byte & (1<
对于字符 c,char c,它的点阵获取方法如下:
4693 unsigned char *dots = (unsigned char *)&fontdata_8x16[c*16];
根据“字符 A 的点阵”,我们分析下如何利用点阵在 LCD 上显示一 个英文字母。
因为有十六行,所以首先要有一个循环 16 次的大循环,然后每一行里有 8 位,那么在每一个大循环里也需要一个循环 8 次的小循环。小循环里的判断单行 的描点情况,如果是 1,就填充白色,如果是 0 就填充黑色,如此一来,就可以 显示出黑色底,白色轮廓的英文字母。
4697 for (i = 0; i < 16; i++)
4698 {
4699 byte = dots[i];
4700 for (b = 7; b >= 0; b--)
4701 {
4702 if (byte & (1<
main 函数中首先要打开 LCD 设备,获取 Framebuffer 参数,实现 lcd_put_pixel 函数;然后调用 lcd_put_ascii 即可绘制字符。
4716 int main(int argc, char **argv)
4717 {
4718 fd_fb = open("/dev/fb0", O_RDWR);
4719 if (fd_fb < 0)
4720 {
4721 printf("can't open /dev/fb0\n");
4722 return -1;
4723 }
4724 if (ioctl(fd_fb, FBIOGET_VSCREENINFO, &var))
4725 {
4726 printf("can't get var\n");
4727 return -1;
4728 }
4729
4730 line_width = var.xres * var.bits_per_pixel / 8;
4731 pixel_width = var.bits_per_pixel / 8;
4732 screen_size = var.xres * var.yres * var.bits_per_pixel / 8;
4733 fbmem = (unsigned char *)mmap(NULL , screen_size, PROT_READ | PROT_WRITE, MAP_SHARED, fd_fb, 0);
4734 if (fbmem == (unsigned char *)-1)
4735 {
4736 printf("can't mmap\n");
4737 return -1;
4738 }
4739
4740 /* 清屏: 全部设为黑色 */
4741 memset(fbmem, 0, screen_size);
4742
4743 lcd_put_ascii(var.xres/2, var.yres/2, 'A'); /*在屏幕中间显示8*16的字母A*/
4744
4745 munmap(fbmem , screen_size);
4746 close(fd_fb);
4747
4748 return 0;
4749 }
4750
arm-buildroot-linux-gnueabihf-gcc -o show_ascii show_ascii.c
[root@100ask:~]# mount -t nfs -o nolock,vers=3 192.168.5.11:/home/book/nfs_rootfs /mnt
[root@100ask:~]# cp /mnt/show_ascii ./
把 show_ascii 程序放到板子上,执行命令:./show_ascii。如果实验成 功,我们将看到屏幕中间会显示出一个白色的字母‘A’ ,效果如下:
使用点阵字库时,中文字符的显示原理跟 ASCII 字符是一样的。要注意的地 方在于中文的编码:在 C 源文件中它的编码方式是 GB2312 还是 UTF-8?编译出 的可执行程序,其中的汉字编码方式是 GB2312 还是 UTF-8?
注意:一般不会使用 UTF-16 的编码方式,在这种方式下 ASCII 字符也是用 2 字节来表示,而其中一个字节是 0,但是在 C 语言中 0 表示字符串的结束符,会引起误会。
编写 C 程序时,可以使用 ANSI 编码,或是 UTF-8 编码;在编译程序时, 可以使用以下的选项告诉编译器:
-finput-charset=GB2312
-finput-charset=UTF-8
如果不指定“-finput-charset”,GCC 就会默认 C 程序的编码方式为 UTF-8,即使你是以 ANSI 格式保存,也会被当作 UTF-8 来对待。
对于编译出来的可执行程序,可以指定它里面的字符是以什么方式编码,可 以使用以下的选项编译器:
-fexec-charset=GB2312
-fexec-charset=UTF-8
如果不指定“-fexec-charset”,GCC 就会默认编译出的可执行程序中字符 的编码方式为 UTF-8。
如果“-finput-charset”与“-fexec-charset”不一样,编译器会进行 格式转换。
2.编码格式实验
test_charset_ansi.c、test_charset_utf8.c 的编码格式分别为 ANSI、 UTF-8,它们的程序代码是一样的,如下:
test_charset_ansi.c
#include
#include
int main(int argc, char **argv)
{
char *str = "A中";
int i;
printf("str's len = %d\n", (int)strlen(str));
printf("Hex code: ");
for (i = 0; i < strlen(str); i++)
{
printf("%02x ", (unsigned char)str[i]);
}
printf("\n");
return 0;
}
book@100ask:~/source/09_show_chinese$ gcc -o test_charset_ansi test_charset_ansi.c
book@100ask:~/source/09_show_chinese$ ./test_charset_ansi
test_charset_utf8.c
#include
#include
int main(int argc, char **argv)
{
char *str = "A中";
int i;
printf("str's len = %d\n", (int)strlen(str));
printf("Hex code: ");
for (i = 0; i < strlen(str); i++)
{
printf("%02x ", (unsigned char)str[i]);
}
printf("\n");
return 0;
}
book@100ask:~/source/09_show_chinese$ gcc -o test_charset_utf8 test_charset_utf8.c
book@100ask:~/source/09_show_chinese$ ./test_charset_utf8
不指定“-finput-charset”与“-fexec-charset”时,input-charset 和 exec-charset 默认都是 UTF-8,不会进行编码转换。即使 C 文件是 ANSI, 也会被认为是 UTF-8,所以不会导致编码转换
book@100ask:~/source/09_show_chinese$ gcc -finput-charset=GB2312 -fexec-charset=UTF-8 -o test_charset_ansi test_charset_ansi.c
注意:从上面的输出信息可以看出来,GB2312 的“0xd6 0xd0”可以转换为 UTF-8 的“0xe4 0xb8 0xad”
book@100ask:~/source/09_show_chinese$ gcc -finput-charset=GB2312 -fexec-charset=UTF-8 -o test_charset_utf8 test_charset_utf8.c
注意:而如果把原本就是 UTF-8 格式的 test_charset_utf8.c 当作 GB2312 格式,会引起错误。
book@100ask:~/source/09_show_chinese$ gcc -finput-charset=UTF-8 -fexec-charset=GB2312 -o test_charset_ansi test_charset_ansi.c
注意:输 出 信 息 可 以 看 出 来 , 如 果 把 原 本 就 是 GB2312 格式的 test_charset_ansi.c 当作 UTF-8 格式,会引起错误。
book@100ask:~/source/09_show_chinese$ gcc -finput-charset=UTF-8 -fexec-charset=GB2312 -o test_charset_utf8 test_charset_utf8.c
book@100ask:~/source/09_show_chinese$ ./test_charset_utf8
注意:而 UTF-8 格式的“中”编码值为“0xe4 0xb8 0xad”,可以转换为 GB2312 的“0xd6 0xd0”。
我们从网上搜到 HZK16 这个文件,它是常用汉字的 16*16 点阵字库。HZK16 里每个汉字使用 32 字节来描述。
跟 ASCII 字库一样,每个字节中每一位用来表示一个像素,位值等于 1 时表示对 应像素被点亮,位值等于 0 时表示对应像素被熄灭。
HZK16 中是以 GB2312 编码值来查找点阵的,以“中”字为例,它的编码值 是“0xd6 0xd0”,其中的 0xd6 表示“区码”,表示在哪一个区:第“0xd6 - 0xa1” 区;其中的 0xd0 表示“位码”,表示它是这个区里的哪一个字符:第“0xd0 - 0xa1”个。每一个区有 94 个汉字。区位码从 0xa1 而不是从 0 开始,是为了兼 容 ASCII 码。
所以,我们要显示的“中”字,它的 GB2312 编码是 d6d0,它是 HZK16 里第“(0xd6-0xa1)*94+(0xd0-0xa1)”个字符。
4787 fd_hzk16 = open("HZK16", O_RDONLY);
4788 if (fd_hzk16 < 0)
4789 {
4790 printf("can't open HZK16\n");
4791 return -1;
4792 }
4793 if(fstat(fd_hzk16, &hzk_stat))
4794 {
4795 printf("can't get fstat\n");
4796 return -1;
4797 }
4798 hzkmem = (unsigned char *)mmap(NULL , hzk_stat.st_size, PROT_READ, MAP_SHARED, fd_hzk16, 0);
4799 if (hzkmem == (unsigned char *)-1)
4800 {
4801 printf("can't mmap for hzk16\n");
4802 return -1;
4803 }
第 4787 行打开当前目录的字库文件:HZK16。
第 4793 行获得文件的状态信息,里面含有文件长度,这在后面的 mmap 中用到。
第 4798 行使用 mmap 映射文件,以后就可以像访问内存一样读取文件内容; mmap 的返回结果保存在 hzkmem 中,它将作为字库的基地址。
核心函数是 void lcd_put_chinese(int x, int y, unsigned char *str),它在 LCD 的(x,y)位置处显示汉字字符 str,str[0]中保存区码、str[1] 中保存位码。
4732 void lcd_put_chinese(int x, int y, unsigned char *str)
4733 {
4734 unsigned int area = str[0] - 0xA1;
4735 unsigned int where = str[1] - 0xA1;
4736 unsigned char *dots = hzkmem + (area * 94 + where)*32;
4737 unsigned char byte;
4738
4739 int i, j, b;
4740 for (i = 0; i < 16; i++)
4741 for (j = 0; j < 2; j++)
4742 {
4743 byte = dots[i*2 + j];
4744 for (b = 7; b >=0; b--)
4745 {
4746 if (byte & (1<
第 4734 行确定该汉字属于哪个区;
第 4735 行确实它是该区中哪一个汉字。
第 4736 行确实它的字库地址:每个区中有 94 个汉字,每个汉字在字库中占据 32 字节。
需要根据图来理解第 4740 行开始的循环:
第 4740 行 汉字点阵排布的示意图,总共有十六行,因此需要一个循环 16 次的大循环。
第 4741 行 考虑到一行有两个字节,在大循环中加入一个 2 次的循环用于区分是哪个字节。
第 4744 行 使用第 3 个循环来处理一个字节中的 8 位。对于每一位, 它等于 1 时对应的像素被设置为白色,它等于 0 时对应的像素被设置为黑色。需 要注意的是根据 x、y、i、j、b 来计算像素坐标。
4760 int main(int argc, char **argv)
4761 {
4762 unsigned char str[] = "中";
4763
4764 fd_fb = open("/dev/fb0", O_RDWR);
4765 if (fd_fb < 0)
4766 {
4767 printf("can't open /dev/fb0\n");
4768 return -1;
4769 }
4770
4771 if (ioctl(fd_fb, FBIOGET_VSCREENINFO, &var))
4772 {
4773 printf("can't get var\n");
4774 return -1;
4775 }
4776
4777 line_width = var.xres * var.bits_per_pixel / 8;
4778 pixel_width = var.bits_per_pixel / 8;
4779 screen_size = var.xres * var.yres * var.bits_per_pixel / 8;
4780 fbmem = (unsigned char *)mmap(NULL , screen_size, PROT_READ | PROT_WRITE, MAP_SHARED, fd_fb, 0);
4781 if (fbmem == (unsigned char *)-1)
4782 {
4783 printf("can't mmap\n");
4784 return -1;
4785 }
4786
4787 fd_hzk16 = open("HZK16", O_RDONLY);
4788 if (fd_hzk16 < 0)
4789 {
4790 printf("can't open HZK16\n");
4791 return -1;
4792 }
4793 if(fstat(fd_hzk16, &hzk_stat))
4794 {
4795 printf("can't get fstat\n");
4796 return -1;
4797 }
4798 hzkmem = (unsigned char *)mmap(NULL , hzk_stat.st_size, PROT_READ, MAP_SHARED, fd_hzk16, 0);
4799 if (hzkmem == (unsigned char *)-1)
4800 {
4801 printf("can't mmap for hzk16\n");
4802 return -1;
4803 }
4804
4805 /* 清屏: 全部设为黑色 */
4806 memset(fbmem, 0, screen_size);
4807
4808 lcd_put_ascii(var.xres/2, var.yres/2, 'A'); /*在屏幕中间显示8*16的字母A*/
4809
4810 printf("chinese code: %02x %02x\n", str[0], str[1]);
4811 lcd_put_chinese(var.xres/2 + 8, var.yres/2, str);
4812
4813 munmap(fbmem , screen_size);
4814 close(fd_fb);
4815
4816 return 0;
4817 }
book@100ask:~/source/09_show_chinese$ arm-buildroot-linux-gnueabihf-gcc -fexec-charset=GB2312 -o show_chinese show_chinese.c
book@100ask:~/source/09_show_chinese$ cp show_chinese HZK16 ~/nfs_rootfs/
注意:不同的板子,编译工具的前缀可能不一样。
注意:使用上述命令时 show_chinese.c 的编码格式必须是 ANSI(GB2312),否则编译时需要指定“-fexec-charset=GB2312”。
把 show_chinese 程序放到板子上,执行命令:./show_chinese。如果实验成功,我们将看到屏幕中间会显示出一个白色的字母“A”和“中”。
[root@100ask:~]# mount -t nfs -o nolock,vers=3 192.168.5.11:/home/book/nfs_rootfs /mnt
[root@100ask:~]# cp /mnt/show_chinese .
[root@100ask:~]# cp /mnt/HZK16 .