中文编码及绘制

最近一个任务是判断一个字符串是不是中文,并将其绘制到一个jpg文件上。对于编码一直挺糊涂的,这次梳理了一下。

对于一个文件,可以使用file -i a.txt查看它的编码格式(不知怎么回事,我的终端是utf-8,在vim中输入中文时,老是出现乱码,只能在notepad++中编辑好之后再上传到linux上,可能是vim的设置有问题。)当终端和文件的编码方式一致时,就能显示正常的中文。

回到c++,当你写了char *str = "一二三四五六七八";时,其实这段文字在内存中是使用utf-8方式(默认,下同)编码的。所以这个字符串的长度是编码的长度加上"\0"共25。当你用printf把这段文字打印出来时,和前面文本文档是一样的。保存字符串,还有一种方式是使用wchar_t的方式,这种方式对应的就是unicode。这种方式的赋值方式为wchar_t *str = L"一二三四五六七八";,前面的L是告诉编译器,将这段字符最为宽字节进行内存分配。wchar_t在Windows下是2个字节,在Linux下是4个字节。这样,这个宽字符串的长度就是字符长度8加上一个结尾的符号,为9。这时候每个字符和中文是一一对应的。比如,str[0]的值就是19968,对应的就是“一”这个中文的unicode编码0x4e00。这时直接用printf打印是有乱码的,可以使用"%ls"进行打印,告诉函数打印的是宽字符,或者使用wprintf进行打印。

另外就是普通字符串和宽字符字符串之间转换,可以使用mbstowcs和wcstombs函数,但是直接调用,会失败,errno为48,我上网查了一下,需要在调用之前设置setlocale(LC_CTYPE, "en_US.UTF-8"); 或者setlocale(LC_ALL, "");,原因我也不太懂。

最后是绘制文字,Opencv是没办法直接绘制文字的,需要加载相应的文字库,而且需要结合freetype的库(网上的好像有点问题,我修改了一下),看代码还是比较简单的。

ps:test.tar是一个更简洁的使用例子

你可能感兴趣的:(中文编码及绘制)