笔者最近在研究小语种域名,需要先将punycode编码的域名(即带有“xn--”的域名)转成Unicode编码的域名(即以小语种形式表示的域名),并判断语种。可是,在将数据写入数据库的时候中文变成了乱码,???的形式,即一个中文用一个“?”代替了。
经过多次查找资料及尝试,发现解决此类问题可以从三方面进行排查:
1、数据库和表的编码
2、与数据库建立连接的时候设置编码格式
3、C++存储中文
接下来我将详细叙述。
1、数据库和表的编码
1.1查看数据库编码
mysql的默认编码是latinl不支持中文,进入mysql数据库,可以使用命令show variables like "%char%";
去查看mysql数据库的的编码格式。
首先不可否认的是使用set names utf8
这条SQL命令对mysql数据库的编码格式设置为utf8,是可以解决查询数据库时出现的中文乱码问题的。但输入set names utf8只对当前连接的编码设置有效,不然上图中也不会还存在latin1缺省了。具体原因参见
https://my.oschina.net/mjRao/blog/100661
那么这些字符集系统变量都是什么意思呢?
https://www.cnblogs.com/cchust/p/4327019.html
为了一次性解决乱码问题有两种办法:
创建时指定字符集
1.服务器级:
在安装MySQL时可以设置服务器的默认编码格式,也可对my.ini做修改,修改[mysqld]里面的character_set_server=utf8,则可设置character_set_server的值。
2.数据库级:
CREATE DATABASE db_name DEFAULT CHARACTER SET utf8;
对已存在的数据库修改字符集
笔者使用的是linux5.1,对/etc路径下的my.cnf进行了修改。
在my.cnf文件中的[mysqld]下添加default-character-set=utf8
(默认字符集为utf8),再添加init_connect='SET NAMES utf8'
(设定连接mysql数据库时使用utf8编码格式)。
在my.cnf文件中的[client]下添加default-character-set=utf8
修改之后
service mysqld stop 关闭数据库
service mysqld start 启动数据库
再show variables like "%char%";会发现
至此数据库编码修改成功。
1.2查看表编码
执行show create table table_name;就可以查看表属性,其中ENGINE以及DEFAULT CHARSET都是在建表是可以设置的
同样有两种解决办法:
创建表时指定字符集
create table if not exists resolved_ip(字段)DEFAULT CHARSET=utf8";
对已存在的表修改字符集
alter
database
testdb
character
set
utf8;
更多修改字符集的方法及语句参见https://www.jianshu.com/p/19b2a6e9ed90
2、与数据库建立连接的时候c码格
以上已经讲解了set names utf8的原理,因此在代码中完成与数据库连接的时候,可以在connect之后加一句mysql_query(&mysql, "SET NAMES utf8");以保证本次连接的utf8设置。
3、C++存储中文
从数据库或文件读取的中文用char* 和char[len]存储,当然可以再赋值给string,但需要注意的是输出中文到文件或数据库中的时候对于string类型的中文,不要忘记输出的是str.c_str()。这样才能保证在C++语言上保证中文不是乱码。
中文编码相关可参见https://blog.csdn.net/xph23/article/details/65630277