关于编码问题的一个有趣的案例

最近在工作中遇到一个问题,其实是自己给自己挖了一个坑,并且还义无反顾的跳了进去,问题描述:
在python(python 2.X) 执行postgresql 数据插入的时候,出现下面这样的情况:

关于编码问题的一个有趣的案例_第1张图片
中文显示问题.png

其实我的postgresql 得字符编码格式设置的是没问题的,具体执行

客户端编码格式.png
查看postgresql编码格式.png

那一定是执行插入数据的语句出了问题,查看了一下自己的插入数据命令:

    def insert_tale(self, tablename, field_list, data):
        self.connect_db()
        cur = self.connect_db().cursor()
        filed_str = '('+'%s, '*(len(field_list)-1) + '%s' +')'
        filed_str = filed_str%tuple(field_list)
        for i in data:
            if isinstance(i, unicode):
                data[data.index(i)] = i.encode('utf8')
        values_ = tuple(data)
        sql_ = u"insert into %s %s values %s;" % (tablename, filed_str, values_)
        cur.execute(sql_)
        self.commit_db()

好像也没什么问题,重新调整了一下实现方式,如下是可以正常插入中文, 并可正常显示成中文的代码实现

    def insert_tale(self, tablename, field_list, data):
        self.connect_db()
        cur = self.connect_db().cursor()
        filed_str = '('+'%s, '*(len(field_list)-1) + '%s' +')'
        filed_str = filed_str%tuple(field_list)
        for i in data:
            if isinstance(i, int):
                data[data.index(i)] = str(i)
        values_ = "'" + "', '".join(data) + "'"
        sql_ = u"insert into %s %s values (%s);" % (tablename, filed_str, values_)
        cur.execute(sql_)
        self.commit_db()

具体的差别,可以看到,就是在问题代码中,使用的list转tuple的tuple方法,而在正常代码中使用的是字符串的操作方式。
两者具体啥区别呢,举几个例子来观察现象:

关于编码问题的一个有趣的案例_第2张图片
image.png
关于编码问题的一个有趣的案例_第3张图片
从这个例子中可以看到问题的所在.png

同样是unicode编码,放在列表或者字符串后通过格式化字符串进行转义就不一样了

关于编码问题的一个有趣的案例_第4张图片
image.png

这就是为什么在执行insert操作的时候,如果不进行encode转义就会报TypeError错误,因为在sql语句中会出现这样的形式
insert into test (id, name, age, addr, phone) values (1, u"\u8fd9\u662f", 12, u"\u6d4b\u8bd5\u4ee3\u7801", '1234567890');
这是postgresql所不允许的。
而转为utf-8格式后插入就会出现最上面图中的数据格式,所以,在字符串转义的时候一定要注意的就是
不要转义list或者tuple格式的数据,如果在像insert语句那样需要(.....)的,记住(....)放在字符串中来构建,转义的时候,尽量只转义字符串,数字等基本格式的数据

你可能感兴趣的:(关于编码问题的一个有趣的案例)