使用go进行json序列化和反序化时,该过程可能不可逆

使用golang进行json序列化时需要注意,该序列化过程可能不可逆,而且没有错误抛出。

今天用go导出一批数据时,我按照以前python的习惯,将一条条数据json序列化后,输出到文件中去。

bys, err := json.Marshal(obj)
fmt.Fprintln(file, string(bys)))

然后在测试导出文件的可用性发现基本一个string类型的数据跟原来的不太一样。这个string其实是二进制数组([]byte),明显的表现就是经过序列化后再反序列的string串长度不一样。经观察,反序列化出来的串在有以下重复的字节。

0xef, 0xbf, 0xbd, 0xef, 0xbf, 0xbd, 0xef, 0xbf, 0xbd

翻读json.Marshal源码时,发现go在序列化过程中,会对string按照utf8编码转换成unicode编码,当遇到无法不符合utf8编码的字节时,也不会抛出错误,而是用utf8.ErrorRune进行替换。

// String values encode as JSON strings coerced to valid UTF-8,
// replacing invalid bytes with the Unicode replacement rune.

当我尝试用以下代码将其处理时

var bys []byte
b := []byte(s)
for len(b) > 0 {
	r, size := utf8.DecodeRune(b)
	if r != utf8.RuneError {
		bys = append(bys, []byte(string(r))...)
	} else {
		bys = append(bys, byte(r))
	}
	b = b[size:]
}
return bys

这样是可以得到和原来的string相同长度的byte数组,但是数据已经改变了。

这一点太坑了,不像python,在不能进行序列化时,起码会给你抛个错误。

你可能感兴趣的:(杂记)