UTF-8转GBK的悲剧:特殊字符C2A0

这个问题出现得比较早:在传给印象派的作品描述XML(GBK编码)中一些文字信息经常包含乱码,而且会一乱到底,甚至导致不同页的错乱。刚开始一直都没有什么头绪,不过后来终于发现了部分头绪:GBK的字符集过小,对一些特殊字符的转码会出现乱码—-一些生僻字也就算了,但是其中却包括这个字符:C2A0—-一个在网页上经常使用排版用全角空格。就是这么个字符,用户从网页端拷贝了一段文字,复制到界面上显示正常,保存到作品XML文件中(UTF8编码),显示正常。但是上传作品时由于将相应的XML编码格式转换成GBK,于是出现了乱码……
处理方法:

方法一:转换时对文本信息做特殊处理,用0×20代替掉0xC2A0。

方法二:作品XML文件直接以UTF8编码传输。

方法一有点头疼治头脚疼治脚的味道,虽然解决了这个问题,但是总归不够规范不够完美—-很多页面都是这么做。而方法二则需要服务器支持,但可以完美的解决这个问题。以前服务器之所以用GBK编码很大的理由可能在于GBK相对UTF8更省空间—-在这么个硬盘空间足够,带宽足够的现状下,节约出来的那么点东西又有什么用呢?

/**
	 * 
	 * 将不换行空格(NO-BREAK SPACE,Unicode 0x00a0,UTF-8编码:0xC2A0)替换为普通空格。
	 * 
	 * 用于避免因数据库字符集不兼容导致这个字符变为问号“?”的情况。
	 */

	public static String nobreakSpaceToSpace(String str) {
		if (str == null) {
			return null;
		}
		char nbsp = 0x00a0;
		return str.replace(nbsp, ' ');
	}


你可能感兴趣的:(android)