UTF-8编码)将字符串写入文件,当字符串中包含中文时,出现写入文件的数据残缺,而当不包含中文时,写入文件的数据正常

场景:(UTF-8编码)将字符串写入文件,当字符串中包含中文时,出现写入文件的数据残缺,而当不包含中文时,写入文件的数据正常。示例:
写入文件的代码:
File txt=new File(url);
if(!txt.exists()){
    txt.createNewFile();
}
byte bytes[]=new byte[1024];
bytes=str.getBytes("UTF-8"); 
int b=str.length();
FileOutputStream fos=new FileOutputStream(txt,true);
fos.write(bytes,0,b);

fos.close();

示例结果:

String str = "fadsfdsf212";    写入文件内容:fadsfdsf212
String str = "4564大地方122321";    写入文件内容:4564大地方


分析:

存在问题的原因在于,计算字符串的长度时,一个中文长度只算成1,而实际上以UTF-8编码的中文占3个字节,所以实际由str.length()得到的b的值小于实际字节数,导致出现数据写入残缺的情况。


解决方法:
思路:计算正确的字节数。
首先是获取到字符串中的中文的个数count,由于每个中文占3个字节,而上述str.length()的方式只把中文按一个字节计算,即每个中文少计算了2个字节,则实际的字节数应该等于str.length()+count*2。
代码修改如下:
String regex = "[\u4e00-\u9fff]";
int count = (" " + str + " ").split (regex).length - 1;  //匹配字符串中的中文个数
File txt=new File(url);
if(!txt.exists()){
    txt.createNewFile();
}
byte bytes[]=new byte[1024];
bytes=str.getBytes("UTF-8");
int b=str.length()+count*2;  //补上漏算的字节数
FileOutputStream fos=new FileOutputStream(txt,true);  //true表示将字符串追加在文件原有内容后面
fos.write(bytes,0,b);

fos.close();

PS:   GBK编码:一个中文占2个字节,UTF-8编码:一个中文占3个字节

你可能感兴趣的:(java)