java 读取文件 乱码

前言

  我们在开发中经常会遇到java读取文件乱码的问题,也许快速的百度能解决问题,但只有掌握了内部原理,我们才算真正的“解决”掉问题。


示例:

新建一个b.txt文件,只有一个字“卡”,并保存编码格式为gbk

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.io.UnsupportedEncodingException;

public class TestInputStream{
	
	public static void main(String[] args){
		InputStream is  = null;
		String filename = "C:\\Users\\DELL\\Desktop\\b.txt";
		try {
			is  = new FileInputStream(new File(filename));
			byte[] buffer = new byte[30];
			int length = 0;
			while((length = is.read(buffer)) != -1){
				System.out.print(new String(buffer, 0,  length,"gbk") );
			}
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}finally{
			if(is!=null){
				try {
					is.close();
				} catch (IOException e) {
					e.printStackTrace();
				}
			}
		}
	}
}

结果,输出正常



现在我们稍微,改一下程序,将

System.out.print(new String(buffer, 0,  length,"gbk") );

改为

System.out.print(new String(buffer, 0,  length,"utf8") );

编译后,重新运行,我们发现乱码了

java 读取文件 乱码_第1张图片



分析:

       这个过程中,我们只是修改了字节流转化为字符流的编码方案。

源文件保存编码格式是gbk,我们用gbk,解码,结果正常;

源文件保存编码格式是gbk,我们用utf8,解码,结果乱码;

由此我们得出,java读取文件时,字节流转化为字符流的编码方案取决于源文件的编码方案


扩展:

java在加载属性文件时,经常会出现乱码!不是获取字节流出的错误,而是字节流转化为字符流出的错误!所以,我们将字节流包装一层字符流,并指定源文件的解码方式就可以解决乱码问题。



总结:

1、java读取文件,获取到的二进制流是固定正确的。

2、java读取文件,字节流转化为字符流的编码方案取决于源文件的编码方案。


关于操作系统默认编码,请参考我的另外一篇博文-Dfile.encoding与Charset.defaultCharset()



你可能感兴趣的:(javase,charset,encoding)