不考虑字符编码,按字节截取含有中文汉字的字符串

要求实现一个按字节截取字符串的方法,比如对于字符串"我ZWR爱JAVA",截取它的前四位字节应该是"我ZW",而不是"我ZWR",同时要保证不会出现截取了半个汉字的情况。
英文字母和中文汉字在不同的编码格式下,所占用的字节数也是不同的。我下面这个就是不考虑字符集,就是说适用java的所有字符集。utf-8 时中文占3个字节,GBK时中文占两个字节。下面是我的代码:

package com.wmj.test;



public class MyTest {

public static void main(String[] args) {

String str1="我love 非常JAVA 呀 ";
System.out.println(getStringByByte(str1,8));

        //System.out.println("当前编码集:"+new String(Charset.defaultCharset().toString()).equalsIgnoreCase("utf-8"));
       
}

public static String getStringByByte(String str1,int byteNum){
String strTemp = null;
byte[] bytes1=null;
byte[] bytes2 = null;
byte[] bytes3 = null;
String str2 = "c";
String str3 = "中";
char[] char1=null;
try {
bytes1=str1.getBytes();
bytes2 = str2.getBytes();
bytes3 = str3.getBytes();
char1=str1.toCharArray();
} catch (Exception e) {
}
int size1=bytes1.length;
    int size2=bytes2.length;
    int size3=bytes3.length;
System.out.println("一个字符所占字节数:" + size2);
System.out.println("一个中文字符所占字节数:" + size3);
if(size1<=byteNum){
return str1;
}else if(byteNum<0){
System.out.println("数字必须大于0:" + byteNum);
}

    int count=0;
    for(int i=0;i<char1.length;i++){
    char ch=char1[i];
    String str=String.valueOf(ch);
    int chL=str.getBytes().length;
    count+=chL;
    if(count-byteNum==0){
    strTemp=new String(char1,0,i+1);
    break;
    }else if(count-byteNum>0){
    if(chL==size2){
    strTemp=new String(char1,0,i);
    break;
    }else if(chL==size3){
    strTemp=new String(char1,0,i+1);
    break;
    }
    }
    }

return strTemp;
}



}

你可能感兴趣的:(java 字节取中文字符)