Java检查字符串是否包含中文字符

强烈推荐一个大神的人工智能的教程:http://www.captainbed.net/zhanghan

【前言】

       最近项目的短信服务对接外国的第三方发短信通道,第三方对短信内容有限制,不能含中文字符(如果含调用结果肯定失败),所以在发送之前需要对短信内容做校验,看是否含有中文,如果含有则直接将短信发送状态改为失败,不用再去调用第三方;

【探索之旅】

       站在巨人的肩膀上, 立马在网上搜索一下关于Java怎么判断字符串中是否含有中文;果然网上有很多实现;

       一、实现方式一

       1、针对每个字符判断:       

 

public static boolean isChinese(String str) throws UnsupportedEncodingException
    {
        int len = str.length();
        for(int i = 0;i < len;i ++)
        {
            String temp = URLEncoder.encode(str.charAt(i) + "", "utf-8");
            if(temp.equals(str.charAt(i) + ""))
                continue;
            String[] codes = temp.split("%");
            //判断是中文还是字符(下面判断不精确,部分字符没有包括)
            for(String code:codes)
            {
                if(code.compareTo("40") > 0)
                    return true;
            }
        }
        return false;
    }

     2、优缺点:        

 

                  a.缺点:效率低【每次都需要循环检测字符串中每个字符】(每次发送都需要检测短信内容,每条内容有很多字符);

                  b.优点:不仅能检测出中文汉字还能检测中中文标点;

       二、实现方式二        

       1、利用正则表达式:

 

    public static boolean isContainChinese(String str) {

        Pattern p = Pattern.compile("[\u4e00-\u9fa5]");
        Matcher m = p.matcher(str);
        if (m.find()) {
            return true;
        }
        return false;
    }

 

       2、优缺点:        

                  a.缺点:只能检测出中文汉字不能检测中文标点;

                  b.优点:利用正则效率高;

      三、方式三

       1、改造正则

 

    /**
     * 字符串是否包含中文
     *
     * @param str 待校验字符串
     * @return true 包含中文字符  false 不包含中文字符
     * @throws EmptyException
     */
    public static boolean isContainChinese(String str) throws EmptyException {

        if (StringUtils.isEmpty(str)) {
            throw new EmptyException("sms context is empty!");
        }
        Pattern p = Pattern.compile("[\u4E00-\u9FA5|\\!|\\,|\\。|\\(|\\)|\\《|\\》|\\“|\\”|\\?|\\:|\\;|\\【|\\】]");
        Matcher m = p.matcher(str);
        if (m.find()) {
            return true;
        }
        return false;
    }

 

       2、优缺点:

                  a.优点:效率既高又能检测出中文汉字和中文标点;

                  b.缺点:目前尚未发现。                  

【总结】

        1、站在巨人的肩膀上,多去查,多做比较;

        2、针对程序不断的优化,比如第一种方式循环读字符串量大后很容易将服务器CPU搞崩。

你可能感兴趣的:(●,编程语言,#,【Java】)