pinyin4j使用示例(支持多音字)

pinyin4j的主页:http://pinyin4j.sourceforge.net/
pinyin4j能够根据中文字符获取其对应的拼音,而且拼音的格式可以定制。
pinyin4j是一个支持将中文转换到拼音的Java开源类库。

  1. 支持简体中文和繁体中文字符;
  2. 支持转换到汉语拼音,通用拼音, 威妥玛拼音(威玛拼法), 注音符号第二式, 耶鲁拼法和国语罗马字;
  3. 支持多音字,即可以获取一个中文字符的多种发音;
  4. 支持多种字符串输出格式,比如支持Unicode格式的字符ü和声调符号(阴平 "ˉ",阳平"ˊ",上声"ˇ",去声"ˋ")的输出。

示例代码:

public class Pinyin4jUtil {  
      
        /** 
         * 汉字转换位汉语拼音首字母,英文字符不变,特殊字符丢失 支持多音字,生成方式如(长沙市长:cssc,zssz,zssc,cssz) 
         *  
         * @param chines 
         *            汉字 
         * @return 拼音 
         */  
        public static String converterToFirstSpell(String chines) {  
            StringBuffer pinyinName = new StringBuffer();  
            char[] nameChar = chines.toCharArray();  
            HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();  
            defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);  
            defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);  
            for (int i = 0; i < nameChar.length; i++) {  
                if (nameChar[i] > 128) {  
                    try {  
                        // 取得当前汉字的所有全拼  
                        String[] strs = PinyinHelper.toHanyuPinyinStringArray(  
                                nameChar[i], defaultFormat);  
                        if (strs != null) {  
                            for (int j = 0; j < strs.length; j++) {  
                                // 取首字母  
                                pinyinName.append(strs[j].charAt(0));  
                                if (j != strs.length - 1) {  
                                    pinyinName.append(",");  
                                }  
                            }  
                        }  
                        // else {  
                        // pinyinName.append(nameChar[i]);  
                        // }  
                    } catch (BadHanyuPinyinOutputFormatCombination e) {  
                        e.printStackTrace();  
                    }  
                } else {  
                    pinyinName.append(nameChar[i]);  
                }  
                pinyinName.append(" ");  
            }  
            // return pinyinName.toString();  
            return parseTheChineseByObject(discountTheChinese(pinyinName.toString()));  
        }  
      
        /** 
         * 汉字转换位汉语全拼,英文字符不变,特殊字符丢失 
         * 支持多音字,生成方式如(重当参:zhongdangcen,zhongdangcan,chongdangcen 
         * ,chongdangshen,zhongdangshen,chongdangcan) 
         *  
         * @param chines 
         *            汉字 
         * @return 拼音 
         */  
        public static String converterToSpell(String chines) {  
            StringBuffer pinyinName = new StringBuffer();  
            char[] nameChar = chines.toCharArray();  
            HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();  
            defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);  
            defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);  
            for (int i = 0; i < nameChar.length; i++) {  
                if (nameChar[i] > 128) {  
                    try {  
                        // 取得当前汉字的所有全拼  
                        String[] strs = PinyinHelper.toHanyuPinyinStringArray(  
                                nameChar[i], defaultFormat);  
                        if (strs != null) {  
                            for (int j = 0; j < strs.length; j++) {  
                                pinyinName.append(strs[j]);  
                                if (j != strs.length - 1) {  
                                    pinyinName.append(",");  
                                }  
                            }  
                        }  
                    } catch (BadHanyuPinyinOutputFormatCombination e) {  
                        e.printStackTrace();  
                    }  
                } else {  
                    pinyinName.append(nameChar[i]);  
                }  
                pinyinName.append(" ");  
            }  
            // return pinyinName.toString();  
            return parseTheChineseByObject(discountTheChinese(pinyinName.toString()));  
        }  
      
        /** 
         * 去除多音字重复数据 
         *  
         * @param theStr 
         * @return 
         */  
        private static List> discountTheChinese(String theStr) {  
            // 去除重复拼音后的拼音列表  
            List> mapList = new ArrayList>();  
            // 用于处理每个字的多音字,去掉重复  
            Map onlyOne = null;  
            String[] firsts = theStr.split(" ");  
            // 读出每个汉字的拼音  
            for (String str : firsts) {  
                onlyOne = new Hashtable();  
                String[] china = str.split(",");  
                // 多音字处理  
                for (String s : china) {  
                    Integer count = onlyOne.get(s);  
                    if (count == null) {  
                        onlyOne.put(s, new Integer(1));  
                    } else {  
                        onlyOne.remove(s);  
                        count++;  
                        onlyOne.put(s, count);  
                    }  
                }  
                mapList.add(onlyOne);  
            }  
            return mapList;  
        }  
      
        /** 
         * 解析并组合拼音,对象合并方案(推荐使用) 
         *  
         * @return 
         */  
        private static String parseTheChineseByObject(  
                List> list) {  
            Map first = null; // 用于统计每一次,集合组合数据  
            // 遍历每一组集合  
            for (int i = 0; i < list.size(); i++) {  
                // 每一组集合与上一次组合的Map  
                Map temp = new Hashtable();  
                // 第一次循环,first为空  
                if (first != null) {  
                    // 取出上次组合与此次集合的字符,并保存  
                    for (String s : first.keySet()) {  
                        for (String s1 : list.get(i).keySet()) {  
                            String str = s + s1;  
                            temp.put(str, 1);  
                        }  
                    }  
                    // 清理上一次组合数据  
                    if (temp != null && temp.size() > 0) {  
                        first.clear();  
                    }  
                } else {  
                    for (String s : list.get(i).keySet()) {  
                        String str = s;  
                        temp.put(str, 1);  
                    }  
                }  
                // 保存组合数据以便下次循环使用  
                if (temp != null && temp.size() > 0) {  
                    first = temp;  
                }  
            }  
            String returnStr = "";  
            if (first != null) {  
                // 遍历取出组合字符串  
                for (String str : first.keySet()) {  
                    returnStr += (str + ",");  
                }  
            }  
            if (returnStr.length() > 0) {  
                returnStr = returnStr.substring(0, returnStr.length() - 1);  
            }  
            return returnStr;  
        }  
      
    }  
测试代码
	    String str = "长沙市长";  
              
            String pinyin = Pinyin4jUtil.converterToSpell(str);  
            System.out.println(str+" pin yin :"+pinyin);  
              
            pinyin = Pinyin4jUtil.converterToFirstSpell(str);  
            System.out.println(str+" short pin yin :"+pinyin); 

运行结果:

长沙市长 pin yin :zhangshashichang,changshashichang,zhangshashizhang,changshashizhang
长沙市长 short pin yin :cssc,zssz,zssc,cssz

你可能感兴趣的:(java)