u012868901

java实现汉字字典

环境：eclipsse, jdk1.6, 没有使用第三方的包，都是JDK有的。

注意，项目源文件我都使用的是UTF-8的编码格式，如果不是，代码里面的汉字注释会显示乱码。

设置UTF-8：windows->Preferences->General->Workspace 页面上Text file encoding，选择Other UTF-8

项目结构：

1.字典文件

dic.txt 下载地址:http://download.csdn.net/detail/wssiqi/5056993

这里只摘录一部分内容，里面共收录了20902个汉字

[plain]  view plain 
     copy 
    
 19968,一,一,1,1,GGLL,A,yi1,yī  
 19969,丁,一,2,12,SGH,AI,ding1,dīng,zheng1,zhēng  
 19970,丂,一,2,15,GNV,AZVV,kao3,kǎo,qiao3,qiǎo,yu2,yú  
 19971,七,一,2,15,AGN,HD,qi1,qī  
 19972,丄,一,2,21,HGD,IAVV,shang4,shàng  
 19973,丅,一,2,12,GHK,AIAA,xia4,xià  
 19974,丆,一,2,13,DGT,GDAA,han3,hǎn  
 19975,万,一,3,153,DNV,,wan4,wàn,mo4,mò  
 19976,丈,一,3,134,DYI,AOS,zhang4,zhàng  
 19977,三,一,3,111,DGGG,CD,san1,sān  
 19978,上,一,3,211,HHGG,IDA,shang3,shǎng,shang4,shàng  
 19979,下,一,3,124,GHI,AID,xia4,xià  
 19980,丌,一,3,132,GJK,AND,ji1,jī,qi2,qí  
 19981,不,一,4,1324,GII,GI,fou3,fǒu,bu4,bù  
 19982,与,一,3,151,GNGD,AZA,yu4,yù,yu3,yǔ,yu2,yú  
 19983,丏,一,4,1255,GHNN,AIZY,mian3,miǎn  
 19984,丐,一,4,1215,GHNV,AIZ,gai4,gài  
 19985,丑,一,4,5211,NFD,XED,chou3,chǒu  
 19986,丒,一,4,5341,VYGF,YDSA,chou3,chǒu  

2.Dic.java

[java]  view plain 
     copy 
    
 package com.siqi.dict;  
   
 import java.io.BufferedReader;  
 import java.io.ByteArrayInputStream;  
 import java.io.File;  
 import java.io.FileInputStream;  
 import java.io.InputStreamReader;  
 import java.nio.charset.Charset;  
   
 /** 
  * 汉字本地字典。 <br/> 
  * 本地字典数据来自于<a href=http://www.zdic.net/search/?c=2>汉典</a> 
  * 实现了一下常用的需求，例如返回拼音，五笔，拼音首字母，笔画数目，笔画顺序。 
  *  
  * @author siqi 
  *  
  */  
 public class Dic {  
   
     /** 
      * 设置是否输出调试信息 
      */  
     private static boolean DEBUG = true;  
   
     /** 
      * 默认编码 
      */  
     public static final Charset DEFAULT_CHARSET = Charset.forName("UTF-8");  
   
     /** 
      * 汉字Unicode最小编码 
      */  
     public static final int CN_U16_CODE_MIN = 0x4e00;  
   
     /** 
      * 汉字Unicode最大编码 
      */  
     public static final int CN_U16_CODE_MAX = 0x9fa5;  
   
     /** 
      * 本地字典文件名 
      */  
     public static final String DIC_FILENAME = "dic.txt";  
   
     /** 
      * 字典数据 
      */  
     public static byte[] bytes = new byte[0];  
       
     /** 
      * 字典汉字数目 
      */  
     public static int count = 0;  
   
     /** 
      * 汉字unicode值在一条汉字信息的位置<br/> 
      * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá" 
      */  
     public static int INDEX_UNICODE = 0;  
     /** 
      * 汉字在一条汉字信息的位置<br/> 
      * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá" 
      */  
     public static int INDEX_CHARACTER = 1;  
     /** 
      * 汉字部首在一条汉字信息的位置<br/> 
      * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá" 
      */  
     public static int INDEX_BUSHOU = 2;  
     /** 
      * 汉字笔画在一条汉字信息的位置<br/> 
      * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá" 
      */  
     public static int INDEX_BIHUA = 3;  
     /** 
      * 汉字笔画顺序在一条汉字信息的位置<br/> 
      * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá" 
      */  
     public static int INDEX_BISHUN = 4;  
     /** 
      * 汉字五笔在一条汉字信息的位置<br/> 
      * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá" 
      */  
     public static int INDEX_WUBI = 5;  
     /** 
      * 汉字郑码在一条汉字信息的位置<br/> 
      * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá" 
      */  
     public static int INDEX_ZHENGMA = 6;  
     /** 
      * 第一个汉字拼音（英文字母）在一条汉字信息的位置<br/> 
      * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá" 
      */  
     public static int INDEX_PINYIN_EN = 7;  
     /** 
      * 第一个汉字拼音（中文字母）在一条汉字信息的位置<br/> 
      * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá" 
      */  
     public static int INDEX_PINYIN_CN = 8;  
   
     /** 
      * 装载字典 
      */  
     static {  
         long time = System.currentTimeMillis();  
           
         try {  
             LoadDictionary();  
             count = count();  
             if (DEBUG) {  
                 System.out.println("成功载入字典" + new File(DIC_FILENAME).getCanonicalPath() + " ，用时："  
                         + (System.currentTimeMillis() - time) + "毫秒，载入字符数"+count);  
             }  
         } catch (Exception e) {  
             try {  
                 System.out.println("载入字典失败" + new File(DIC_FILENAME).getCanonicalPath()+"\r\n");  
             } catch (Exception e1) {  
             }  
             e.printStackTrace();  
         }  
   
     }  
   
     /** 
      * 获取汉字unicode值 
      *  
      * @param ch 
      *            汉字 
      * @return 返回汉字的unicode值 
      * @throws Exception 
      */  
     public static String GetUnicode(Character ch) throws Exception {  
         return GetCharInfo(ch, INDEX_UNICODE);  
     }  
   
     /** 
      * 获取拼音（英文字母） 
      *  
      * @param ch 
      *            单个汉字字符 
      * @return 返回汉字的英文字母拼音。如 "大"->"da4"。 
      * @throws Exception 
      */  
     public static String GetPinyinEn(Character ch) throws Exception {  
         return GetCharInfo(ch, INDEX_PINYIN_EN);  
     }  
   
     /** 
      * 返回汉字字符串的拼音（英文字母） 
      *  
      * @param str 
      *            汉字字符串 
      * @return 返回汉字字符串的拼音。将字符串中的汉字替换成拼音，其他字符不变。拼音中间会有空格。 注意，对于多音字，返回的拼音可能不正确。 
      * @throws Exception 
      */  
     public static String GetPinyinEn(String str) throws Exception {  
         StringBuffer sb = new StringBuffer();  
         for (int i = 0; i < str.length(); i++) {  
             char ch = str.charAt(i);  
             if (isChineseChar(ch)) {  
                 sb.append(GetPinyinEn(ch) + " ");  
             } else {  
                 sb.append(ch);  
             }  
         }  
   
         return sb.toString().trim();  
     }  
   
     /** 
      * 获取拼音（中文字母） 
      *  
      * @param ch 
      *            单个汉字字符 
      * @return 返回汉字的中文字母拼音。如 "打"->"dǎ"。 
      * @throws Exception 
      */  
     public static String GetPinyinCn(Character ch) throws Exception {  
         return GetCharInfo(ch, INDEX_PINYIN_CN);  
     }  
   
     /** 
      * 返回汉字字符串的拼音（中文字母） 
      *  
      * @param str 
      *            汉字字符串 
      * @return 返回汉字字符串的拼音。将字符串中的汉字替换成拼音，其他字符不变。拼音中间会有空格。 注意，对于多音字，返回的拼音可能不正确。 
      * @throws Exception 
      */  
     public static String GetPinyinCn(String str) throws Exception {  
         StringBuffer sb = new StringBuffer();  
         for (int i = 0; i < str.length(); i++) {  
             char ch = str.charAt(i);  
             if (isChineseChar(ch)) {  
                 sb.append(GetPinyinCn(ch) + " ");  
             } else {  
                 sb.append(ch);  
             }  
         }  
   
         return sb.toString().trim();  
     }  
   
     /** 
      * 返回拼音首字母 
      *  
      * @param ch 
      * @return 
      * @throws Exception 
      */  
     public static String GetFirstLetter(Character ch) throws Exception {  
         if (isChineseChar(ch)) {  
             return GetPinyinEn(ch).substring(0, 1);  
         } else {  
             return "";  
         }  
     }  
   
     /** 
      * 返回汉字字符串拼音首字母，如果不是汉字，会被忽略掉。 
      *  
      * @param str 
      *            汉字字符串 
      * @return 
      * @throws Exception 
      */  
     public static String GetFirstLetter(String str) throws Exception {  
         StringBuffer sb = new StringBuffer();  
         for (int i = 0; i < str.length(); i++) {  
             char ch = str.charAt(i);  
             if (isChineseChar(ch)) {  
                 sb.append(GetFirstLetter(ch));  
             }  
         }  
   
         return sb.toString().trim();  
     }  
   
     /** 
      * 获取汉字部首 
      *  
      * @param ch 
      *            汉字 
      * @return 返回汉字的部首 
      * @throws Exception 
      */  
     public static String GetBushou(Character ch) throws Exception {  
         return GetCharInfo(ch, INDEX_BUSHOU);  
     }  
   
     /** 
      * 获取汉字笔画数目 
      *  
      * @param ch 
      *            汉字 
      * @return 返回汉字的笔画数目 
      * @throws Exception 
      */  
     public static String GetBihua(Character ch) throws Exception {  
         return GetCharInfo(ch, INDEX_BIHUA);  
     }  
   
     /** 
      * 获取汉字笔画顺序 
      *  
      * @param ch 
      *            汉字 
      * @return 返回汉字的笔画顺序 
      * @throws Exception 
      */  
     public static String GetBishun(Character ch) throws Exception {  
         return GetCharInfo(ch, INDEX_BISHUN);  
     }  
   
     /** 
      * 获取汉字五笔 
      *  
      * @param ch 
      *            汉字 
      * @return 返回汉字五笔 
      * @throws Exception 
      */  
     public static String GetWubi(Character ch) throws Exception {  
         return GetCharInfo(ch, INDEX_WUBI);  
     }  
   
     /** 
      * 获取汉字郑码 
      *  
      * @param ch 
      *            汉字 
      * @return 返回汉字郑码 
      * @throws Exception 
      */  
     public static String GetZhengma(Character ch) throws Exception {  
         return GetCharInfo(ch, INDEX_ZHENGMA);  
     }  
   
     /** 
      * 从字典中获取汉字信息 
      *  
      * @param ch 
      *            要查询的汉字 
      * @return 返回汉字信息，如"25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá" <br/> 
      *         第一是汉字unicode值<br/> 
      *         第二是汉字<br/> 
      *         第三是汉字部首<br/> 
      *         第四是汉字笔画<br/> 
      *         第五是汉字笔画顺序("12345"分别代表"横竖撇捺折")<br/> 
      *         第六是汉字五笔<br/> 
      *         第七是汉字郑码<br/> 
      *         第八及以后是汉字的拼音（英文字母拼音和中文字母拼音）<br/> 
      * @throws Exception 
      */  
     public static String GetCharInfo(Character ch) throws Exception {  
         if (!isChineseChar(ch)) {  
             throw new Exception("'" + ch + "' 不是一个汉字！");  
         }  
   
         String result = "";  
   
         ByteArrayInputStream bais = new ByteArrayInputStream(bytes);  
         BufferedReader br = new BufferedReader(new InputStreamReader(bais));  
   
         String strWord;  
         while ((strWord = br.readLine()) != null) {  
             if (strWord.startsWith(String.valueOf(ch.hashCode()))) {  
                 result = strWord;  
                 break;  
             }  
         }  
         br.close();  
         bais.close();  
   
         return result;  
     }  
   
     /** 
      * 返回汉字信息 
      *  
      * @param ch 
      *            汉字 
      * @param index 
      *            信息所在的Index 
      * @return 
      * @throws Exception 
      */  
     private static String GetCharInfo(Character ch, int index) throws Exception {  
         if (!isChineseChar(ch)) {  
             throw new Exception("'" + ch + "' 不是一个汉字！");  
         }  
   
         // 获取汉字信息  
         String charInfo = GetCharInfo(ch);  
   
         String result = "";  
         try {  
             result = charInfo.split(",")[index];  
         } catch (Exception e) {  
             throw new Exception("请查看字典中" + ch + "汉字记录是否正确！");  
         }  
   
         return result;  
     }  
   
     /** 
      * 载入字典文件到内存。 
      * @throws Exception  
      */  
     private static void LoadDictionary() throws Exception {  
         File file = new File(DIC_FILENAME);  
         bytes = new byte[(int) file.length()];  
         FileInputStream fis = new FileInputStream(file);  
         fis.read(bytes, 0, bytes.length);  
         fis.close();  
     }  
   
     /** 
      * 判断字符是否为汉字，在测试的时候，我发现汉字的字符的hashcode值 跟汉字Unicode 
      * 16的值一样，所以可以用hashcode来判断是否为汉字。 
      *  
      * @param ch 
      *            汉字 
      * @return 是汉字返回true，否则返回false。 
      */  
     public static boolean isChineseChar(Character ch) {  
         if (ch.hashCode() >= CN_U16_CODE_MIN  
                 && ch.hashCode() <= CN_U16_CODE_MAX) {  
             return true;  
         } else {  
             return false;  
         }  
     }  
   
     /** 
      *  
      * @return 返回字典包含的汉字数目。 
      * @throws Exception 
      */  
     private static int count() throws Exception {  
         int cnt = 0;  
         ByteArrayInputStream bais = new ByteArrayInputStream(bytes);  
         BufferedReader br = new BufferedReader(new InputStreamReader(bais));  
   
         while (br.readLine() != null) {  
             cnt++;  
         }  
         br.close();  
         bais.close();  
   
         return cnt;  
     }  
 }  

3.Sample.java

如何使用字典

[java]  view plain 
     copy 
    
 package com.siqi.dict;  
   
 /** 
  * 包含两个实例，示例如何获取汉字的拼音等信息。 
  * @author siqi 
  * 
  */  
 public class Sample {  
   
     /** 
      * 字典使用实例 
      *  
      * @param args 
      */  
     public static void main(String[] args) {  
         try {  
             long time = System.currentTimeMillis();  
   
             char ch = '打';  
             //汉字单个字符  
             System.out.println("====打字信息开始====");  
             System.out.println("首字母："+Dic.GetFirstLetter(ch));  
             System.out.println("拼音（中）："+Dic.GetPinyinCn(ch));  
             System.out.println("拼音（英）："+Dic.GetPinyinEn(ch));  
             System.out.println("部首："+Dic.GetBushou(ch));  
             System.out.println("笔画数目："+Dic.GetBihua(ch));  
             System.out.println("笔画："+Dic.GetBishun(ch));  
             System.out.println("五笔："+Dic.GetWubi(ch));  
             System.out.println("====打字信息结束====");  
               
             //汉字字符串  
             System.out.println("\r\n====汉字字符串====");  
             System.out.println(Dic.GetPinyinEn("返回汉字字符串的拼音。"));  
             System.out.println(Dic.GetPinyinCn("返回汉字字符串的拼音。"));  
             System.out.println(Dic.GetFirstLetter("返回汉字字符串的拼音。"));  
             System.out.println("====汉字字符串====\r\n");  
               
             System.out.println("用时："+(System.currentTimeMillis()-time)+"毫秒");  
               
         } catch (Exception e) {  
             e.printStackTrace();  
         }  
   
     }  
 }  

4.结果

[html]  view plain 
     copy 
    
 ====打字信息开始====  
 成功载入字典C:\workspaces\01_java\DictLocal\dic.txt ，用时：15毫秒，载入字符数20902  
 首字母：d  
 拼音（中）：dǎ  
 拼音（英）：da3  
 部首：扌  
 笔画数目：5  
 笔画：12112  
 五笔：RSH  
 ====打字信息结束====  
   
 ====汉字字符串====  
 fan3 hui2 han4 zi4 zi4 fu2 chuan4 di2 pin1 yin1 。  
 fǎn huí hàn zì zì fú chuàn dí pīn yīn 。  
 fhhzzfcdpy  
 ====汉字字符串====  
   
 Memory(Used/Total) : 1539/15872 KB  
 用时：218毫秒  

待会再上传如何获取字典文件的，我是通过收集http://www.zdic.net/zd/的网页来获取的

=============补充，如何获取汉字的信息================

=============所有的信息都是从汉典网站上获取的=========

目录结构为：

环境：eclipsse, jdk1.6, 没有使用第三方的包，都是JDK有的。

注意，项目源文件我都使用的是UTF-8的编码格式，如果不是，代码里面的汉字注释会显示乱码。

设置UTF-8：windows->Preferences->General->Workspace 页面上Text file encoding，选择Other UTF-8

包说明：

com.siqi.http

Httpclient.Java是我写的一个简单的获取网页的类，用来获取网页内容；

com.siqi.dict

DictMain.java用来下载汉字网页，从中获取汉字的拼音信息，并保存到data.dat中

DownloadThread.java用来下载网页（多线程）

com.siqi.pinyin

PinYin.java在执行过DictMain.java后，会生成一个data.dat，把这个文件拷贝到com.siqi.pinyin包下面，就可以调用PinYin.java里面的函数得到汉字的拼音了

PinYinEle.java一个汉字->拼音->Unicode的模型

源码：

Httpclient.java 可以用来获取网页，可以的到网页内容，网页编码和网页的header，简版

[java]  view plain 
     copy 
    
 package com.siqi.http;  
   
 import java.io.IOException;  
 import java.io.InputStream;  
 import java.net.Socket;  
 import java.net.URLEncoder;  
 import java.util.regex.Matcher;  
 import java.util.regex.Pattern;  
   
 /** 
  * 使用SOCKET实现简单的网页GET和POST 
  *  
  * @author siqi 
  *  
  */  
 public class Httpclient {  
   
     /** 
      * processUrl 参数 HTTP GET 
      */  
     public static final int METHOD_GET = 0;  
     /** 
      * processUrl 参数 HTTP POST 
      */  
     public static final int METHOD_POST = 1;  
     /** 
      * HTTP GET的报头，简化版 
      */  
     public static final String HEADER_GET = "GET %s HTTP/1.0\r\nHOST: %s\r\n\r\n";  
     /** 
      * HTTP POST的报头，简化版 
      */  
     public static final String HEADER_POST = "POST %s HTTP/1.0\r\nHOST: %s\r\nContent-Length: 0\r\n\r\n";  
     /** 
      * 网页报头和内容的分割符 
      */  
     public static final String CONTENT_SEPARATOR = "\r\n\r\n";  
     /** 
      * 网页请求响应内容byte 
      */  
     private byte[] bytes = new byte[0];  
     /** 
      * 网页报头 
      */  
     private String header = "";  
     /** 
      * 网页内容 
      */  
     private String content = "";  
   
     /** 
      * 网页编码，默认为UTF-8 
      */  
     public static final String CHARSET_DEFAULT = "UTF-8";  
     /** 
      * 网页编码 
      */  
     private String charset = CHARSET_DEFAULT;  
   
     /** 
      * 使用Httpclient的例子 
      *  
      * @param args 
      * @throws Exception 
      */  
     public static void main(String[] args) throws Exception {  
         Httpclient httpclient = new Httpclient();  
         // 请求百度首页（手机版）  
         httpclient.processUrl("http://m.baidu.com/");  
         System.out.println("获取网页http://m.baidu.com/");  
         System.out.println("报头为：\r\n" + httpclient.getHeader());  
         System.out.println("内容为：\r\n" + httpclient.getContent());  
         System.out.println("编码为：\r\n" + httpclient.getCharset());  
         System.out.println("************************************");  
   
         // 使用百度搜索"中国"（手机版）  
         // 这是手机百度搜索框的源码 <input id="word" type="text" size="20" maxlength="64"  
         // name="word">  
         String url = String.format("http://m.baidu.com/s?word=%s",  
                 URLEncoder.encode("中国", CHARSET_DEFAULT));  
         httpclient.processUrl(url, METHOD_POST);  
         System.out.println("获取网页http://m.baidu.com/s?word=中国");  
         System.out.println("报头为：\r\n" + httpclient.getHeader());  
         System.out.println("内容为：\r\n" + httpclient.getContent());  
         System.out.println("编码为：\r\n" + httpclient.getCharset());  
     }  
   
     /** 
      * 初始化，设置所有变量为默认值 
      */  
     private void init() {  
         this.bytes = new byte[0];  
         this.charset = CHARSET_DEFAULT;  
         this.header = "";  
         this.content = "";  
   
     }  
   
     /** 
      * 获取网页报头header 
      *  
      * @return 
      */  
     public String getHeader() {  
         return header;  
     }  
   
     /** 
      * 获取网页内容content 
      *  
      * @return 
      */  
     public String getContent() {  
         return content;  
     }  
   
     /** 
      * 获取网页编码 
      *  
      * @return 
      */  
     public String getCharset() {  
         return charset;  
     }  
   
     /** 
      * 请求网页内容（使用HTTP GET） 
      *  
      * @param url 
      * @throws Exception 
      */  
     public void processUrl(String url) throws Exception {  
         processUrl(url, METHOD_GET);  
     }  
   
     /** 
      * 使用Socket请求（获取）一个网页。<br/> 
      * 例如:<br/> 
      * processUrl("http://www.baidu.com/", METHOD_GET)会获取百度首页；<br/> 
      *  
      * @param url 
      *            这个网页或者网页内容的地址 
      * @param method 
      *            请求网页的方法: METHOD_GET或者METHOD_POST 
      * @throws Exception 
      */  
     public void processUrl(String url, int method) throws Exception {  
   
         init();  
   
         // url = "http://www.zdic.net/search/?c=2&q=%E5%A4%A7";  
         // 规范化链接，当网址为http://www.baidu.com时，将网址变为：http://www.baidu.com/  
         Matcher mat = Pattern.compile("https?://[^/]+").matcher(url);  
         if (mat.find() && mat.group().equals(url)) {  
             url += "/";  
         }  
   
         Socket socket = new Socket(getHostUrl(url), 80); // 设置要连接的服务器地址  
         socket.setSoTimeout(3000); // 设置超时时间为3秒  
   
         String request = null;  
         // 构造请求，详情请参考HTTP协议(RFC2616)  
         if (method == METHOD_POST) {  
             request = String.format(HEADER_POST, getSubUrl(url),  
                     getHostUrl(url));  
         } else {  
             request = String  
                     .format(HEADER_GET, getSubUrl(url), getHostUrl(url));  
         }  
   
         socket.getOutputStream().write(request.getBytes());// 发送请求  
   
         this.bytes = InputStream2ByteArray(socket.getInputStream());// 读取响应  
   
         // 获取网页编码，我们只需要测试查找前4096个字节，一般编码信息都会在里面找到  
         String temp = new String(this.bytes, 0,  
                 bytes.length < 4096 ? bytes.length : 4096);  
         mat = Pattern.compile("(?<=<meta.{0,100}?charset=)[a-z-0-9]*",  
                 Pattern.CASE_INSENSITIVE).matcher(temp);  
         if (mat.find()) {  
             this.charset = mat.group();  
         } else {  
             this.charset = CHARSET_DEFAULT;  
         }  
   
         // 用正确的编码得到网页报头和内容  
         temp = new String(this.bytes, this.charset);  
         int headerEnd = temp.indexOf(CONTENT_SEPARATOR);  
         this.header = temp.substring(0, headerEnd);  
         this.content = temp.substring(headerEnd + CONTENT_SEPARATOR.length(),  
                 temp.length());  
   
         socket.close(); // 关闭socket  
     }  
   
     /** 
      * 根据网址，获取服务器地址<br/> 
      * 例如：<br/> 
      * http://m.weathercn.com/common/province.jsp 
      * <p> 
      * 返回：<br/> 
      * m.weathercn.com 
      *  
      * @param url 
      *            网址 
      * @return 
      */  
     public static String getHostUrl(String url) {  
         String host = "";  
         Matcher mat = Pattern.compile("(?<=https?://).+?(?=/)").matcher(url);  
         if (mat.find()) {  
             host = mat.group();  
         }  
   
         return host;  
     }  
   
     /** 
      * 根据网址，获取网页路径 例如：<br/> 
      * http://m.weathercn.com/common/province.jsp 
      * <p> 
      * 返回：<br/> 
      * /common/province.jsp 
      *  
      * @param url 
      * @return 如果没有获取到网页路径，返回""; 
      */  
     public static String getSubUrl(String url) {  
         String subUrl = "";  
         Matcher mat = Pattern.compile("https?://.+?(?=/)").matcher(url);  
         if (mat.find()) {  
             subUrl = url.substring(mat.group().length());  
         }  
   
         return subUrl;  
     }  
   
     /** 
      * 将b1和b2两个byte数组拼接成一个, 结果=b1+b2 
      *  
      * @param b1 
      * @param b2 
      * @return 
      */  
     public static byte[] ByteArrayCat(byte[] b1, byte[] b2) {  
         byte[] b = new byte[b1.length + b2.length];  
         System.arraycopy(b1, 0, b, 0, b1.length);  
         System.arraycopy(b2, 0, b, b1.length, b2.length);  
         return b;  
     }  
   
     /** 
      * 读取输入流并转为byte数组，不返回字符串， 是因为输入流的编码不确定，错误的编码会造成乱码。 
      *  
      * @param is 
      *            输入流inputstream 
      * @return 字符串 
      * @throws IOException 
      */  
     public static byte[] InputStream2ByteArray(InputStream is)  
             throws IOException {  
         byte[] b = new byte[0];  
         byte[] bb = new byte[4096]; // 缓冲区  
   
         int len = 0;  
         while ((len = is.read(bb)) != -1) {  
             byte[] newb = new byte[b.length + len];  
             System.arraycopy(b, 0, newb, 0, b.length);  
             System.arraycopy(bb, 0, newb, b.length, len);  
             b = newb;  
         }  
   
         return b;  
     }  
 }  

DictMain.java

[java]  view plain 
     copy 
    
 package com.siqi.dict;  
   
 import java.io.File;  
 import java.io.FileReader;  
 import java.io.FileWriter;  
 import java.io.IOException;  
 import java.util.regex.Matcher;  
 import java.util.regex.Pattern;  
   
 /** 
  * 从汉典下载汉字网页，并提取拼音信息 
  * @author siqi 
  * 
  */  
 public class DictMain {  
     /** 
      * 网页保存路径 
      */  
     public static final String SAVEPATH = "dict/pages/";  
     /** 
      * 下载的汉字网页名称 
      */  
     public static final String FILEPATH = SAVEPATH + "%s.html";  
       
     /** 
      * 字典数据文件名称 
      */  
     public static final String DATA_FILENAME = "data.txt";  
       
     /** 
      * 汉字unicode最小 
      */  
     public static final int UNICODE_MIN = 0x4E00;  
       
     /** 
      * 汉字unicode最大 
      */  
     public static final int UNICODE_MAX = 0x9FFF;  
       
     /** 
      * 准备工作: 
      * 1.从汉典网站下载所有汉字的页面，注意，不要在eclipse中打开保存页面的文件夹， 
      * 因为每个汉字一个页面，总共有20000+个页面，容易卡死eclipse 
      * 2.从汉字页面获取汉字拼音信息，生成data.dat文件 
      * 3.生成的data.dat复制到com.siqi.pinyin下面 
      * 4.可以使用com.siqi.pinyin.PinYin.java了 
      */  
     static{  
         // 下载网页  
         for (int i = UNICODE_MIN; i <= UNICODE_MAX; i++) {  
             // 检查是否已经存在  
             String filePath = String.format(FILEPATH, i); // 文件名  
             File file = new File(filePath);  
             if (!file.exists()) {  
                 new DownloadThread(i).start();  
             }  
         }  
           
         //解析网页，得到拼音信息，并保存到data.dat  
         StringBuffer sb = new StringBuffer();  
         for (int i = UNICODE_MIN; i <= UNICODE_MAX; i++) {  
             String word = new String(Character.toChars(i));  
             String pinyin = getPinYinFromWebpageFile(String.format(FILEPATH, i));  
             String str = String.format("%s,%s,%s\r\n", i,word,pinyin);  
             System.out.print(str);  
             sb.append(str);  
         }  
           
         //保存到data.dat  
         try {  
             FileWriter fw = new FileWriter(DATA_FILENAME);  
             fw.write(sb.toString());  
             fw.close();  
         } catch (IOException e) {  
             e.printStackTrace();  
         }  
           
     }  
       
     public static void main(String[] args){  
           
         System.out.println("All prepared!");  
     }  
       
     /** 
      * 从网页文件获取拼音信息 
      * @param file 
      * @return 
      */  
     private static String getPinYinFromWebpageFile(String file) {  
         try {  
               
             char[] buff = new char[(int) new File(file).length()];  
               
             FileReader reader = new FileReader(file);  
             reader.read(buff);  
             reader.close();  
               
             String content = new String(buff);  
             // spf("yi1")  
             Matcher mat = Pattern.compile("(?<=spf\\(\")[a-z1-4]{0,100}",  
                     Pattern.CASE_INSENSITIVE).matcher(content);  
             if (mat.find()) {  
                 return mat.group();  
             }  
             //<span class="dicpy">cal</span> spf("xin1")  
             mat = Pattern.compile("(?<=class=\"dicpy\">)[a-z1-4]{0,100}",  
                     Pattern.CASE_INSENSITIVE).matcher(content);  
             if (mat.find()) {  
                 return mat.group();  
             }  
         } catch (Exception e) {  
             e.printStackTrace();  
         }  
           
         return "";  
   
     }  
 }  

DownloadThread.java

[java]  view plain 
     copy 
    
 package com.siqi.dict;  
   
 import java.io.File;  
 import java.io.FileWriter;  
 import java.net.URLEncoder;  
 import java.util.regex.Matcher;  
 import java.util.regex.Pattern;  
   
 import com.siqi.http.Httpclient;  
   
 /** 
  * 将汉字页面从汉典网站下载下来，存储到本地 
  * http://www.zdic.net/search/?c=2 
  * @author siqi 
  * 
  */  
 public class DownloadThread extends Thread{  
       
     /** 
      * 线程最大数目 
      */  
     public static int THREAD_MAX = 10;  
       
     /** 
      * 下载最大重复次数 
      */  
     public static int RETRY_MAX = 5;  
       
     /** 
      * 汉典网站搜索网址 
      */  
     public static String SEARCH_URL = "http://www.zdic.net/search/?q=%s";  
       
     /** 
      * 当前线程数目 
      */  
     private static int threadCnt = 0;  
       
     /** 
      * 当前线程处理汉字的unicode编码 
      */  
     private int unicode = 0;  
       
     /** 
      * 如果PATH文件夹不存在，那么创建它 
      */  
     static{  
         try {  
             File file = new File(DictMain.SAVEPATH);  
             if (!file.exists()) {  
                 file.mkdirs();  
             }  
         } catch (Exception e) {  
   
         }  
     }  
       
     /** 
      * 返回当前线程数量 
      * @param i 修改当前线程数量 threadCnt += i; 
      * @return 返回修改后线程数量 
      */  
     public static synchronized int threadCnt(int i){  
         threadCnt += i;  
         return threadCnt;  
     }  
       
     /** 
      * 下载UNICODE编码为unicode的汉字网页 
      * @param unicode 
      */  
     public DownloadThread(int unicode){  
         //等待，直到当前线程数量小于THREAD_MAX  
         while(threadCnt(0)>THREAD_MAX){  
             try {  
                 Thread.sleep(500);  
             } catch (InterruptedException e) {  
             }  
         }  
           
         threadCnt(1);   //线程数量+1  
         this.unicode = unicode;  
     }  
   
     @Override  
     public void run() {  
         long t1 = System.currentTimeMillis(); // 记录时间  
   
         String filePath = String.format(DictMain.FILEPATH, unicode); // 文件名  
   
         String word = new String(Character.toChars(unicode)); // 将unicode转换为数字  
   
         boolean downloaded = false;  
         int retryCnt = 0; // 下载失败重复次数  
         while (!downloaded && retryCnt < RETRY_MAX) {  
             try {  
                 String content = DownloadPage(word);  
                 SaveToFile(filePath, content);  
                 downloaded = true;  
   
                 threadCnt(-1);  
                 System.out.println(String.format("%s, %s, 下载成功！线程数目：%s 用时：%s",  
                         unicode, word, threadCnt(0), System.currentTimeMillis()  
                                 - t1));  
                 return;  
             } catch (Exception e) {  
                 retryCnt++;  
             }  
         }  
   
         threadCnt(-1);  
         System.err.println(String.format("%s, %s, 下载失败！线程数目：%s 用时：%s", unicode,  
                 word, threadCnt(0), System.currentTimeMillis() - t1));  
     }  
       
     /** 
      * 在汉典网站上查找汉字，返回汉字字典页面内容 
      * @param word 
      * @return 
      * @throws Exception 
      */  
     public String DownloadPage(String word) throws Exception{  
         //查找word  
         Httpclient httpclient = new Httpclient();  
         String url = String.format(SEARCH_URL, URLEncoder.encode(word, "UTF-8"));  
         httpclient.processUrl(url, Httpclient.METHOD_POST);  
           
         //返回的是一个跳转页  
         //获取跳转的链接  
         Matcher mat = Pattern.compile("(?<=HREF=\")[^\"]+").matcher(httpclient.getContent());  
         if(mat.find()){  
             httpclient.processUrl(mat.group());  
         }  
           
         return httpclient.getContent();  
     }  
       
     /** 
      * 将内容content写入file文件 
      * @param file 
      * @param content 
      */  
     public void SaveToFile(String file, String content){  
         try {  
             FileWriter fw = new FileWriter(file);  
             fw.write(content);  
             fw.close();  
         } catch (Exception e) {  
             e.printStackTrace();  
         }  
     }  
 }  

PinYin.java

[java]  view plain 
     copy 
    
 package com.siqi.pinyin;  
   
 import java.io.BufferedReader;  
 import java.io.InputStreamReader;  
 import java.util.HashMap;  
 import java.util.Map;  
   
 public class PinYin {  
   
     private static Map<Integer, PinYinEle> map = new HashMap<Integer, PinYinEle>();  
   
     /** 
      * 载入pinyin数据文件 
      */  
     static {  
         try {  
             BufferedReader bReader = new BufferedReader(new InputStreamReader(  
                     PinYin.class.getResourceAsStream("data.dat")));  
             String aLine = null;  
             while ((aLine = bReader.readLine()) != null) {  
                 PinYinEle ele = new PinYinEle(aLine);  
                 map.put(ele.getUnicode(), ele);  
             }  
             bReader.close();  
         } catch (Exception e) {  
             e.printStackTrace();  
         }  
     }  
   
     /** 
      * 去掉注释可以测试一下 
      *  
      * @param args 
      */  
     public static void main(String[] args) {  
         System.out.println("　包含声调：" + PinYin.getPinYin("大家haome12345"));  
         System.out.println("不包含声调：" + PinYin.getPinYin("大家haome12345", false));  
     }  
   
     /** 
      * 获取汉字字符串的拼音，containsNumber是否获取拼音中的声调1、2、3、4 
      *  
      * @param str 
      * @param containsNumber 
      *            true = 包含声调，false = 不包含声调 
      * @return 
      */  
     public static String getPinYin(String str, boolean containsNumber) {  
         StringBuffer sb = new StringBuffer();  
         for (Character ch : str.toCharArray()) {  
             sb.append(getPinYin(ch, containsNumber));  
         }  
   
         return sb.toString();  
     }  
   
     /** 
      * 获取字符串的拼音 
      *  
      * @param str 
      * @return 
      */  
     public static String getPinYin(String str) {  
         StringBuffer sb = new StringBuffer();  
         for (Character ch : str.toCharArray()) {  
             sb.append(getPinYin(ch));  
         }  
   
         return sb.toString();  
     }  
   
     /** 
      * 获取单个汉字的拼音，包含声调 
      *  
      * @param ch 
      * @return 
      */  
     public static String getPinYin(Character ch) {  
         return getPinYin(ch, true);  
     }  
   
     /** 
      * 获取单个汉字的拼音 
      *  
      * @param ch 
      *            汉字. 如果输入非汉字，返回ch. 如果输入null，返回空字符串； 
      * @param containsNumber 
      *            true = 包含声调，false = 不包含声调 
      * @return 
      */  
     public static String getPinYin(Character ch, boolean containsNumber) {  
         if (ch != null) {  
             int code = ch.hashCode();  
             if (map.containsKey(code)) {  
                 if (containsNumber) {  
                     return map.get(code).getPinyin();  
                 } else {  
                     return map.get(code).getPinyin().replaceAll("[0-9]", "");  
                 }  
             } else {  
                 return ch.toString();  
             }  
         }  
         return "";  
     }  
 }  

PinYinEle.java

[java]  view plain 
     copy 
    
 package com.siqi.pinyin;  
   
 public class PinYinEle {  
     private int unicode;  
     private String ch;  
     private String pinyin;  
       
     public PinYinEle(){}  
       
     public PinYinEle(String str){  
         if(str!=null){  
             String[] strs = str.split(",");  
             if(strs.length == 3){  
                 try{  
                 this.unicode = Integer.parseInt(strs[0]);  
                 }catch(Exception e){  
                       
                 }  
                 this.ch = strs[1];  
                 this.pinyin = strs[2];  
             }  
         }  
           
     }  
       
     public int getUnicode() {  
         return unicode;  
     }  
     public void setUnicode(int unicode) {  
         this.unicode = unicode;  
     }  
     public String getCh() {  
         return ch;  
     }  
     public void setCh(String ch) {  
         this.ch = ch;  
     }  
     public String getPinyin() {  
         return pinyin;  
     }  
     public void setPinyin(String pinyin) {  
         this.pinyin = pinyin;  
     }  
       
       
 }  

生成的data.dat里面内容（部分）为：

[java]  view plain 
     copy 
    
 ﻿19968,一,yi1  
 19969,丁,ding1  
 19970,丂,kao3  
 19971,七,qi1  
 19972,丄,shang4  
 19973,丅,xia4  
 19974,丆,han3  
 19975,万,wan4  
 19976,丈,zhang4  
 19977,三,san1  
 19978,上,shang4  
 19979,下,xia4  
 19980,丌,qi2  
 19981,不,bu4  

运行DictMain.java结果

执行时间可能会有几十分钟到几小时不等，总共会下载200+M的网页（20000+个网页），每次运行都会先判断以前下载过没有，所以结束掉程序不会有影响

显示All prepared!表示已经准备好了，刷新项目文件夹，可以看到网页保持在dict/pages下面，不建议在elipse中打开那个文件夹，因为里面有2万多个文件，会卡死eclipse，

还可以看到生成了data.txt文件，改为data.dat并复制到pinyin文件夹下面

运行PinYin.java

可以看到"大家haome12345"的拼音：

[java]  view plain 
     copy 
    
 包含声调：da4jia1haome12345  
 包含声调：dajiahaome12345  

上面只是显示了如何获取拼音，获取笔画等的方法类似，在这里就不演示了。

你可能感兴趣的:(java,汉字字典)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
2023-08-08 2023梦启支教团张牧泽
学汉字历史，行传统书法——中国矿业大学梦启支教团梦启三班开展书法文化课7月20日上午8时，中国矿业大学梦启支教团在贵州省金沙县西洛街道彩虹小学开展了“书法文化”课程。该课程意在向孩子们传授汉字演变的相关知识，围绕书法发展历史讲解不同时期的字形字体特点。此课程由梦启支教团成员王耀民讲授，梦启三班全体成员参加。中国文字的发展有数千年的历史，从早期雏形的象形文字到殷商时期的甲骨文、金文，再到西周、秦朝的
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1