wssiqi

java 汉字字典，获取汉字拼音，拼音首字母，五笔，笔画，笔画顺序

最新的可以下载的包（原来写的丢失了，重新写了个）：

http://download.csdn.net/detail/wssiqi/6394057

如果地址不可访问，查看我的资源，看还在不。~~~

环境：eclipsse, jdk1.6, 没有使用第三方的包，都是JDK有的。

注意，项目源文件我都使用的是UTF-8的编码格式，如果不是，代码里面的汉字注释会显示乱码。

设置UTF-8：windows->Preferences->General->Workspace 页面上Text file encoding，选择Other UTF-8

项目结构：

1.字典文件

dic.txt 下载地址:http://download.csdn.net/detail/wssiqi/5056993

这里只摘录一部分内容，里面共收录了20902个汉字

19968,一,一,1,1,GGLL,A,yi1,yī
19969,丁,一,2,12,SGH,AI,ding1,dīng,zheng1,zhēng
19970,丂,一,2,15,GNV,AZVV,kao3,kǎo,qiao3,qiǎo,yu2,yú
19971,七,一,2,15,AGN,HD,qi1,qī
19972,丄,一,2,21,HGD,IAVV,shang4,shàng
19973,丅,一,2,12,GHK,AIAA,xia4,xià
19974,丆,一,2,13,DGT,GDAA,han3,hǎn
19975,万,一,3,153,DNV,,wan4,wàn,mo4,mò
19976,丈,一,3,134,DYI,AOS,zhang4,zhàng
19977,三,一,3,111,DGGG,CD,san1,sān
19978,上,一,3,211,HHGG,IDA,shang3,shǎng,shang4,shàng
19979,下,一,3,124,GHI,AID,xia4,xià
19980,丌,一,3,132,GJK,AND,ji1,jī,qi2,qí
19981,不,一,4,1324,GII,GI,fou3,fǒu,bu4,bù
19982,与,一,3,151,GNGD,AZA,yu4,yù,yu3,yǔ,yu2,yú
19983,丏,一,4,1255,GHNN,AIZY,mian3,miǎn
19984,丐,一,4,1215,GHNV,AIZ,gai4,gài
19985,丑,一,4,5211,NFD,XED,chou3,chǒu
19986,丒,一,4,5341,VYGF,YDSA,chou3,chǒu

2.Dic.java

package com.siqi.dict;

import java.io.BufferedReader;
import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.nio.charset.Charset;

/**
 * 汉字本地字典。 <br/>
 * 本地字典数据来自于<a href=http://www.zdic.net/search/?c=2>汉典</a>
 * 实现了一下常用的需求，例如返回拼音，五笔，拼音首字母，笔画数目，笔画顺序。
 * 
 * @author siqi
 * 
 */
public class Dic {

	/**
	 * 设置是否输出调试信息
	 */
	private static boolean DEBUG = true;

	/**
	 * 默认编码
	 */
	public static final Charset DEFAULT_CHARSET = Charset.forName("UTF-8");

	/**
	 * 汉字Unicode最小编码
	 */
	public static final int CN_U16_CODE_MIN = 0x4e00;

	/**
	 * 汉字Unicode最大编码
	 */
	public static final int CN_U16_CODE_MAX = 0x9fa5;

	/**
	 * 本地字典文件名
	 */
	public static final String DIC_FILENAME = "dic.txt";

	/**
	 * 字典数据
	 */
	public static byte[] bytes = new byte[0];
	
	/**
	 * 字典汉字数目
	 */
	public static int count = 0;

	/**
	 * 汉字unicode值在一条汉字信息的位置<br/>
	 * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá"
	 */
	public static int INDEX_UNICODE = 0;
	/**
	 * 汉字在一条汉字信息的位置<br/>
	 * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá"
	 */
	public static int INDEX_CHARACTER = 1;
	/**
	 * 汉字部首在一条汉字信息的位置<br/>
	 * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá"
	 */
	public static int INDEX_BUSHOU = 2;
	/**
	 * 汉字笔画在一条汉字信息的位置<br/>
	 * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá"
	 */
	public static int INDEX_BIHUA = 3;
	/**
	 * 汉字笔画顺序在一条汉字信息的位置<br/>
	 * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá"
	 */
	public static int INDEX_BISHUN = 4;
	/**
	 * 汉字五笔在一条汉字信息的位置<br/>
	 * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá"
	 */
	public static int INDEX_WUBI = 5;
	/**
	 * 汉字郑码在一条汉字信息的位置<br/>
	 * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá"
	 */
	public static int INDEX_ZHENGMA = 6;
	/**
	 * 第一个汉字拼音（英文字母）在一条汉字信息的位置<br/>
	 * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá"
	 */
	public static int INDEX_PINYIN_EN = 7;
	/**
	 * 第一个汉字拼音（中文字母）在一条汉字信息的位置<br/>
	 * 汉字信息，例："25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá"
	 */
	public static int INDEX_PINYIN_CN = 8;

	/**
	 * 装载字典
	 */
	static {
		long time = System.currentTimeMillis();
		
		try {
			LoadDictionary();
			count = count();
			if (DEBUG) {
				System.out.println("成功载入字典" + new File(DIC_FILENAME).getCanonicalPath() + " ，用时："
						+ (System.currentTimeMillis() - time) + "毫秒，载入字符数"+count);
			}
		} catch (Exception e) {
			try {
				System.out.println("载入字典失败" + new File(DIC_FILENAME).getCanonicalPath()+"\r\n");
			} catch (Exception e1) {
			}
			e.printStackTrace();
		}

	}

	/**
	 * 获取汉字unicode值
	 * 
	 * @param ch
	 *            汉字
	 * @return 返回汉字的unicode值
	 * @throws Exception
	 */
	public static String GetUnicode(Character ch) throws Exception {
		return GetCharInfo(ch, INDEX_UNICODE);
	}

	/**
	 * 获取拼音（英文字母）
	 * 
	 * @param ch
	 *            单个汉字字符
	 * @return 返回汉字的英文字母拼音。如 "大"->"da4"。
	 * @throws Exception
	 */
	public static String GetPinyinEn(Character ch) throws Exception {
		return GetCharInfo(ch, INDEX_PINYIN_EN);
	}

	/**
	 * 返回汉字字符串的拼音（英文字母）
	 * 
	 * @param str
	 *            汉字字符串
	 * @return 返回汉字字符串的拼音。将字符串中的汉字替换成拼音，其他字符不变。拼音中间会有空格。 注意，对于多音字，返回的拼音可能不正确。
	 * @throws Exception
	 */
	public static String GetPinyinEn(String str) throws Exception {
		StringBuffer sb = new StringBuffer();
		for (int i = 0; i < str.length(); i++) {
			char ch = str.charAt(i);
			if (isChineseChar(ch)) {
				sb.append(GetPinyinEn(ch) + " ");
			} else {
				sb.append(ch);
			}
		}

		return sb.toString().trim();
	}

	/**
	 * 获取拼音（中文字母）
	 * 
	 * @param ch
	 *            单个汉字字符
	 * @return 返回汉字的中文字母拼音。如 "打"->"dǎ"。
	 * @throws Exception
	 */
	public static String GetPinyinCn(Character ch) throws Exception {
		return GetCharInfo(ch, INDEX_PINYIN_CN);
	}

	/**
	 * 返回汉字字符串的拼音（中文字母）
	 * 
	 * @param str
	 *            汉字字符串
	 * @return 返回汉字字符串的拼音。将字符串中的汉字替换成拼音，其他字符不变。拼音中间会有空格。 注意，对于多音字，返回的拼音可能不正确。
	 * @throws Exception
	 */
	public static String GetPinyinCn(String str) throws Exception {
		StringBuffer sb = new StringBuffer();
		for (int i = 0; i < str.length(); i++) {
			char ch = str.charAt(i);
			if (isChineseChar(ch)) {
				sb.append(GetPinyinCn(ch) + " ");
			} else {
				sb.append(ch);
			}
		}

		return sb.toString().trim();
	}

	/**
	 * 返回拼音首字母
	 * 
	 * @param ch
	 * @return
	 * @throws Exception
	 */
	public static String GetFirstLetter(Character ch) throws Exception {
		if (isChineseChar(ch)) {
			return GetPinyinEn(ch).substring(0, 1);
		} else {
			return "";
		}
	}

	/**
	 * 返回汉字字符串拼音首字母，如果不是汉字，会被忽略掉。
	 * 
	 * @param str
	 *            汉字字符串
	 * @return
	 * @throws Exception
	 */
	public static String GetFirstLetter(String str) throws Exception {
		StringBuffer sb = new StringBuffer();
		for (int i = 0; i < str.length(); i++) {
			char ch = str.charAt(i);
			if (isChineseChar(ch)) {
				sb.append(GetFirstLetter(ch));
			}
		}

		return sb.toString().trim();
	}

	/**
	 * 获取汉字部首
	 * 
	 * @param ch
	 *            汉字
	 * @return 返回汉字的部首
	 * @throws Exception
	 */
	public static String GetBushou(Character ch) throws Exception {
		return GetCharInfo(ch, INDEX_BUSHOU);
	}

	/**
	 * 获取汉字笔画数目
	 * 
	 * @param ch
	 *            汉字
	 * @return 返回汉字的笔画数目
	 * @throws Exception
	 */
	public static String GetBihua(Character ch) throws Exception {
		return GetCharInfo(ch, INDEX_BIHUA);
	}

	/**
	 * 获取汉字笔画顺序
	 * 
	 * @param ch
	 *            汉字
	 * @return 返回汉字的笔画顺序
	 * @throws Exception
	 */
	public static String GetBishun(Character ch) throws Exception {
		return GetCharInfo(ch, INDEX_BISHUN);
	}

	/**
	 * 获取汉字五笔
	 * 
	 * @param ch
	 *            汉字
	 * @return 返回汉字五笔
	 * @throws Exception
	 */
	public static String GetWubi(Character ch) throws Exception {
		return GetCharInfo(ch, INDEX_WUBI);
	}

	/**
	 * 获取汉字郑码
	 * 
	 * @param ch
	 *            汉字
	 * @return 返回汉字郑码
	 * @throws Exception
	 */
	public static String GetZhengma(Character ch) throws Exception {
		return GetCharInfo(ch, INDEX_ZHENGMA);
	}

	/**
	 * 从字典中获取汉字信息
	 * 
	 * @param ch
	 *            要查询的汉字
	 * @return 返回汉字信息，如"25171,打,扌,5,12112,RSH,DAI,da3,dǎ,da2,dá" <br/>
	 *         第一是汉字unicode值<br/>
	 *         第二是汉字<br/>
	 *         第三是汉字部首<br/>
	 *         第四是汉字笔画<br/>
	 *         第五是汉字笔画顺序("12345"分别代表"横竖撇捺折")<br/>
	 *         第六是汉字五笔<br/>
	 *         第七是汉字郑码<br/>
	 *         第八及以后是汉字的拼音（英文字母拼音和中文字母拼音）<br/>
	 * @throws Exception
	 */
	public static String GetCharInfo(Character ch) throws Exception {
		if (!isChineseChar(ch)) {
			throw new Exception("'" + ch + "' 不是一个汉字！");
		}

		String result = "";

		ByteArrayInputStream bais = new ByteArrayInputStream(bytes);
		BufferedReader br = new BufferedReader(new InputStreamReader(bais));

		String strWord;
		while ((strWord = br.readLine()) != null) {
			if (strWord.startsWith(String.valueOf(ch.hashCode()))) {
				result = strWord;
				break;
			}
		}
		br.close();
		bais.close();

		return result;
	}

	/**
	 * 返回汉字信息
	 * 
	 * @param ch
	 *            汉字
	 * @param index
	 *            信息所在的Index
	 * @return
	 * @throws Exception
	 */
	private static String GetCharInfo(Character ch, int index) throws Exception {
		if (!isChineseChar(ch)) {
			throw new Exception("'" + ch + "' 不是一个汉字！");
		}

		// 获取汉字信息
		String charInfo = GetCharInfo(ch);

		String result = "";
		try {
			result = charInfo.split(",")[index];
		} catch (Exception e) {
			throw new Exception("请查看字典中" + ch + "汉字记录是否正确！");
		}

		return result;
	}

	/**
	 * 载入字典文件到内存。
	 * @throws Exception 
	 */
	private static void LoadDictionary() throws Exception {
		File file = new File(DIC_FILENAME);
		bytes = new byte[(int) file.length()];
		FileInputStream fis = new FileInputStream(file);
		fis.read(bytes, 0, bytes.length);
		fis.close();
	}

	/**
	 * 判断字符是否为汉字，在测试的时候，我发现汉字的字符的hashcode值 跟汉字Unicode
	 * 16的值一样，所以可以用hashcode来判断是否为汉字。
	 * 
	 * @param ch
	 *            汉字
	 * @return 是汉字返回true，否则返回false。
	 */
	public static boolean isChineseChar(Character ch) {
		if (ch.hashCode() >= CN_U16_CODE_MIN
				&& ch.hashCode() <= CN_U16_CODE_MAX) {
			return true;
		} else {
			return false;
		}
	}

	/**
	 * 
	 * @return 返回字典包含的汉字数目。
	 * @throws Exception
	 */
	private static int count() throws Exception {
		int cnt = 0;
		ByteArrayInputStream bais = new ByteArrayInputStream(bytes);
		BufferedReader br = new BufferedReader(new InputStreamReader(bais));

		while (br.readLine() != null) {
			cnt++;
		}
		br.close();
		bais.close();

		return cnt;
	}
}

3.Sample.java

如何使用字典

package com.siqi.dict;

/**
 * 包含两个实例，示例如何获取汉字的拼音等信息。
 * @author siqi
 *
 */
public class Sample {

	/**
	 * 字典使用实例
	 * 
	 * @param args
	 */
	public static void main(String[] args) {
		try {
			long time = System.currentTimeMillis();

			char ch = '打';
			//汉字单个字符
			System.out.println("====打字信息开始====");
			System.out.println("首字母："+Dic.GetFirstLetter(ch));
			System.out.println("拼音（中）："+Dic.GetPinyinCn(ch));
			System.out.println("拼音（英）："+Dic.GetPinyinEn(ch));
			System.out.println("部首："+Dic.GetBushou(ch));
			System.out.println("笔画数目："+Dic.GetBihua(ch));
			System.out.println("笔画："+Dic.GetBishun(ch));
			System.out.println("五笔："+Dic.GetWubi(ch));
			System.out.println("====打字信息结束====");
			
			//汉字字符串
			System.out.println("\r\n====汉字字符串====");
			System.out.println(Dic.GetPinyinEn("返回汉字字符串的拼音。"));
			System.out.println(Dic.GetPinyinCn("返回汉字字符串的拼音。"));
			System.out.println(Dic.GetFirstLetter("返回汉字字符串的拼音。"));
			System.out.println("====汉字字符串====\r\n");
			
			System.out.println("用时："+(System.currentTimeMillis()-time)+"毫秒");
			
		} catch (Exception e) {
			e.printStackTrace();
		}

	}
}

4.结果

====打字信息开始====
成功载入字典C:\workspaces\01_java\DictLocal\dic.txt ，用时：15毫秒，载入字符数20902
首字母：d
拼音（中）：dǎ
拼音（英）：da3
部首：扌
笔画数目：5
笔画：12112
五笔：RSH
====打字信息结束====

====汉字字符串====
fan3 hui2 han4 zi4 zi4 fu2 chuan4 di2 pin1 yin1 。
fǎn huí hàn zì zì fú chuàn dí pīn yīn 。
fhhzzfcdpy
====汉字字符串====

Memory(Used/Total) : 1539/15872 KB
用时：218毫秒

待会再上传如何获取字典文件的，我是通过收集http://www.zdic.net/zd/的网页来获取的

=============补充，如何获取汉字的信息================

=============所有的信息都是从汉典网站上获取的=========

目录结构为：

环境：eclipsse, jdk1.6, 没有使用第三方的包，都是JDK有的。

注意，项目源文件我都使用的是UTF-8的编码格式，如果不是，代码里面的汉字注释会显示乱码。

设置UTF-8：windows->Preferences->General->Workspace 页面上Text file encoding，选择Other UTF-8

包说明：

com.siqi.http

Httpclient.java是我写的一个简单的获取网页的类，用来获取网页内容；

com.siqi.dict

DictMain.java用来下载汉字网页，从中获取汉字的拼音信息，并保存到data.dat中

DownloadThread.java用来下载网页（多线程）

com.siqi.pinyin

PinYin.java在执行过DictMain.java后，会生成一个data.dat，把这个文件拷贝到com.siqi.pinyin包下面，就可以调用PinYin.java里面的函数得到汉字的拼音了

PinYinEle.java一个汉字->拼音->Unicode的模型

源码：

Httpclient.java 可以用来获取网页，可以的到网页内容，网页编码和网页的header，简版

package com.siqi.http;

import java.io.IOException;
import java.io.InputStream;
import java.net.Socket;
import java.net.URLEncoder;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 使用SOCKET实现简单的网页GET和POST
 * 
 * @author siqi
 * 
 */
public class Httpclient {

	/**
	 * processUrl 参数 HTTP GET
	 */
	public static final int METHOD_GET = 0;
	/**
	 * processUrl 参数 HTTP POST
	 */
	public static final int METHOD_POST = 1;
	/**
	 * HTTP GET的报头，简化版
	 */
	public static final String HEADER_GET = "GET %s HTTP/1.0\r\nHOST: %s\r\n\r\n";
	/**
	 * HTTP POST的报头，简化版
	 */
	public static final String HEADER_POST = "POST %s HTTP/1.0\r\nHOST: %s\r\nContent-Length: 0\r\n\r\n";
	/**
	 * 网页报头和内容的分割符
	 */
	public static final String CONTENT_SEPARATOR = "\r\n\r\n";
	/**
	 * 网页请求响应内容byte
	 */
	private byte[] bytes = new byte[0];
	/**
	 * 网页报头
	 */
	private String header = "";
	/**
	 * 网页内容
	 */
	private String content = "";

	/**
	 * 网页编码，默认为UTF-8
	 */
	public static final String CHARSET_DEFAULT = "UTF-8";
	/**
	 * 网页编码
	 */
	private String charset = CHARSET_DEFAULT;

	/**
	 * 使用Httpclient的例子
	 * 
	 * @param args
	 * @throws Exception
	 */
	public static void main(String[] args) throws Exception {
		Httpclient httpclient = new Httpclient();
		// 请求百度首页（手机版）
		httpclient.processUrl("http://m.baidu.com/");
		System.out.println("获取网页http://m.baidu.com/");
		System.out.println("报头为：\r\n" + httpclient.getHeader());
		System.out.println("内容为：\r\n" + httpclient.getContent());
		System.out.println("编码为：\r\n" + httpclient.getCharset());
		System.out.println("************************************");

		// 使用百度搜索"中国"（手机版）
		// 这是手机百度搜索框的源码 <input id="word" type="text" size="20" maxlength="64"
		// name="word">
		String url = String.format("http://m.baidu.com/s?word=%s",
				URLEncoder.encode("中国", CHARSET_DEFAULT));
		httpclient.processUrl(url, METHOD_POST);
		System.out.println("获取网页http://m.baidu.com/s?word=中国");
		System.out.println("报头为：\r\n" + httpclient.getHeader());
		System.out.println("内容为：\r\n" + httpclient.getContent());
		System.out.println("编码为：\r\n" + httpclient.getCharset());
	}

	/**
	 * 初始化，设置所有变量为默认值
	 */
	private void init() {
		this.bytes = new byte[0];
		this.charset = CHARSET_DEFAULT;
		this.header = "";
		this.content = "";

	}

	/**
	 * 获取网页报头header
	 * 
	 * @return
	 */
	public String getHeader() {
		return header;
	}

	/**
	 * 获取网页内容content
	 * 
	 * @return
	 */
	public String getContent() {
		return content;
	}

	/**
	 * 获取网页编码
	 * 
	 * @return
	 */
	public String getCharset() {
		return charset;
	}

	/**
	 * 请求网页内容（使用HTTP GET）
	 * 
	 * @param url
	 * @throws Exception
	 */
	public void processUrl(String url) throws Exception {
		processUrl(url, METHOD_GET);
	}

	/**
	 * 使用Socket请求（获取）一个网页。<br/>
	 * 例如:<br/>
	 * processUrl("http://www.baidu.com/", METHOD_GET)会获取百度首页；<br/>
	 * 
	 * @param url
	 *            这个网页或者网页内容的地址
	 * @param method
	 *            请求网页的方法: METHOD_GET或者METHOD_POST
	 * @throws Exception
	 */
	public void processUrl(String url, int method) throws Exception {

		init();

		// url = "http://www.zdic.net/search/?c=2&q=%E5%A4%A7";
		// 规范化链接，当网址为http://www.baidu.com时，将网址变为：http://www.baidu.com/
		Matcher mat = Pattern.compile("https?://[^/]+").matcher(url);
		if (mat.find() && mat.group().equals(url)) {
			url += "/";
		}

		Socket socket = new Socket(getHostUrl(url), 80); // 设置要连接的服务器地址
		socket.setSoTimeout(3000); // 设置超时时间为3秒

		String request = null;
		// 构造请求，详情请参考HTTP协议(RFC2616)
		if (method == METHOD_POST) {
			request = String.format(HEADER_POST, getSubUrl(url),
					getHostUrl(url));
		} else {
			request = String
					.format(HEADER_GET, getSubUrl(url), getHostUrl(url));
		}

		socket.getOutputStream().write(request.getBytes());// 发送请求

		this.bytes = InputStream2ByteArray(socket.getInputStream());// 读取响应

		// 获取网页编码，我们只需要测试查找前4096个字节，一般编码信息都会在里面找到
		String temp = new String(this.bytes, 0,
				bytes.length < 4096 ? bytes.length : 4096);
		mat = Pattern.compile("(?<=<meta.{0,100}?charset=)[a-z-0-9]*",
				Pattern.CASE_INSENSITIVE).matcher(temp);
		if (mat.find()) {
			this.charset = mat.group();
		} else {
			this.charset = CHARSET_DEFAULT;
		}

		// 用正确的编码得到网页报头和内容
		temp = new String(this.bytes, this.charset);
		int headerEnd = temp.indexOf(CONTENT_SEPARATOR);
		this.header = temp.substring(0, headerEnd);
		this.content = temp.substring(headerEnd + CONTENT_SEPARATOR.length(),
				temp.length());

		socket.close(); // 关闭socket
	}

	/**
	 * 根据网址，获取服务器地址<br/>
	 * 例如：<br/>
	 * http://m.weathercn.com/common/province.jsp
	 * <p>
	 * 返回：<br/>
	 * m.weathercn.com
	 * 
	 * @param url
	 *            网址
	 * @return
	 */
	public static String getHostUrl(String url) {
		String host = "";
		Matcher mat = Pattern.compile("(?<=https?://).+?(?=/)").matcher(url);
		if (mat.find()) {
			host = mat.group();
		}

		return host;
	}

	/**
	 * 根据网址，获取网页路径 例如：<br/>
	 * http://m.weathercn.com/common/province.jsp
	 * <p>
	 * 返回：<br/>
	 * /common/province.jsp
	 * 
	 * @param url
	 * @return 如果没有获取到网页路径，返回"";
	 */
	public static String getSubUrl(String url) {
		String subUrl = "";
		Matcher mat = Pattern.compile("https?://.+?(?=/)").matcher(url);
		if (mat.find()) {
			subUrl = url.substring(mat.group().length());
		}

		return subUrl;
	}

	/**
	 * 将b1和b2两个byte数组拼接成一个, 结果=b1+b2
	 * 
	 * @param b1
	 * @param b2
	 * @return
	 */
	public static byte[] ByteArrayCat(byte[] b1, byte[] b2) {
		byte[] b = new byte[b1.length + b2.length];
		System.arraycopy(b1, 0, b, 0, b1.length);
		System.arraycopy(b2, 0, b, b1.length, b2.length);
		return b;
	}

	/**
	 * 读取输入流并转为byte数组，不返回字符串， 是因为输入流的编码不确定，错误的编码会造成乱码。
	 * 
	 * @param is
	 *            输入流inputstream
	 * @return 字符串
	 * @throws IOException
	 */
	public static byte[] InputStream2ByteArray(InputStream is)
			throws IOException {
		byte[] b = new byte[0];
		byte[] bb = new byte[4096]; // 缓冲区

		int len = 0;
		while ((len = is.read(bb)) != -1) {
			byte[] newb = new byte[b.length + len];
			System.arraycopy(b, 0, newb, 0, b.length);
			System.arraycopy(bb, 0, newb, b.length, len);
			b = newb;
		}

		return b;
	}
}

DictMain.java

package com.siqi.dict;

import java.io.File;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 从汉典下载汉字网页，并提取拼音信息
 * @author siqi
 *
 */
public class DictMain {
	/**
	 * 网页保存路径
	 */
	public static final String SAVEPATH = "dict/pages/";
	/**
	 * 下载的汉字网页名称
	 */
	public static final String FILEPATH = SAVEPATH + "%s.html";
	
	/**
	 * 字典数据文件名称
	 */
	public static final String DATA_FILENAME = "data.txt";
	
	/**
	 * 汉字unicode最小
	 */
	public static final int UNICODE_MIN = 0x4E00;
	
	/**
	 * 汉字unicode最大
	 */
	public static final int UNICODE_MAX = 0x9FFF;
	
	/**
	 * 准备工作:
	 * 1.从汉典网站下载所有汉字的页面，注意，不要在eclipse中打开保存页面的文件夹，
	 * 因为每个汉字一个页面，总共有20000+个页面，容易卡死eclipse
	 * 2.从汉字页面获取汉字拼音信息，生成data.dat文件
	 * 3.生成的data.dat复制到com.siqi.pinyin下面
	 * 4.可以使用com.siqi.pinyin.PinYin.java了
	 */
	static{
		// 下载网页
		for (int i = UNICODE_MIN; i <= UNICODE_MAX; i++) {
			// 检查是否已经存在
			String filePath = String.format(FILEPATH, i); // 文件名
			File file = new File(filePath);
			if (!file.exists()) {
				new DownloadThread(i).start();
			}
		}
		
		//解析网页，得到拼音信息，并保存到data.dat
		StringBuffer sb = new StringBuffer();
		for (int i = UNICODE_MIN; i <= UNICODE_MAX; i++) {
			String word = new String(Character.toChars(i));
			String pinyin = getPinYinFromWebpageFile(String.format(FILEPATH, i));
			String str = String.format("%s,%s,%s\r\n", i,word,pinyin);
			System.out.print(str);
			sb.append(str);
		}
		
		//保存到data.dat
		try {
			FileWriter fw = new FileWriter(DATA_FILENAME);
			fw.write(sb.toString());
			fw.close();
		} catch (IOException e) {
			e.printStackTrace();
		}
		
	}
	
	public static void main(String[] args){
		
		System.out.println("All prepared!");
	}
	
	/**
	 * 从网页文件获取拼音信息
	 * @param file
	 * @return
	 */
	private static String getPinYinFromWebpageFile(String file) {
		try {
			
			char[] buff = new char[(int) new File(file).length()];
			
			FileReader reader = new FileReader(file);
			reader.read(buff);
			reader.close();
			
			String content = new String(buff);
			// spf("yi1")
			Matcher mat = Pattern.compile("(?<=spf\\(\")[a-z1-4]{0,100}",
					Pattern.CASE_INSENSITIVE).matcher(content);
			if (mat.find()) {
				return mat.group();
			}
			//<span class="dicpy">cal</span> spf("xin1")
			mat = Pattern.compile("(?<=class=\"dicpy\">)[a-z1-4]{0,100}",
					Pattern.CASE_INSENSITIVE).matcher(content);
			if (mat.find()) {
				return mat.group();
			}
		} catch (Exception e) {
			e.printStackTrace();
		}
		
		return "";

	}
}

DownloadThread.java

package com.siqi.dict;

import java.io.File;
import java.io.FileWriter;
import java.net.URLEncoder;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import com.siqi.http.Httpclient;

/**
 * 将汉字页面从汉典网站下载下来，存储到本地
 * http://www.zdic.net/search/?c=2
 * @author siqi
 *
 */
public class DownloadThread extends Thread{
	
	/**
	 * 线程最大数目
	 */
	public static int THREAD_MAX = 10;
	
	/**
	 * 下载最大重复次数
	 */
	public static int RETRY_MAX = 5;
	
	/**
	 * 汉典网站搜索网址
	 */
	public static String SEARCH_URL = "http://www.zdic.net/search/?q=%s";
	
	/**
	 * 当前线程数目
	 */
	private static int threadCnt = 0;
	
	/**
	 * 当前线程处理汉字的unicode编码
	 */
	private int unicode = 0;
	
	/**
	 * 如果PATH文件夹不存在，那么创建它
	 */
	static{
		try {
			File file = new File(DictMain.SAVEPATH);
			if (!file.exists()) {
				file.mkdirs();
			}
		} catch (Exception e) {

		}
	}
	
	/**
	 * 返回当前线程数量
	 * @param i 修改当前线程数量 threadCnt += i;
	 * @return 返回修改后线程数量
	 */
	public static synchronized int threadCnt(int i){
		threadCnt += i;
		return threadCnt;
	}
	
	/**
	 * 下载UNICODE编码为unicode的汉字网页
	 * @param unicode
	 */
	public DownloadThread(int unicode){
		//等待，直到当前线程数量小于THREAD_MAX
		while(threadCnt(0)>THREAD_MAX){
			try {
				Thread.sleep(500);
			} catch (InterruptedException e) {
			}
		}
		
		threadCnt(1);	//线程数量+1
		this.unicode = unicode;
	}

	@Override
	public void run() {
		long t1 = System.currentTimeMillis(); // 记录时间

		String filePath = String.format(DictMain.FILEPATH, unicode); // 文件名

		String word = new String(Character.toChars(unicode)); // 将unicode转换为数字

		boolean downloaded = false;
		int retryCnt = 0; // 下载失败重复次数
		while (!downloaded && retryCnt < RETRY_MAX) {
			try {
				String content = DownloadPage(word);
				SaveToFile(filePath, content);
				downloaded = true;

				threadCnt(-1);
				System.out.println(String.format("%s, %s, 下载成功！线程数目：%s 用时：%s",
						unicode, word, threadCnt(0), System.currentTimeMillis()
								- t1));
				return;
			} catch (Exception e) {
				retryCnt++;
			}
		}

		threadCnt(-1);
		System.err.println(String.format("%s, %s, 下载失败！线程数目：%s 用时：%s", unicode,
				word, threadCnt(0), System.currentTimeMillis() - t1));
	}
	
	/**
	 * 在汉典网站上查找汉字，返回汉字字典页面内容
	 * @param word
	 * @return
	 * @throws Exception
	 */
	public String DownloadPage(String word) throws Exception{
		//查找word
		Httpclient httpclient = new Httpclient();
		String url = String.format(SEARCH_URL, URLEncoder.encode(word, "UTF-8"));
		httpclient.processUrl(url, Httpclient.METHOD_POST);
		
		//返回的是一个跳转页
		//获取跳转的链接
		Matcher mat = Pattern.compile("(?<=HREF=\")[^\"]+").matcher(httpclient.getContent());
		if(mat.find()){
			httpclient.processUrl(mat.group());
		}
		
		return httpclient.getContent();
	}
	
	/**
	 * 将内容content写入file文件
	 * @param file
	 * @param content
	 */
	public void SaveToFile(String file, String content){
		try {
			FileWriter fw = new FileWriter(file);
			fw.write(content);
			fw.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
}

PinYin.java

package com.siqi.pinyin;

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;

public class PinYin {

	private static Map<Integer, PinYinEle> map = new HashMap<Integer, PinYinEle>();

	/**
	 * 载入pinyin数据文件
	 */
	static {
		try {
			BufferedReader bReader = new BufferedReader(new InputStreamReader(
					PinYin.class.getResourceAsStream("data.dat")));
			String aLine = null;
			while ((aLine = bReader.readLine()) != null) {
				PinYinEle ele = new PinYinEle(aLine);
				map.put(ele.getUnicode(), ele);
			}
			bReader.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

	/**
	 * 去掉注释可以测试一下
	 * 
	 * @param args
	 */
	public static void main(String[] args) {
		System.out.println("　包含声调：" + PinYin.getPinYin("大家haome12345"));
		System.out.println("不包含声调：" + PinYin.getPinYin("大家haome12345", false));
	}

	/**
	 * 获取汉字字符串的拼音，containsNumber是否获取拼音中的声调1、2、3、4
	 * 
	 * @param str
	 * @param containsNumber
	 *            true = 包含声调，false = 不包含声调
	 * @return
	 */
	public static String getPinYin(String str, boolean containsNumber) {
		StringBuffer sb = new StringBuffer();
		for (Character ch : str.toCharArray()) {
			sb.append(getPinYin(ch, containsNumber));
		}

		return sb.toString();
	}

	/**
	 * 获取字符串的拼音
	 * 
	 * @param str
	 * @return
	 */
	public static String getPinYin(String str) {
		StringBuffer sb = new StringBuffer();
		for (Character ch : str.toCharArray()) {
			sb.append(getPinYin(ch));
		}

		return sb.toString();
	}

	/**
	 * 获取单个汉字的拼音，包含声调
	 * 
	 * @param ch
	 * @return
	 */
	public static String getPinYin(Character ch) {
		return getPinYin(ch, true);
	}

	/**
	 * 获取单个汉字的拼音
	 * 
	 * @param ch
	 *            汉字. 如果输入非汉字，返回ch. 如果输入null，返回空字符串；
	 * @param containsNumber
	 *            true = 包含声调，false = 不包含声调
	 * @return
	 */
	public static String getPinYin(Character ch, boolean containsNumber) {
		if (ch != null) {
			int code = ch.hashCode();
			if (map.containsKey(code)) {
				if (containsNumber) {
					return map.get(code).getPinyin();
				} else {
					return map.get(code).getPinyin().replaceAll("[0-9]", "");
				}
			} else {
				return ch.toString();
			}
		}
		return "";
	}
}

PinYinEle.java

package com.siqi.pinyin;

public class PinYinEle {
	private int unicode;
	private String ch;
	private String pinyin;
	
	public PinYinEle(){}
	
	public PinYinEle(String str){
		if(str!=null){
			String[] strs = str.split(",");
			if(strs.length == 3){
				try{
				this.unicode = Integer.parseInt(strs[0]);
				}catch(Exception e){
					
				}
				this.ch = strs[1];
				this.pinyin = strs[2];
			}
		}
		
	}
	
	public int getUnicode() {
		return unicode;
	}
	public void setUnicode(int unicode) {
		this.unicode = unicode;
	}
	public String getCh() {
		return ch;
	}
	public void setCh(String ch) {
		this.ch = ch;
	}
	public String getPinyin() {
		return pinyin;
	}
	public void setPinyin(String pinyin) {
		this.pinyin = pinyin;
	}
	
	
}

生成的data.dat里面内容（部分）为：

19968,一,yi1
19969,丁,ding1
19970,丂,kao3
19971,七,qi1
19972,丄,shang4
19973,丅,xia4
19974,丆,han3
19975,万,wan4
19976,丈,zhang4
19977,三,san1
19978,上,shang4
19979,下,xia4
19980,丌,qi2
19981,不,bu4

运行DictMain.java结果

执行时间可能会有几十分钟到几小时不等，总共会下载200+M的网页（20000+个网页），每次运行都会先判断以前下载过没有，所以结束掉程序不会有影响

显示All prepared!表示已经准备好了，刷新项目文件夹，可以看到网页保持在dict/pages下面，不建议在elipse中打开那个文件夹，因为里面有2万多个文件，会卡死eclipse，

还可以看到生成了data.txt文件，改为data.dat并复制到pinyin文件夹下面

运行PinYin.java

可以看到"大家haome12345"的拼音：

　包含声调：da4jia1haome12345
不包含声调：dajiahaome12345

上面只是显示了如何获取拼音，获取笔画等的方法类似，在这里就不演示了。

转载请注明出处

你可能感兴趣的:(java,字典,五笔,笔画,汉字拼音)

python|结构的模式匹配match|同步迭代 Plips python java 前端
在Python中，模式匹配（PatternMatching）是一种强大的功能，用于根据数据的结构或内容进行匹配和处理。Python3.10引入了match语句，使得模式匹配更加直观和灵活。模式匹配可以用于处理复杂的数据结构，如列表、字典、类实例等。模式匹配的基本用法"""match数据:case模式1:#匹配模式1时执行的代码case模式2:#匹配模式2时执行的代码case_:#默认情况,匹配任意
spring boot 拦截器简单demo 测试开发小白变怪兽服务端 spring boot 后端 java
拦截器（Interceptor）与过滤器的区别特性过滤器（Filter）拦截器（Interceptor）所属规范Servlet规范（javax.servlet）SpringMVC框架（基于AOP实现）作用范围所有请求（包括静态资源）仅拦截Controller的请求执行时机在DispatcherServlet之前执行在Controller方法前后执行访问上下文无法直接获取Spring的Bean或注解
使用MyBatis返回数据为null 测试开发小白变怪兽服务端
问题：程序里面写的sql语句放到数据库控制台里能查询到数据，但是在MyBatis里查询结果为null。原因：查询出来的字段名与Java实体类的属性名没有一一对应。解决办法：在XML映射文件中使用resultMap将数据库属性名与实体类属性名映射：使用resultMap表明返回类型：select*fromuser_info;
Java 分布式高并发重试方案及实现可乐加.糖 java 分布式开发语言 spring boot redis
文章目录Java分布式高并发重试方案及实现一、重试机制的背景和意义二、基于SpringBoot的重试方案实现1.使用SpringRetry实现重试机制添加依赖开启重试功能定义重试逻辑使用重试服务2.使用Fast-Retry实现高性能重试引入依赖编程式重试注解式重试三、重试机制的注意事项四、总结Java分布式高并发重试方案及实现在分布式系统中，高并发场景下接口调用的稳定性至关重要。为了应对接口调用失
Node.js和webpack入门-个人学习笔记 ksmswq node.js webpack 学习
Node.js-入门Node.js基础概念Node.js是一个跨平台JavaScript运行环境，是开发者可以搭建服务器端的JavaStript应用程序。作用1.编写服务端程序2.编写数据接口，提供网页浏览资源等等3.实现“前端工程化”，为Vue和React等框架做铺垫前端工程化-概念开发项目直到上线，过程中集成的所有工具和技术。（Node.js是前端工程化的基础（因为Node.js可以主动读取前
token升级（考虑在分布式环境中布置token，结合session保证请求调用过程中token不会过期。）推荐爱你Jonah 分布式 redis java
思路：首先，用户的需求是确保使用同一个Token的外部调用都在一个Session中处理。之前的回答提到了Token与Session绑定、安全措施、Session管理、分布式处理等。现在需要用Java来展示这些步骤。我需要考虑Java中常用的框架，比如SpringBoot，因为它广泛用于API开发。同时，使用Redis作为Session存储，这在Java中通常通过SpringDataRedis或Le
JAVA 你应该有所了解的布隆过滤器 2401_87389661 java 开发语言
该篇文章将会使用最精简易懂的文字以及小图来给大家介绍讲解（不对哈希策略计算进行详解）一.布隆过滤器有啥用？二.布隆过滤器原理是什么？三.java中怎么使用布隆过滤器？本篇文章内容可能较多，所以还请耐心。一.布隆过滤器有啥用简单两点叙述：1.存值存值，就是把值存进去，类似于我们很常用的map，set等；2.检验值是否存在检验，也就是我们想知道某个值是否存在于布隆过滤器里面，调用相关的检验方法，我们会
基于Java的京东电商系统的设计与实现代论文网课招代理 java 开发语言
摘要：近十多年来，因为移动互联网发展迅猛，除了通常的查阅网页，搜索数据和发送电子邮件外，大多数国内网民还将采用以下传统功能，如购物，电信，旅游和娱乐我逐渐习惯了互联网。包括使用在线购物在内的新服务模式正在成为人们生活中一种重要的购物形式。互联网的发展迅猛，是网上购物系统发展的基础。除此之外，网络购物营商环境也在逐渐的在改善。移动互联网设备（手机，平板电脑）使互联网用户越来越多。付款和结算方式变得更
LeetCode——5840. 使字符串平衡的最小交换次数(Minimum Number of Swaps to Make the String Balanced)[中等]——分析及代码（Java）江南土豆数据结构与算法 LeetCode Java 题解
LeetCode——5840.使字符串平衡的最小交换次数[MinimumNumberofSwapstoMaketheStringBalanced][中等]——分析及代码[Java]一、题目二、分析及代码1.贪心（1）思路（2）代码（3）结果三、其他一、题目给你一个字符串s，下标从0开始，且长度为偶数n。字符串恰好由n/2个开括号‘[’和n/2个闭括号‘]’组成。只有能满足下述所有条件的字符串才能称
深入理解Java工厂方法模式：原理剖析与实战应用小诸葛IT课堂 java 工厂方法模式开发语言
一、为什么要学习工厂方法模式？在软件开发中，对象创建是最常见的操作之一。当我们需要创建的对象类型存在多种可能，或者对象的创建过程较为复杂时，如果直接在业务代码中使用new关键字进行实例化，会导致以下问题：代码耦合度高难以扩展新的产品类型违反开闭原则（对扩展开放，对修改关闭）代码重复和可维护性差工厂方法模式（FactoryMethodPattern）正是为了解决这些问题而诞生的经典设计模式。它被广泛
基于 Vue 和 Element Plus 的时间范围控制与数据展示奶糖肥晨 vue vue.js elementui 前端
文章目录1.核心功能2.实现效果3.代码实现️3.1HTML部分3.2JavaScript部分3.3CSS部分本文将重点讲解如何在Vue项目中使用ElementPlus的el-date-picker组件实现时间范围选择，并结合“日”、“月”、“年”按钮动态控制时间范围。！1.核心功能时间范围选择：使用el-date-picker实现日期范围选择。快速切换：通过“日”、“月”、“年”按钮快速设置时间
Manus工作原理：从“思考”到“执行”的AI智能体革命 rider189 杂谈 java python 人工智能
读者专属福利：500G+java从入门到精通全套视频课程，加关注提供免费答疑——解析全球首款通用AI代理的底层逻辑引言：AI智能体的新标杆2025年3月，一款名为Manus的AI智能体横空出世，凭借其“自主思考并执行任务”的能力，迅速引爆科技圈与资本市场。它不仅能在云端异步处理复杂任务，还能交付完整成果，从简历筛选到旅行规划，从股票分析到教育课件制作，其应用场景之广令人惊叹。然而，Manus的爆火
LeetCode34. 在排序数组中查找元素的第一个和最后一个位置 - Java & Go - 二分查找改进暴风星云裂之我裂开了 LeetCode题解 leetcode java golang 二分查找
文章目录LeetCode34.在排序数组中查找元素的第一个和最后一个位置解法11算法2Java3Go解法21算法2Java3GoLeetCode34.在排序数组中查找元素的第一个和最后一个位置LeetCode34.在排序数组中查找元素的第一个和最后一个位置解法11算法算法1.两次二分查找2.第一次二分查找计算mid=(left+right)>>1;，每次mid都偏向左边，可以保证找到的是第一个大于
Vue.js 事件处理与修饰符详解 vvilkim vue vue.js 前端 javascript
Vue.js是一个流行的前端框架，它提供了强大的事件处理机制，使得开发者可以轻松地处理用户交互。Vue的事件处理通过v-on指令实现，同时还提供了丰富的事件修饰符和按键修饰符，帮助我们更高效地处理事件。本文将详细介绍Vue的事件处理机制、修饰符的使用方法，并结合示例代码展示如何在实际开发中应用这些功能。1.v-on指令与事件处理在Vue中，v-on指令用于监听DOM事件，并在事件触发时执行Java
python 如何引入同一个文件夹下py方法 m0_68335176 eclipse
前言毕业快三年了，前后也待过几家公司，碰到各种各样的同事。见识过各种各样的代码，优秀的、垃圾的、不堪入目的、看了想跑路的等等，所以这篇文章记录一下一个优秀的后端Java开发应该有哪些好的开发习惯。拆分合理的目录结构受传统的MVC模式影响，传统做法大多是几个固定的文件夹controller、service、mapper、entity，然后无限制添加，到最后你就会发现一个service文件夹下面有几十
B/S vs C/S架构：技术选型与实战对比码农阿豪@新空间包罗万象 c语言架构开发语言
个人名片作者简介：java领域优质创作者个人主页：码农阿豪工作室：新空间代码工作室（提供各种软件服务)个人邮箱：[[email protected]]个人微信：15279484656个人导航网站：www.forff.top座右铭：总有人要赢。为什么不能是我呢？专栏导航：码农阿豪系列专栏导航面试专栏：收集了java相关高频面试题，面试实战总结️Spring5系列专栏：整理了Spring5重要知识点与
java.lang.NoSuchMethodError: org.springframework.data.redis.core.StringRedisTemplate.delete redis 羽毛 java redis spring spring boot 分布式
java.lang.NoSuchMethodError:org.springframework.data.redis.core.StringRedisTemplate.delete(Ljava/lang/Object;)V在springboot2.0.0以上的版本中已经有独立的redis包了redis.clientsjedis</<
通过Java代码实现ping功能测试ip地址与ip:port的连通性 Java大侠业务代码 java 功能测试
通过Java代码实现测试ip地址与ip:port的连通性需求分析具体实现测试ip连通性测试ip:port连通性重试机制需求分析最近在业务中，需要添加一种掉线告警系统。大致思路为：通过定时任务扫描，每一个小时判断一次设备是否在线，如果在线继续判断端口是否能够通讯。如果不在线或者不能通讯，需要及时push消息给告警人员，及时处理。具体实现测试ip连通性主要通过InetAddress类来实现/***@p
Servlet 点击计数器 lsx202406 开发语言
Servlet点击计数器引言随着互联网的快速发展，Web应用程序已成为人们日常生活中不可或缺的一部分。Servlet作为Java平台上用于开发Web应用程序的重要技术之一，已经广泛应用于各种Web项目中。本文将详细介绍Servlet点击计数器的实现方法，帮助读者更好地理解Servlet技术在实际开发中的应用。Servlet点击计数器概述Servlet点击计数器是一种用于记录Web页面点击次数的组件
Java IO 与文件系统：File 类与流操作详解伤心辞计算机网络
在Java编程中，IO（输入输出）操作是处理文件和数据流的核心部分。本文将围绕文件系统、硬盘存储、Java的File类以及InputStream和OutputStream的使用进行详细总结，帮助读者全面掌握JavaIO编程的核心知识。一、IO、存储与文件系统基础1.存储设备与硬盘硬盘：计算机的主要存储设备，分为机械硬盘（HDD）和固态硬盘（SSD）。存储单位：字节（Byte）、千字节（KB）、兆字
Java 解决 TCP 粘包问题详解：原理与实战示例伤心辞网络 tcp/ip 网络协议
TCP协议是面向字节流的传输协议，其核心设计目标是高效传输数据，但这也导致了应用层需要自行处理数据包的边界问题，即粘包问题。本文将通过Java代码示例，详细解析粘包问题的原因及解决方案。一、粘包问题的本质1.什么是粘包？发送方发送多个应用层数据包（如包A和包B）。接收方可能一次性读取到合并后的数据（如包A包B），导致无法区分原始包边界。2.为什么会出现粘包？TCP的字节流特性：数据像水流一样连续，
Java 线程池详解：参数、工作流程与常见线程池伤心辞开发语言 java
线程池是Java并发编程中最重要的工具之一，它通过复用线程、控制并发数和任务队列机制，显著提高了多线程程序的性能和资源管理效率。本文将深入解析线程池的核心参数、工作流程，以及如何使用Executors工具类创建常见的线程池。一、线程池的核心参数Java线程池的核心类是ThreadPoolExecutor，其构造函数包含以下关键参数：参数名作用corePoolSize核心线程数，即使线程空闲也不会被
【Java篇】无形至有形，法与道的编织：类与对象初探半截诗 Java #JavaSE java 开发语言 JavaSE 基础入门类和对象编程规范面相过程
文章目录类和对象（上）一、面向对象的初步认知1.1什么是面向对象1.2面向对象与面向过程二、类定义和使用2.1简单认识类2.2类的定义格式2.3小练习2.3.1定义一个狗类2.3.2定义一个学生类三、类的实例化3.1什么是实例化3.2类和对象的说明四、this引用4.1为什么要有this引用4.2什么是this引用4.3this引用的特性五、总结与展望5.1总结5.2展望类和对象（上）欢迎讨论：如
python中的 collections 模块(用法、详解、底层原理，示例等) 还是那个同伟伟 Python进阶 python collections 字典集合
1、collections模块中的defaultdict1.1defaultdict功能可以设置一个默认值作为字典中新key的默认值。该默认值可以是任何对象，包括函数、列表、元组、集合等。默认值不需要像dict那样事先定义，因为它在需要的时候会自动创建使用defaultdict，可以简化代码并提高代码的可读性，而且可以防止KeyError异常的出现。同时，defaultdict的性能与普通字典相当
【LeetCode】215.数组中的第K个最大元素（三种方法，九个思路的代码实现，java格式） Hi丶ImViper LeetCode 算法与数据结构算法数据结构 java 快速排序
题目题目链接解析这道题据说是面试的高频考题，同时也是基础算法的应用。方法一：暴力解法题目要求我们找到“数组排序后的第k个最大的元素，而不是第k个不同的元素”，语义是从右边往左边数第k个元素（从11开始），那么从左向右数是第几个呢，我们列出几个找找规律就好了。一共6个元素，找第2大，索引是4；一共6个元素，找第4大，索引是2。因此，升序排序以后，目标元素的索引是len-k。这是最简单的思路，如果只答
手撕力扣之排序：排序数组、数组中的逆序对、排序链表、最小的k个数、数组中的第K个最大元素、前 K 个高频元素、根据身高重建队列、最大数、下一个排列、下一个更大元素 III、最大交换、字典序的第K小数字 weixin_39770712 数据结构与算法数据结构排序算法算法
力扣912.排序数组给你一个整数数组nums，请你将该数组升序排列。方法一：归并排序classSolution{public:vectortmp;voidmergeSort(vector&nums,intl,intr){if(l>=r)return;intmid=(l+r)>>1;mergeSort(nums,l,mid);mergeSort(nums,mid+1,r);inti=l,j=mid+
LeetCode215.数组中的第K个最大元素 java使用小顶堆求解 patientany java 开发语言
JAVA实现小顶堆手撕小顶堆定义堆中的成员变量提供构造方法建堆下潜交换堆的尾部添加元素上浮获取堆顶元素替换堆顶元素删除指定元素删除堆顶元素回到题目具体步骤上代码手撕小顶堆在java中实现小顶堆定义堆中的成员变量这里首先先定义堆中的数据，在这里我使用了整数数组表示整个堆。size表示堆的大小，默认也就是数组的长度。int[]array;intsize;提供构造方法对于堆的初始化，由传进来的数组实现对
JAVA有哪些主要用途 By北阳 java
Java是一种广泛使用的编程语言，非常流行，并经常用于构建各种类型的应用程序。在本篇博客中，我将为你详细介绍Java可以干什么，以及它在现代软件开发中的重要性。1.Web应用程序开发Java是一种非常流行的编程语言，可用于构建Web应用程序。Java提供了一系列开发工具和框架，例如Spring，SpringBoot和JavaServerPages（JSPs），可用于快速构建Web应用程序。使用Ja
【Java基础19】异常，异常处理，自定义异常，受检与非受检异常摘星观月 Java基础 java jvm 开发语言
一、异常1、概念异常是阻止当前方法或作用域继续执行的问题，在程序中导致程序中断运行的一些指令。Throwable是异常的基类，分为Error和Exception。Exception分为编译期异常（受检）和运行期异常（非受检）。异常会导致程序中断，无法继续执行。在开发中，我们要把可能出现异常的代码使用try语句包裹起来。处理异常可以保证程序继续执行。2、案例publicclassTest02{pub
Java—异常体系且将& Java基础 java
文章目录异常和错误java异常的分类：非运行时异常运行时异常受检异常（非运行时异常）如何处理？1、trycatchfinally为什么要用trycatchfinally2、throwsThrow和Throws的区别JVM是如何处理异常的try-catch-finally中哪个部分可以省略————————————————————————————————异常和错误下面这就是异常（exception）错
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_