mychaint

【中文分词】亲手开发一款中文分词器——原理

前文已经谈到几种分词方法的手段和困难，本文将从最基本原理开始，一步一步分析我自己的分词器是如何开发的。文章分为两部分，第一部分谈论了我的一个有趣的尝试，这个尝试是对于最终分词程序没有直接帮助的，所以可以选择性跳过。第二部分谈论HMM模型在程序中的应用，是实现分词器的基本原理。

一、有趣的尝试

从最初出发点开始，我们需要确定那些字的组合是词语。每两个字能否组合成词语，其实取决于两个字同时以相同顺序出现在文章中的次数有关，次数越高，代表他们越有可能组合成词。假设一个字A出现在一篇文章中的概率为P(A)，另一个字B出现在文中的概率为P(B)，那么AB同时出现在文章中的概率为P(A)·P(B)。此时如果根据统计，发现P(AB)与P(A)·P(B)相近，我们就可以认为AB是一个词语。毫无疑问，如果语料库足够全面，统计学习能够从一定规模的语料库中发现最可能的词语组合。

最初我做了一个尝试，从百度百科中下载了各种内容的文章，覆盖了科学，教育，动物，人文，体育，健康，网络，社会等大约二十多个词条的文章。内容如下：

然后用JAVA写了一个程序来统计所有相邻两个字的组合和出现次数并输出。得到了一个大小为365K的txt文件。展示如下：

其中冒号左边的字代表前一个字，后边罗列的是所有在这个字后边出现过的字和对应的次数。其中可以发现在“规”字后边出现较多的字有“律”、“模”、“定”、“划”。在“观”字后边有“的”、“赏”、“看”。“矛”与“盾”的组合也较多。

如下再罗列一些结果的截图供参考：

由于屏幕大小原因，无法截取所有的搭配，但是通过一些初略的观察可以发现，除了一些常见的，如 “的”、“，” 等与任何词语都高频出现外，其他大部分高频字都与前一个字构成一个合法的词汇。我仅仅通过二十篇文章初略统计就有一个比较明显的效果，所以如果语料库足够大，内容足够丰富，相信是能够通过统计的方式来确定合法词语的搭配的。

这是我最初对统计方法确定合法词汇搭配的尝试，虽然对后来的开发并没有直接帮助，但确实让我对语言中，字与字的相互关系有了一个直观的感受，这对于后续的学习和开发极为重要。

二、基于HMM开发分词器

2.1 隐马尔科夫原理

通过上一部分的可以发现，虽然我们有很多方法可以确定词语的合法组合，但是字与字在依据话中如何划分其实与上下文是密不可分的。就像第一篇文章中谈及的“人才”两字，并不是任何时候都会放在一起。简单的字典分词，有点类似于脱离意思的机械分词，处理歧义和未登录词时，会有一定的困难。

既然前边说到，字与字的组合与上下文密切相关，那我们将一个字对应某一个词语中的位置作为这个词当前的状态，将状态分为四种情况：词头B，词中M，词尾E和单子成词S，用X表示状态，则Xset = {B, M, E, S}。现在我们就可以试图寻找一个类似的数学模型来描述这种状态出现的概率，从而判断分词的结果。

我们知道，字在一个句子中的出现是一个随机的过程，并且它的出现并不是独立事件。根据我们的语言习惯，字的出现其实与前边是什么字有着密切的联系。这种当前随机状态受之前n-1个状态影响的随机过程有一个很好的数学模型——马尔科夫随机过程。

希望详细了解马尔科夫随机过程，可以参考博文《隐马尔科夫模型详解》。

简而言之，对于一个观察序列O = {O0, O1, ... , On} 如果第n个对象On对应的状态表示为Xn，则其独立观察概率是 P(Xn) 。若之前的 n - 1 个状态表示为 Yi, 其中i = 1, ... , n - 1，则第n的观察对象On对应一个状态的概率就为：

P(On) = P(Xn)·P(Xn | Yn - 1, Y n - 2, ... Y 1)。

其中P(X)是独立观察概率，P(X | Y)是状态转移概率，即前n-1个状态为前提时，当前状态X的出现概率。这个状态转移概率是隐含在马尔科夫过程中的一个因素，因此整个模型称之为隐马尔科夫模型。

所以对于任意的观察序列O = {O0, O1, O2, ... , On}出现的概率可以表示为：

P(O) = Sum(P(Xn)·P(Xn | Yn - 1, Y n - 2, ... Y 1)), n = 1, 2, ... 。（1）

但是困难的问题来了，每当我们计算第n个状态的概率时，我们需要得到之前n-1个概率的情况，如果有X有m种状态，我们需要进行2n*m^n次乘法。但是细心回过头来分析，我们发现，中文汉字的词语，以两字词语居多。根据黄昌宁博士的论文表述，对Bakeoff-2003和Bakeoff-2005的全部8个训练语料库词长的频率统计，1~2字词占了90%的比例，3字或者3字以下词占了95%，5字和5字一下次更是占据了99%的比例。所以考虑一个字的出现概率，其实无需考虑前边n-1种状态，只需要考虑前边1~2个状态就可以覆盖绝大部分中文词汇了。

其实这样的词语窗口大小在开发中也有规范，只考虑当前字的概率称之为unigram，考虑前一个字的概率称之为bigram，考虑前两个字的概率情况称之为trigram。为了简单起见，我采用了bigram模型。也就是考虑前一个字的情况下来判断当前字的概率。则上式（1）表示为：

P(O) = Sum(P(Xn) · P(Xn | Yn-1)) （2）

这样一来，问题就简单多了。对于一个句子，其中的字的序列组成了观察序列O，统计学习的结果就是确定了各个观察序列中元素标记各种位置的独立概率和状态转移概率。此时使用动态规划，找出使整个句子概率P(O)最大的标记方式作为分词结果即可。

2.2 统计学习

现在我们只需要根据式（2）的定义，来对一个完整的中文语料库进行统计学习就可以训练一个中文分词器了。我使用了微软亚洲研究院提供的中文语料库（本系列前言中附有下载链接）。

微软语料库内容如下：

其内容是人工手动处理的分词结果，词语与词语间由空格分开。所以进行统计学习，我们需要先为这些词打上位置标记来标记它的状态。如下是我的JAVA代码：

// 预处理中文语料库
	protected void processTrainingMaterial() {
		File f = new File(this.TrainingMaterialPath);
		if (!f.exists()) {
			System.err.println("未找到中文语料库文件： "
					+ this.TrainingMaterialPath);
		} else {
			try {
				if (!f.exists()) {
					f.createNewFile();
				}
				FileInputStream fis = new FileInputStream(f);
				InputStreamReader re = new InputStreamReader(fis,
						this.DefaultFileFormat);
				BufferedReader reader = new BufferedReader(re);
				String temp;
				PrintWriter writer = new PrintWriter(
						this.TaggedTrainingMaterialPath, this.DefaultFileFormat);
				System.out.println(new Date().toString() + " 开始预处理中文语料库。");
				while ((temp = reader.readLine()) != null) {
					char[] chararr = temp.toCharArray();
					StringBuilder sb = new StringBuilder();
					int i = 0;
					if (chararr[i] == 65279)
						i = 1;
					int j = i;
					while (j <= chararr.length - 1) {
						while (j < chararr.length - 1 && chararr[j] == ' ')
							j++;
						i = j;
						while (j < chararr.length - 1 && chararr[j] != 32)
							j++;
						if (j - i == 1) {
							sb.append(chararr[i] + "S");
						} else if (j - i == 2) {
							sb.append(chararr[i] + "B");
							sb.append(chararr[j - 1] + "E");
						} else if (j - i > 2) {
							sb.append(chararr[i++] + "B");
							while (i != j - 1) {
								sb.append(chararr[i++] + "M");
							}
							sb.append(chararr[i] + "E");
						}
						if (j >= chararr.length - 1)
							break;
					}
					writer.println(sb.toString());
				}
				System.out.println(new Date().toString() + " 完成中文语料库预处理。");
				writer.close();
				fis.close();
				re.close();
				reader.close();
			} catch (IOException e) {
				System.err
						.println("Error in method processTrainingMaterial() : "
								+ e.getMessage());
			}
		}
	}

处理之后的语料库内容如下：

每个一个字符后边都紧跟这个字符的位置标记。然后需要做的就是遍历这个文件，统计一下独立概率P(Xn)和状态转移概率P(Xn | Yn-1)。JAVA代码如下：

	// 统计学习
	protected void statisticTaggedTrainingMaterial() {
		this.learningSingleTag();     //状态独立概率P(x)
		this.learningRelationTag();   //状态转移概率P(X |　Y)
	}

其中进行了两项统计，统计某一个字与某一位置匹配的次数，以及前后两个字与各种符号匹配在一起的次数。

代码别分如下：

// 学习状态独立概率
	protected void learningSingleTag() {
		File f = new File(this.TaggedTrainingMaterialPath);
		if (!f.exists()) {
			System.err.println("未找到训练语料文件"
					+ this.TaggedTrainingMaterialPath);
		} else {
			try {
				this._charHash = new HashMap<>();

				// 学习独立概率
				Double total = 0.0;
				FileInputStream fis = new FileInputStream(f);
				InputStreamReader re = new InputStreamReader(fis,
						this.DefaultFileFormat);
				BufferedReader reader = new BufferedReader(re);
				String temp = null;
				System.out.println(new Date().toString() + " 开始学习独立概率。");
				while ((temp = reader.readLine()) != null) {
					char[] chararr = temp.toCharArray();
					if (chararr.length == 0)
						continue;
					int i = 0;
					if ((int) chararr[i] == 65279)
						i++;
					while (i < chararr.length) {
						StringBuilder charsb = new StringBuilder();
						charsb.append(chararr[i]);
						charsb.append(chararr[i + 1]);
						if (this._charHash.containsKey(charsb.toString())) {
							Double _t = this._charHash.get(charsb.toString());
							_t = _t + 1.0;
							this._charHash.put(charsb.toString(), _t);
						} else
							this._charHash.put(charsb.toString(), 1.0);
						total += 1.0;
						i += 2;
					}
				}
				
				File _f = new File(this.FinalTagFilePathForSingle);
				if (!_f.exists())
					_f.createNewFile();
				PrintWriter writer_char = new PrintWriter(
						this.FinalTagFilePathForSingle, this.DefaultFileFormat);

				for (String key : this._charHash.keySet()) {
					writer_char.print(key);
					writer_char.println(this._charHash.get(key) / total);
				}
				System.out
						.println(new Date().toString() + " 完成独立概率学习。");
				writer_char.close();
				fis.close();
				re.close();
				reader.close();
			} catch (IOException e) {
				System.err.println("Error in method learningSingleTag()");
			}
		}
	}

// 学习状态转移概率
	protected void learningRelationTag() {
		File f = new File(this.TaggedTrainingMaterialPath);
		if (!f.exists()) {
			System.err.println("未找到训练语料库"
					+ this.TaggedTrainingMaterialPath);
		} else {
			try {
				// HMM学习
				this._thash = new THash();
				FileInputStream fis = new FileInputStream(f);
				InputStreamReader re = new InputStreamReader(fis,
						this.DefaultFileFormat);
				BufferedReader reader = new BufferedReader(re);
				String temp = null;
				System.out.println(new Date().toString()
						+ " 开始学习状态转移概率。");
				while ((temp = reader.readLine()) != null) {
					char[] chararr = temp.toCharArray();
					int i = 0;
					while (i < chararr.length) {
						if (i == 0)
							this._thash.PutValue('~', '~', chararr[i],
									chararr[i + 1]);
						else
							this._thash.PutValue(chararr[i - 2],
									chararr[i - 1], chararr[i], chararr[i + 1]);
						i += 2;
					}
				}
				fis.close();
				re.close();
				reader.close();
				this._thash.calculatePossibilityForAllCombinations(
						this.FinalTagFilePathForRelation,
						this.DefaultFileFormat);
				System.out.println(new Date().toString()
						+ " 完成状态转移概率学习。");
				System.out.println(new Date().toString() + " 训练语料库学习完毕。");
			} catch (IOException e) {
				System.err.println("Error in method learningRelationTag()");
			}
		}
	}

其中在统计状态转移概率时，我使用了一个对象THash，这是一个封装了一个三层签到哈希表的类型，结构如下：

private HashMap>>> _myHashMap;

可以记录：前一个字符->前一个字符的位置状态->当前字符->当前字符的位置状态->次数。

其中还封装了插入字符和统计概率的操作。外部程序只需要提供相邻字符和位置标记，THash就能自动插入到对应位置，具体代码如下：

public class THash {

	private HashMap>>> _myHashMap;

	private static Double INITIAL_VALUE = 1.0;
	private static Double POSSIBILITY_INTERPOLATE_VALUE = 1.02;

	public THash() {
		this._myHashMap = new HashMap<>();
	}

	public void PutValue(char pri_key, char pri_tag, char sec_key, char sec_tag) {
		if (!this._myHashMap.containsKey(pri_key)) {
			this._myHashMap.put(pri_key, new HashMap>>());
		}
		HashMap>> prihash = this._myHashMap
				.get(pri_key);

		if (!prihash.containsKey(pri_tag)) {
			prihash.put(pri_tag,
					new HashMap>());
		}
		HashMap> seccharhash = prihash
				.get(pri_tag);

		if (!seccharhash.containsKey(sec_key)) {
			seccharhash.put(sec_key, new HashMap());
		}
		HashMap sectaghash = seccharhash.get(sec_key);

		if (!sectaghash.containsKey(sec_tag)) {
			sectaghash.put(sec_tag, THash.INITIAL_VALUE);
		} else {
			Double _temp = sectaghash.get(sec_tag);
			_temp++;
		}
	}

	public void calculatePossibilityForAllCombinations(String path, String format) {
		File f = new File(path);
		try {
			if (!f.exists())
				f.createNewFile();
			PrintWriter writer = new PrintWriter(path, format);
			for(Character pri_key : this._myHashMap.keySet()){
				HashMap>>
					_pritaghash = this._myHashMap.get(pri_key);
				for(Character pri_tag : _pritaghash.keySet()){
					HashMap> 
					_sechash = _pritaghash.get(pri_tag);
					for(Character sec_key : _sechash.keySet()){
						HashMap _sectaghash = _sechash.get(sec_key);
						Double total = 0.0;
						for(Character sec_tag : _sectaghash.keySet()){
							total += _sectaghash.get(sec_tag);
						}
						total *= THash.POSSIBILITY_INTERPOLATE_VALUE;
						for(Character sec_tag : _sectaghash.keySet()){
							StringBuilder sb = new StringBuilder();
							sb.append(pri_key);
							sb.append(pri_tag);
							sb.append(sec_key);
							sb.append(sec_tag);
							sb.append(_sectaghash.get(sec_tag) / total);
							writer.println(sb.toString());
						}
					}
				}
			}
			writer.close();
		} catch (IOException e) {
			System.err
					.println("Error in method calculatePossibilityForAllCombinations()");
		}

	}
}

经过统计学习之后，程序会将结果写入到两个文本文件中，分别表示独立概率结果和状态转移概率结果。形式如下：

独立概率文件：

其中信息为：字符+位置标记+概率值

其次是状态转移概率文件：

其中记录了前一个字符的位置和对应后一个字符的位置以及概率值。

2.3 分词操作

有了统计学习的结果之后，无需每次载入分词对象都进行一次学习。所以编写一个初始化方法来初始化两种概率结果并保存在两个相应的哈希表中就拥有了一个分词标注器了。载入过程是一个文本处理的过程，这里不赘述。构建独立概率标注器时，使用一个一层嵌套的哈希表存储字符->位置->概率的数据。构建一个状态转移概率标注器时，使用一个类似于THash对象结构的哈希表即可，但是此时字符与其位置标记可以合并为一个字符作为Key，结构也就简单了不少，同时也不再需要计算概率和输出的方法。如下是我的JAVA代码：

// 初始化标注器表
	protected void initialiseTagHashMap() {
		File f = new File(this.FinalTagFilePathForRelation);
		if (!f.exists()) {
			System.out.println("未找到标注器初始化文件"
					+ this.FinalTagFilePathForRelation);
		} else {
			try {
				this._tagHashForRelation = new HashMap<>();
				FileInputStream fis = new FileInputStream(f);
				InputStreamReader re = new InputStreamReader(fis,
						this.DefaultFileFormat);
				BufferedReader reader = new BufferedReader(re);
				String temp = null;
				while ((temp = reader.readLine()) != null) {
					char[] chararr = temp.toCharArray();
					StringBuilder pri_key_sb = new StringBuilder();
					StringBuilder sec_key_sb = new StringBuilder();
					pri_key_sb.append(chararr[0]);
					pri_key_sb.append(chararr[1]);
					sec_key_sb.append(chararr[2]);
					sec_key_sb.append(chararr[3]);
					int j = 6;
					char[] pos_chararr = new char[7];
					for (int n = 0; n < 7; n++, j++) {
						pos_chararr[n] = chararr[j];
					}
					Double pos = 0.1 * this.convertStringtoDouble(pos_chararr,
							0);
					HashMap _hash;
					if (this._tagHashForRelation.containsKey(pri_key_sb
							.toString())) {
						_hash = this._tagHashForRelation.get(pri_key_sb
								.toString());
						_hash.put(sec_key_sb.toString(), pos);
					} else {
						_hash = new HashMap<>();
						_hash.put(sec_key_sb.toString(), pos);
						this._tagHashForRelation.put(pri_key_sb.toString(),
								_hash);
					}
				}
				fis.close();
				re.close();
				reader.close();
			} catch (IOException e) {
				System.out.println("Error in method initialise -> relation");
			}
		}

		f = new File(this.FinalTagFilePathForSingle);
		if (!f.exists()) {
			System.out.println("为找到标注器初始化文件"
					+ this.FinalTagFilePathForSingle);
		} else {
			try {
				this._tagHashForSingle = new HashMap<>();
				FileInputStream fis = new FileInputStream(f);
				InputStreamReader re = new InputStreamReader(fis,
						this.DefaultFileFormat);
				BufferedReader reader = new BufferedReader(re);
				String temp = null;
				while ((temp = reader.readLine()) != null) {
					char[] chararr = temp.toCharArray();
					StringBuilder sb = new StringBuilder();
					sb.append(chararr[0]);
					sb.append(chararr[1]);
					char[] pos_chararr = new char[5];
					for (int j = 0, i = 4; j < 5; j++, i++) {
						pos_chararr[j] = chararr[i];
					}
					Double pos = 0.1 * this.convertStringtoDouble(pos_chararr,
							0);
					pos = pos + chararr[2] - 48;
					if (chararr[chararr.length - 2] == '-') {
						int n = chararr[chararr.length - 1] - 48;
						for (int i = 0; i < n; i++) {
							pos *= 0.1;
						}
					}
					this._tagHashForSingle.put(sb.toString(), pos);
				}
				fis.close();
				re.close();
				reader.close();
			} catch (IOException e) {
				System.err.println("Error in method initialise -> single");
			}
		}
	}

构建完标注器后，就可以开始分词了。进行分词操作时，我对中英文夹杂和数字符号夹杂不是很自信，训练得不够理想（测试后的感悟），所以我都对文本进行了预处理，对非汉字编码进行了切割，JAVA代码如下：

// 拆分句子，分离标点，符号，数字和英文字符等
	protected List segmentSentence(char[] sentence) {
		int i = 0;
		int j = i;
		try {
			while (j < sentence.length) {

				if (sentence[j] == '。' || sentence[j] == '，'
						|| sentence[j] == '？' || sentence[j] == '：'
						|| sentence[j] == '！' || sentence[j] == ' '
						|| sentence[j] == '（' || sentence[j] == '）') {
					if (i < j)
						this.segmentWords(sentence, i, j - 1);
					i = ++j;
					continue;
				}

				if ((sentence[j] >= 65 && sentence[j] <= 90)
						|| (sentence[j] >= 97 && sentence[j] <= 122)) {
					if (i != j)
						this.segmentWords(sentence, i, j - 1);
					i = j;
					while (j < sentence.length
							&& ((sentence[j] >= 65 && sentence[j] <= 90) || (sentence[j] >= 97 && sentence[j] <= 122))) {
						j++;
					}
					StringBuilder sb = new StringBuilder();
					while (i < j) {
						sb.append(sentence[i]);
						i++;
					}
					this.resultlist.add(sb.toString());
					i = j;
					continue;
				}

				if (sentence[j] < 127) {
					if (i < j) {
						segmentWords(sentence, i, j - 1);
						i = j;
					}
					while (j < sentence.length && sentence[j] < 127) {
						j++;
					}
					StringBuilder sb = new StringBuilder();
					while (i < j) {
						sb.append(sentence[i]);
						i++;
					}
					this.resultlist.add(sb.toString());
					i = j;
					continue;
				}

				j++;
			}
			if (i < j)
				this.segmentWords(sentence, i, j - 1);
			return resultlist;
		} catch (OutOfMemoryError | ArrayIndexOutOfBoundsException e) {
			System.out.println(sentence.length);
			System.out.println(sentence[i]);
			System.out.println(sentence[j]);
			return this.resultlist;
		}
	}

切割之后就对每一部分单独进行一次分词处理。

分词过程是一个动态规划寻找最优解的过程。首先构建一个二维矩阵，假设文本长度为n，则矩阵为n*4的二维矩阵。其中行索引代表文本中字符的索引，列代表当前字符的四个状态，一次为B, M, E, S。每个元素是一个自定义的对象GNode，其中记录当前位置标记，当前最大概率和得到最大概率的上一级标注。GNode定义如下：

public class GNode {
	public Double MaxPos;
	public char CurTag;
	public char PreTag;
	
	public GNode(){
		this.MaxPos = 0.0;
	}
}

计算概率的算法描述如下：

1. 遍历当前行的每一个GNode对象G2，根据行列索引，求得当前字符与位置标记，记为Sec_Key。

2. 遍历前一行的每一个GNode对象G1，得到对应的前一个字符为其位置标记，记为Pri_Key。

3. 查询从Pri_Key到Sec_Key的状态转移概率并诚意Sec_Key的独立概率，记为Cur_Pos。

4. if Cur_Pos >= G2.MaxPos {

G2.MaxPos = Cur_Pos; //记录单签最大概率

G2.PreTag = Pri_Key.Tag; //记录下获得当前最大概率的前一个标记

} else continue;

其中有两个地方值得注意：

1. 在查询状态转移概率时，只处理合理搭配，比如B接M，B接E等的情况，对于S接E或者M接S等不合法搭配，直接跳过，可以减少一半的查询计算操作。

2. 对于无法查询到的状态转移概率或独立概率的情况，也就是这样的(Pri_Key, Sec_Key)的组合或者Sec_Key在语料库中未出现，即可能是未登录词，比如人名，地名等，也可能是语料库为包含的合法生僻词语，我在程序中为其添加了一个默认概率值。究其原因，一方面如果这样的概率值赋位0，则整个观察序列的概率就为0了，没有任何意义，另一方面我们承认未登录词的存在的。这样一个值需要反复调试程序来确定，不能太小也不能太大。太小了分词结果更倾向于将未登录次拆解成单字，太大了就影响到了很多从语料库中统计出来的正确词语的组合概率。

动态规划算法实现如下：

// 分词操作
	protected void segmentWords(char[] sentence, int start, int end) {
		int length = end - start + 1;
		GNode[][] graph = new GNode[length][4];

		for (int i = 0; i < length; i++) {
			for (int j = 0; j < 4; j++) {
				graph[i][j] = new GNode();
			}
		}

		// 初始化状态矩阵
		for (int j = 0; j < 4; j++) {
			graph[0][j].CurTag = getTag(j);
			if (j == 0 || j == 3) {
				StringBuilder sb = new StringBuilder();
				sb.append(sentence[start]);
				sb.append(graph[0][j].CurTag);
				graph[0][j].MaxPos = this.getPossiblity("~~", sb.toString());
			} else
				graph[0][j].MaxPos = 0.0;
		}

		// 动态规划过程
		for (int i = 1; i < length; i++) {
			for (int j = 0; j < 4; j++) {
				graph[i][j].CurTag = this.getTag(j);
				StringBuilder sec_key_sb = new StringBuilder();
				sec_key_sb.append(sentence[i + start]);
				sec_key_sb.append(graph[i][j].CurTag);
				for (int n = 0; n < 4; n++) {
					if (!this.checkLogicalCombination(graph[i - 1][n].CurTag,
							graph[i][j].CurTag))
						continue;
					StringBuilder pri_key_sb = new StringBuilder();
					pri_key_sb.append(sentence[i + start - 1]);
					pri_key_sb.append(graph[i - 1][n].CurTag);
					Double _pos = this.getPossiblity(pri_key_sb.toString(),
							sec_key_sb.toString());
					if (this._tagHashForSingle.containsKey(pri_key_sb
							.toString()))
						_pos *= this._tagHashForSingle.get(pri_key_sb
								.toString());
					else
						_pos *= this.StrangeSingleDefaultPossibility;
					_pos *= graph[i - 1][n].MaxPos;
					if (_pos >= graph[i][j].MaxPos) {
						graph[i][j].MaxPos = _pos;
						graph[i][j].PreTag = graph[i - 1][n].CurTag;
					}
				}
			}
		}

		// 筛选最优解
		int m = 0;
		Double _maxpos = 0.0;
		for (int j = 0; j < 4; j++) {
			if (graph[length - 1][j].MaxPos >= _maxpos) {
				_maxpos = graph[length - 1][j].MaxPos;
				m = j;
			}
		}

		char[] chararr = new char[length * 2];
		for (int i = end - start, j = chararr.length - 1, n = end; i >= 0
				&& j > 0; i--, j -= 2, n--) {
			chararr[j] = graph[i][m].CurTag;
			chararr[j - 1] = sentence[n];
			m = this.getInt(graph[i][m].PreTag);
		}

		StringBuilder sb = new StringBuilder();
		for (int i = 0; i < chararr.length; i += 2) {
			sb.append(chararr[i]);
			if (chararr[i + 1] == 'E' || chararr[i + 1] == 'S') {
				this.resultlist.add(sb.toString());
				sb = new StringBuilder();
			} else if (i == chararr.length - 2)
				this.resultlist.add(sb.toString());
		}
	}

最后算法筛选出最后一行MaxPos最大的值最为最有解，反向遍历最有的路径所包含对应标记，组成了一个位置标记的序列作为分词结果。程序最后输出一个List列表，里边保存了分词的结果。

如希望直接尝试这个分词器，请访问我的网站：http://august-charter-92912.appspot.com/nlp，再次声明，这是谷歌服务器，需要访问要发功。

另外希望看到分词器完整源代码，可以参考博文《【中文分词】亲手开发一款中文分词器——源代码》。

我会在晚些时候尝试使用专业工具测试一下这个分词气的精度，召回率和F率，但是这里不报太高期望。

我是应届毕业生，所以知识结构不完整，文章问题较多，欢迎指正。

你可能感兴趣的:(机器学习,文本分词)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
日常演播练习0822 开阳春天
日常演播练习0822一、绕口令练习司小四和史小世，四月十四日十四时四十上集市，司小四买了四十四斤四两西红柿，史小世买了十四斤四两细蚕丝。司小四要拿四十四斤四两西红柿换史小世十四斤四两细蚕丝。史小世十四斤四两细蚕丝不换司小四四十四斤四两西红柿。司小四说我四十四斤四两西红柿可以增加营养防近视，史小世说我十四斤四两细蚕丝可以织绸织缎又抽丝。二、文本练习狗熊是动物街有名的美食家，它吃得多所以长得胖，它能吃
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
2022-05-22光印随思60学习要与现实打通无名之米8
20220522光印随思60学习要与现实打通今天在匆忙中完成了新网师课程的第七次预习作业。每次完成预习作业的过程都是一次艰难的学习，先要学习相关的文本和文件，了解作业需要的理论知识，之后需要把理论知识运用于实际工作和生活中。这也是学习的真正价值所在。在很多时候，会有这样的感觉，读了很多书为什么没有啥长进？现在回想应该就是，当只有阅读和感受，没有把阅读心得转化为文字，没有把阅读的知识运用到实际的场景
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
Dockerfile FROM 两个 redDelta
Docker相关视频讲解：什么是容器Docker介绍实现"DockerfileFROM两个"的步骤步骤表格步骤操作1创建一个Dockerfile文件2写入FROM指令3构建第一个镜像4创建第二个Dockerfile文件5写入FROM指令6构建第二个镜像7合并两个镜像操作步骤说明步骤1：创建一个Dockerfile文件使用任意文本编辑器创建一个名为Dockerfile的文件。登录后复制#Docker
Shell脚本中sed使用 jcrhl321 linux
目录一、sed编辑器1、sed概述2、sed的工作流程3、sed命令的常见格式4、sed命令常用操作二、sed常用命令使用1、sed打印2、sed删除3、sed替换4、sed插入与增加4、sed剪切粘贴与复制粘贴一、sed编辑器sed（StreamEDitor）是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑（删除、替换、添加、移动等），最后输出所有行或者仅输出
处理标签包裹的字符串，并取出前250字符周bro 前端 javascript 开发语言
//假设这是你的HTML字符串varhtmlString=`这是一个段落。这是一个标题这是另一个段落，包含一些链接。`;//解析HTML字符串并提取文本functionextractTextFromHTML(html){varparser=newDOMParser();vardoc=parser.parseFromString(html,"text/html");vartextContent=do
vue2实现复制,粘贴功能周bro vue.js javascript 前端
一、需求说明在项目中点击按钮复制某行文本是很常见的应用场景，在Vue项目中实现复制功能需要借助vue-clipboard2插件。二、代码实现1、安装vue-clipboard2依赖（出现错误的话，可以试试切换成淘宝镜像源npmconfigsetregistryhttps://registry.npm.taobao.org）npminstall--savevue-clipboard22、在main.
css设置当字数超过限制后以省略号（...）显示周bro css 前端 vue css3 html 经验分享
1、文字超出一行，省略超出部分，显示’…’用text-overflow:ellipsis属性来，当然还需要加宽度width属来兼容部分浏览。overflow:hidden;text-overflow:ellipsis;white-space:nowrap;2、多行文本溢出显示省略号display:-webkit-box;-webkit-box-orient:vertical;-webkit-lin
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
【Python】tkinter及组件如何使用小九不懂SAP 我的Python日记 python 开发语言 tkinter
一、tkinter的应用场景tkinter是Python的标准GUI（图形用户界面）库，它提供了丰富的控件和工具，使得开发者能够轻松创建跨平台的桌面应用程序。以下是一些tkinter的常见应用场景：桌面应用程序开发：开发者可以使用tkinter来创建各种桌面应用程序，如文本编辑器、计算器、图片查看器、游戏等。这些应用程序可以具有复杂的用户界面，包括窗口、按钮、文本框、下拉菜单、滚动条等。数据可视化
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul