自然语言分词工具

一.分词软件简介

分词算法在20世纪80年代就有研究，不过基于当时的技术条件所限，大多数就是原始的机械分词算法。比如，最大匹配算法，mmseg等。关于原始的机械分词算法 http://www.cnblogs.com/alic/articles/1215001.html 这篇blog有很详细的介绍。

之后随着统计算法在自然语言处理领域地位的奠定以及机器学习的兴起，基于统计和机器学习的分词算法逐渐成为主流。根据机器学习方法的分类，分词算法也可以分成无监督分词，半监督分词以及有监督的分词。目前有监督的分词以及半监督的分词已经研究的比较成熟。对于这种分词算法，大致可以分为四类：

第一类是生成式的基于词的分词方法，这类具有代表的是中科院的ICTCLAS等等比较经典的分词软件。
第二类是判别式的基于词的分词方法，这类中的算法比较少，其中一个是基于平衡感知机的分词。
第三类是生成式基于字的生成式分词方法，比如Wang(2009)所提出的n元模型分词算法。
第四类也是目前主流的是基于字的判别式分词方法，主要是最大熵模型和条件随机场模型。几乎全部2003年之后提出的分词算法都与这一类别有关，比如哈工大的LTP和Stanford Word Segmenter就是采用CRF模型。

此外，分词算法还可以根据在自然预言处理中的步骤来分，比如纯分词，就是除了分词之外什么都不做，大多数基于字的分词算法都属于这一类。此外将分词和词性标注结合在一起完成，比如ICTCLAS。还有基于语义网络分词的算法。总的来说，结合额外信息越多，对于分词结果就越好。比如ICTCLAS将分词与词性标注结果结合起来，效果就比光光使用一元概率模型（ICTCLAS）效果要好。

分词模型

分词模型大致可以分为判别式和生成式，以及基于词和基于字的方法。主要使用到的模型为: n-Gram，Percepton，HMM，SVM，ME，CRF。判别式和生成式的区别就是判别式是计算P(Y|X)的条件概率，但是生成式则是计算P(X1, X2)的联合概率，通常来说判别式的效果要比生成式的要好，这一分类比较复杂，不好解释，涉及到很多数学模型，详情可以去看看相关资料。

基于词和基于字的分词的区别就是基于词的算法将词看成算法中最小单元，比如这句话

结合/成/分子/时

在基于词的分词算法中，主要用到一个词典，“结合”、“成”、“分子”在词典中，它们是分词中的最小单元，不可拆分，一旦拆分就会出现分词错误。但是基于字的分词算法则不同，它将每个字看成是一个单元，通常和序列标注相结合，对每个字进行标注，然后得出分词结果。比如

结合成分子时

使用CRF等序列标注模型得出的序列标注结果是

B E S B E S

其中B表示一个词的开头，E表示一个词的结尾，S表示单个字作为词。然后分词的结果经过一些小处理就可以得出了。

通常来说基于词的分词算法在词典比较全，文章比较正式的时候效果比较好。但是总是会遇见一些比较变态的词典中没有的词，其中最有代表的就是人名地名还有商标名等等。所以一般这些基于词分词软件还必须要加上识别人名地名的功能。

基于字的分词算法主要是依赖于某些字在构词方面的特征，比如“的”字通常就是单个字出现，有很大的几率是标注S，“化”字比较喜欢出现在词的末尾，比如现代化，工业化等等。根据这些信息进行标注分词，它对于词典中不存在的词效果识别几率比较大，但是对于词典中的词可能会识别错误，另外还会出现千奇百怪的分词错误，比如“沙把”等等。因此，现在多数的分词软件在基于字的基于上，或多或少的结合了一点基于词的特征。

二.实现中文分词的18种分词工具

由于中文文本词与词之间没有像英文那样有空格分隔，因此很多时候中文文本操作都涉及切词，这里整理了一些。一般来说用CRF实现的分词工具的处理速度是比较慢的（训练CRF模型是非常耗时的），但是精度高，涉及CRF的分词工具有CRF++，Stanford分词工具。

Bakeoff是一个国际中文处理比赛，有多个语料，所以每个语料都有排名。只有部分优秀的Bakeoff工具开源，以下介绍以下18种分词工具（大部分是基于java语言）：

Stanford 汉语分词工具

官网：http://nlp.stanford.edu/software/segmenter.shtmlStanford 汉语分词工具的成绩：2005年Bakeoff2两个语料的测试第一。Stanford 汉语分词工具

一篇使用介绍：http://hi.baidu.com/liheming333/item/585fba1f898838623e87ce18

斯坦福自然语言小组直接使用CRF 的方法，特征窗口为5。

哈工大语言云（LTP -cloud）

项目网址：http://www.ltp-cloud.com/download/#ltp_cloud_sdk

HIT的ITNLP Lab, HIT Wei JIANG在Bakeoff 2005的open语料MSR上获得测评第一名。语言云曾获CoNLL2009七国语言句法语义分析评测总成绩第一名，使用方式为web service。

语言云（语言技术平台云 LTP-Cloud）是由哈工大社会计算与信息检索研究中心研发的云端自然语言处理服务平台。后端依托于语言技术平台，语言云为用户提供了包括分词、词性标注、依存句法分析、命名实体识别、语义角色标注在内的丰富高效的自然语言处理服务。

作为基于云端的服务，语言云具有如下一些优势：

免安装：用户只需要下载语言云客户端源代码，编译执行后即可获得分析结果，无需调用静态库或下载模型文件。
省硬件：语言云客户端几乎可以运行于任何硬件配置的计算机上，用户不需要购买高性能的机器，即可快捷的获得分析结果。
跨平台：语言云客户端几乎可以运行于任何操作系统之上，无论是Windows、Linux各个发行版或者Mac OS。
跨编程语言：时至今日，语言云已经提供了包括C++，Java，C#，Python，Ruby在内的客户端，其他编程语言的客户端也在开发之中。

在运算资源有限，编程语言受限的情况下，语言云无疑是用户进行语言分析更好的选择。

从2006年9月5日开始该平台对外免费共享目标代码，截止目前，已经有国内外400多家研究单位共享了LTP，也有国内外多家商业公司购买了LTP，用于实际的商业项目中。2011年6月1日，为了与业界同行共同研究和开发中文信息处理核心技术，正式将LTP的源代码对外共享，LTP由C++语言开发，可运行于Windows和Linux操作系统。

ICTCLAS：　汉语词法分析系统

官网：http://ictclas.nlpir.org/ Author：中国科学院计算技术研究所

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)获取Bakeoff 1两项第一。这是最早的中文开源分词项目之一，ICTCLAS在国内973专家组组织的评测中活动获得了第一名，在第一届（2003）国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。

性能：分词速度单机996KB/s， API 不超过 200KB ，各种词典数据压缩后不到 3M.

准确率：分词精度98.45%

语言和平台：ICTCLAS全部采用 C/C++ 编写，支持 Linux 、 FreeBSD 及 Windows 系列操作系统，支持 C/C++ 、 C# 、 Delphi、 Java 等主流的开发语言。

主要功能：中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典；支持繁体中文；支持GBK 、 UTF-8 、 UTF-7 、 UNICODE 等多种编码格式。

算法：完美PDAT 大规模知识库管理技术（ 200510130690.3 ），在高速度与高精度之间取得了重大突破，该技术可以管理百万级别的词典知识库，单机每秒可以查询 100 万词条，而内存消耗不到知识库大小的 1.5 倍。层叠隐马尔可夫模型（ Hierarchical Hidden Markov Model ），该分词系统的主要是思想是先通过 CHMM( 层叠形马尔可夫模型 ) 进行分词 , 通过分层 , 既增加了分词的准确性 , 又保证了分词的效率 . 共分五层, 如下图所示。基本思路是进行原子切分 , 然后在此基础上进行N- 最短路径粗切分 , 找出前 N 个最符合的切分结果 , 生成二元分词表 , 然后生成分词结果 , 接着进行词性标注并完成主要分词步骤 .

Ansj（ICTCLAS的java实现）

项目网址：https://github.com/ansjsun/ansj_seg

作者网址：http://www.ansj.org/

ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict.中文分词,人名识别,词性标注,用户自定义词典增加了对lucene的支持.如果不想编译文件可以直接到 https://github.com/ansjsun/mvn-repo/tree/gh-pages/org/ansj这里下载jar包!

这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化。

性能：内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)，文件读取分词每秒钟大约30万字

正确率：准确率能达到96%以上

功能：目前实现了.中文分词. 中文姓名识别 . 用户自定义词典可以应用到自然语言处理等方面,适用于对分词效果要求搞的各种项目.

庖丁解牛分词

官网：http://code.google.com/p/paoding/

语言和平台：Java,提供 lucence 3.0 接口，仅支持 Java 语言。

性能：在PIII 1G 内存个人机器上， 1 秒可准确分词 100 万汉字。

算法：采用基于不限制个数的词典文件对文章进行有效切分

主要功能：使能够将对词汇分类定义。能够对未知的词汇进行合理解析

盘古分词

官网：http://pangusegment.codeplex.com

博客：http://www.cnblogs.com/eaglet/

是一个中英文分词组件。Pan Gu Segment is alibrary that can segment Chinese and English words from sentence.盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件，拥有大量用户。作者基于之前分词组件的开发经验，结合最新的开发技术重新编写了盘古分词组件。

主要功能：中文分词功能，中文未登录词识别，词频优先，盘古分词可以根据词频来解决分词的歧义问题，多元分词，盘古分词提供多重输出解决分词粒度和分词精度权衡的问题，中文人名识别，强制一元分词，繁体中文分词，同时输出简体和繁体中文词性输出盘古分词可以将以登录词的中文词性输出给用户，以方便用户做进一步处理，全角字符支持，盘古分词可以识别全角的字母和数字，英文分词，英文专用词识别（一些英文简写是字母符号混合，或者是字母数字混合，这个分词起来就不能按照空格符号这样分割了，对于字母符号混合的如 U.S.A ，只要将这个词录入到字典中，盘古分词就可以分出整词。对于字母和数字混合的，盘古分词会自动作为整词输出），英文原词输出，英文大小写同时输出。

其他功能：

停用词过滤：对于一些标点符号，连词，助词等有时候需要在分词时过滤掉，盘古分词提供一个 StopWord.txt 文件，用户只要将需要过滤的词加入到这个文件中，并将停用词过滤开发打开，就可以过滤掉这些词。

设置分词权值：盘古分词可以让用户对如下特性设置自定义权值，1 未登录词权值 2 最匹配词权值 3 次匹配词权值 4 再次匹配词权值 5 强行输出的单字的权值 6 数字的权值 7 英文词汇权值 8 符号的权值 9 强制同时输出简繁汉字时，非原来文本的汉字输出权值。

用户自定义规则：

字典管理，盘古分词提供一个字典管理工具 DictManage 通过这个工具，你可以增加，修改，和删除字典中的单词

动态加载字典，通过字典工具增加，修改，和删除字典中的单词后，保持字典，盘古分词会自动将新的字典文件加载进去，而不需要重新启动。

关键词高亮组件，Lucene 提供了一个关键词高亮组件，但这个组件对中文的支持不是特别好，特别是如果还有多元分词的情况，处理的就更不好。盘古分词提供了一个针对中文和英文的关键词高亮组件 PanGu.HighLight ，其对中文的支持要好于Lucene 那个高亮组件。

同义词输出( 后续版本提供 )，Lucene.net 接口及示例等在PanGu4Lucene 这个包里面有我做的一个盘古 +Lucene 的简单新闻搜索 Web 示例程序， Release 包里面有使用说明。

性能：Core Duo 1.8 GHz 下单线程分词速度为 390K 字符每秒， 2 线程分词速度为 690K 字符每秒。

算法：盘古分词提供的字典包括17万个中文常用单词，但这个字典依然不够完整，如果要分词更准确，需要适当维护一下这个字典。中文人名的识别能力取决于 ChsSingleName.txt ， ChsDoubleName1.txt ， ChsDoubleName2.txt 这三个文件，它们分别表示单子人名，双字人名的首字和双字人名的尾字。

IKAnalyzer

官网：http://code.google.com/p/ik-analyzer/

作者博客：http://linliangyi2007.iteye.com/

从2006年12月推出1.0版开始。开源轻量级的包语言和平台：基于java 语言开发，最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的 IKAnalyzer3.0 则发展为面向 Java 的公用分词组件，独立于 Lucene 项目，同时提供了对 Lucene 的默认优化实现。

算法：采用了特有的“ 正向迭代最细粒度切分算法 “ 。采用了多子处理器分析模式，支持：英文字母（ IP 地址、 Email 、 URL ）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。优化的词典存储，更小的内存占用。支持用户词典扩展定义。针对 Lucene 全文检索优化的查询分析器 IKQueryParser ；采用歧义分析算法优化查询关键字的搜索排列组合，能极大的提高 Lucene 检索的命中率。

性能：在系统环境：Core2i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力

imdict-chinese-analyzer

官网：http://code.google.com/p/imdict-chinese-analyzer/是imdict 智能词典的智能中文分词模块，ictclas4j中文分词系统是 sinboy 在中科院张华平和刘群老师的研制的 FreeICTCLAS 的基础上完成的一个 java 开源分词项目，简化了原分词程序的复杂度，旨在为广大的中文分词爱好者一个更好的学习机会。

算法：基于隐马尔科夫模型(Hidden Markov Model， HMM) ，是中国科学院计算技术研究所的 ictclas 中文分词程序的重新实现（基于 Java ），可以直接为lucene搜索引擎提供简体中文分词支持。

主要功能：

1，完全 Unicode 支持，分词核心模块完全采用Unicode 编码，无须各种汉字编码的转换，极大的提升了分词的效率。2. 提升搜索效率，根据imdict 智能词典的实践，在有智能中文分词的情况下，索引文件比没有中文分词的索引文件小 1/3

3. 提高搜索准确度，imdict-chinese-analyzer采用了 HHMM 分词模型，极大的提高了分词的准确率，在此基础上的搜索，比对汉字逐个切分要准确得多！

4. 更高效的数据结构，为了提高效率，针对常用中文检索的应用场景，imdict-chinese-analyzer 对一些不必要的功能进行了删减，例如词性标注、人名识别、时间识别等等。另外还修改了算法的数据结构，在内存占用量缩减到 1/3 的情况下把效率提升了数倍。imdict-chinese-analyzer的分词效率与 C ＋＋实现的 ICTCLAS 3.0的分词效率在同一个数量级，是 ictclas4j 的 36 倍！

mmseg4j

项目网址：（旧）http://code.google.com/p/mmseg4j/

（新）https://github.com/chenlb/mmseg4j-solr

作者博客：http://blog.chenlb.com/ http://chenlb.iteye.com/

算法：

1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/)实现的中文分词器，并实现 lucene 的 analyzer和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。

2、MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四个规则过虑。官方（指mmseg论文的作者）说：词语的正确识别率达到了 98.41%。

mmseg4j 已经实现了这两种分词算法。

1.5版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右，（测试机：AMD athlon 64 2800+ 1G内存 xp）。

1.6版在complex基础上实现了最多分词(max-word)。“很好听” -> “很好|好听”; “中华人民共和国” -> “中华|华人|共和|国”; “中国人民银行” -> “中国|人民|银行”。

1.7-beta 版, 目前 complex 1200kb/s左右, simple 1900kb/s左右, 但内存开销了50M左右. 上几个版都是在10M左右.

1.8 后,增加 CutLetterDigitFilter过虑器，切分“字母和数”混在一起的过虑器。比如：mb991ch 切为 “mb 991 ch”。

mmseg4j实现的功能详情请看：http://mmseg4j.googlecode.com/svn/trunk/CHANGES.txt

FudanNLP(复旦大学)

官网：http://code.google.com/p/fudannlp/

2013.8.14 发布FudanNLP1.6.1版。时常更新。复旦大学开发的软件。FudanNLP主要是为中文自然语言处理而开发的工具包，也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0许可证。开发语言为Java。功能包括中文分词等，不需要字典支持。

功能：

信息检索：文本分类新闻聚类

中文处理：中文分词词性标注实体名识别关键词抽取依存句法分析时间短语识别

结构化学习：在线学习层次分类聚类精确推理

Jcseg

官网：http://code.google.com/p/jcseg/

jcseg是使用Java开发的一个中文分词器，使用mmseg算法实现。目前最高版本：jcseg1.9.0。兼容最高版本lucene-4.x和最高版本solr-4.x

主要特性：

mmseg四种过滤算法，分词准确率达到了98.41%。

支持自定义词库。在lexicon文件夹下，可以随便添加/删除/更改词库和词库内容，并且对词库进行了分类。如何给jcseg添加词库/新词。

中英文同义词追加/同义词匹配 + 中文词条拼音追加．词库整合了《现代汉语词典》和cc-cedict辞典中的词条，并且依据cc-cedict词典为词条标上了拼音，依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。

中文数字和中文分数识别，例如：”一百五十个人都来了，四十分之一的人。”中的”一百五十”和”四十分之一”。并且jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如：150， 1/40。

支持中英混合词和英中混合词的识别(维护词库可以识别任何一种组合)。例如：B超, x射线, 卡拉ok, 奇都ktv, 哆啦a梦。

更好的英文支持，电子邮件，网址，小数，分数，百分数，字母和标点组合词（例如C++, c#）的识别。(这个对购物网址来说很重要)。

支持阿拉伯数字/小数/中文数字基本单字单位的识别，例如2012年，1.75米，38.6℃，五折，并且jcseg会将其转换为“5折”加入分词结果中。

智能圆角半角, 英文大小写转换；特殊字母识别：例如：Ⅰ，Ⅱ；特殊数字识别：例如：①，⑩

配对标点内容提取：例如：最好的Java书《java编程思想》，‘畅想杯黑客技术大赛’，被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。

智能中文人名识别。中文人名识别正确率达94%以上。（可以维护lex-lname.lex，lex-dname-1.lex，lex-dname-2.lex来提高准确率），(引入规则和词性后会达到98%以上的识别正确率)。

自动中英文停止词过滤功能（需要在jcseg.properties中开启该选项，lex-stopwords.lex为停止词词库）。

词库更新自动加载功能, 开启一个守护线程随时检测词库的更新并且加载。

自动词性标注。

分词速度：

测试环境：2.8GHZ/2G/Ubuntu

Simple 模式： 1366058字/秒 3774.5KB/秒

Complex 模式： 479338字/秒 1324.4KB/秒

分词正确率98%以上，请参考本算法的原作：http://technology.chtsai.org/mmseg/

测试文章，“世界与和平” 简易模式830msec，复杂模式2461msec。

SCWS

算法：基于词频词典的机械中文分词引擎，采用的是采集的词频词典，并辅以一定的专有名称，人名，地名，数字年代等规则识别来达到基本分词

准确率：经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一些小型搜索引擎、关键字提取等场合运用。

性能：45Kb左右的文本切词时间是 0.026 秒，大概是 1.5MB 文本 / 秒，

语言和平台：SCWS 采用纯 C 代码开发，以 Unix-Like OS 为主要平台环境，提供共享函数库，方便植入各种现有软件系统。此外它支持 GBK ， UTF-8 ，BIG5 等汉字编码。支持 PHP4 和PHP 5 。

版本列表

Friso

官网http://code.google.com/p/friso/

friso是使用c语言开发的一个中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入到其他程序中，例如：MySQL，PHP等。并且提供了一个php中文分词扩展robbe。

特性：

只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用，加载完20万的词条，内存占用稳定为14M。】。

mmseg四种过滤算法，分词准确率达到了98.41%。

支持自定义词库。在dict文件夹下，可以随便添加/删除/更改词库和词库词条，并且对词库进行了分类。

词库使用了friso的Java版本jcseg的简化词库。

支持中英混合词的识别。例如：c语言，IC卡。

很好的英文支持，电子邮件，网址，小数，分数，百分数。

支持阿拉伯数字基本单字单位的识别，例如2012年，5吨，120斤。

自动英文圆角/半角，大写/小写转换。并且具有很高的分词速度：简单模式：3.7M/秒，复杂模式：1.8M/秒。

HTTPCWS：

PHPCWS 是一款开源的 PHP 中文分词扩展，目前仅支持 Linux/Unix 系统。

算法：PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法 ” 的 API 进行初次分词处理，再使用自行编写的 “ 逆向最大匹配算法 ” 对分词和进行词语合并处理，并增加标点符号过滤功能，得出分词结果。 ICTCLAS 3.0 商业版是收费的，而免费提供的 ICTCLAS 3.0 共享版不开源，词库是根据人民日报一个月的语料得出的，很多词语不存在。所以本人对 ICTCLAS 分词后的结果，再采用逆向最大匹配算法，根据自己补充的一个 9 万条词语的自定义词库（与 ICTCLAS 词库中的词语不重复），对 ICTCLAS 分词结果进行合并处理，输出最终分词结果。由于 ICTCLAS 3.0 共享版只支持 GBK 编码，因此，如果是 UTF-8 编码的字符串，可以先用 PHP 的 iconv 函数转换成 GBK 编码，再用 phpcws_split 函数进行分词处理，最后转换回 UTF-8 编码。

性能：5 8字节的一句话 ——“2009 年 2 月 13 日，我编写了一款PHP 中文分词扩展： PHPCWS 1.0.0。 ” ，分词速度只需 0.0003 秒。对于那些采用二元交叉切分的搜索引擎， PHPCWS 用在前端搜索层对用户输入的搜索关键字、短语进行分词处理，同样适合。 PHPCWS 开发的目的正在于此，对于短句、小文本中文分词切分，速度非常之快。

libmmseg

语言和平台：用C++ 编写的开源的中文分词软件， libmmseg 主要被作者用来实现 Sphinx 全文检索软件的中文分词功能，因此作者给 Sphinx 提供了一个补丁文件，可以让 Sphinx 集成 libmmseg ，从而支持对于中文文章的全文检索功能。 libmmseg 从 0.7.2版本开始，作者提供了 ruby 调用的接口，所以我们可以直接在ruby 程序里面调用 libmmseg 进行分词了。特别是我们可以用 ferret 去调用 libmmseg 分词功能，从而让 ruby 原生支持中文的全文检索。

算法：“基于词库的最大匹配算法 ”

性能：分词速度为每秒300KB左右。

OpenCLAS

是一个开源的中文词法分析库。

主要功能：其中包括了中文分词、词性标注等功能。系统使用基于概率的多层HMM 。可以对已登录词和未登录词进行识别分析。OpenCLAS是对原有的 ICTCLAS ( 中科院中文词法分析系统 ) 进行的重写。 OpenCLAS 将不包含任何 ICTCLAS 中的源代码，并且以 BSD 协议发布。因此其代码可以在满足 BSD 协议的前提下，用于包括商用在内的各种场合。OpenCLAS将包含三个语言分支，C++, Java 和 C# 。 ( 目前只实现了 C++ 的版本 ) 。

CRF++（上海交大）

项目网址：http://code.google.com/p/crfpp/

详细介绍：http://crfpp.googlecode.com/svn/trunk/doc/index.html

个人主页：http://bcmi.sjtu.edu.cn/~zhaohai/index.ch.html

参考原文地址：

http://ling0322.info/2013/02/13/cws-intro.html

http://www.onexin.net/to-achieve-the-18-chinese-word-segmentation-tool/

你可能感兴趣的:(工具)

2024年必备的AI代码编辑器：Cursor等8款神器推荐 surfirst LLM 人工智能编辑器 Cursor 开发者
AI代码编辑器在2024年深刻影响了开发者2024年，AI代码编辑器成为开发者日常工作中的核心工具，对编程方式和效率产生了深刻影响。以下几点尤其值得关注：加速应用开发：AI工具帮助开发者快速实现流程自动化，提高研发效率，并优化用户体验。例如，根据某项调查显示，使用AI代码编辑器后，开发速度提高了30%。个体效能显著提高：AI代码编辑器让个人开发者能够像一个小团队一样高效工作。全栈开发变得更加容易，
Systrace系列1—— 简介添码星空工具使用 android 经验分享 ide java
本文主要是对Systrace进行简单介绍，介绍其简单使用方法；如何去看Systrace；如何结合其他工具对Systrace中的现象进行分析。本系列的目的是通过Systrace这个工具，从另外一个角度来看待Android系统整体的运行，同时也从另外一个角度来对Framework进行学习。也许你看了很多讲Framework的文章，但是总是记不住代码，或者不清楚其运行的流程，也许从Systrace这个图
kotlin的协程的基础概念小李飞飞砖 kotlin 前端开发语言
Kotlin的协程是一种用于简化异步编程的强大工具。理解协程的基础概念可以帮助开发者有效地利用其能力。以下是Kotlin协程的一些关键基础概念：协程（Coroutines）：协程是一种用于处理并发任务的编程模型，它可以在单个线程内执行异步任务。与传统的线程相比，协程更加轻量级，可以高效地执行大量并发任务。挂起函数（SuspendFunctions）：使用suspend关键字定义的函数，可以在不阻塞
Yii框架中的表单构建器：构建复杂表单 ac-er8888 服务器运维 php 开发语言
Yii框架中的表单构建器（FormBuilder）是一个强大的工具，它允许开发人员以简单、面向对象的方式构建复杂的表单，从而提升Web应用的用户体验。以下是对Yii框架中表单构建器的详细简述，特别是在构建复杂表单方面的应用：一、表单构建器的基础组件介绍：Yii表单构建器是Yii框架中的一个组件，专门用于创建Web表单。它提供了一个简单的、面向对象的编程接口，使得开发人员能够轻松地创建各种常见的表单
Perl 语言入门学习喵丶派对适用的技巧 perl
Perl是一种自由和通用的脚本语言，特别适用于文本处理。它的设计者是LarryWall，最初是为了简化Unix系统管理任务而开发的。Perl具有丰富的正则表达式功能、内置的数据结构、强大的文件处理能力以及灵活的语法，使得它成为了许多系统管理员和网络管理员的首选工具。Perl的特点：简洁的语法：Perl的语法非常简单，易于学习和阅读。它的代码通常很紧凑，易于编写和维护。跨平台：Perl可以在几乎所有
Linux下内存泄漏排查极地星光 Linux 运维 linux
在Linux系统下，针对C++项目的内存泄漏排查，可以采用多种方法和工具。以下是对这些方法和工具的总结：一、基础工具和命令top和htop：top命令可以实时监控系统资源使用情况，包括内存使用情况。通过运行top命令并按下M键，可以按照内存使用量排序，查看占用内存较多的进程。htop是top的增强版，提供了更友好的界面和更多功能。free命令：显示系统的内存使用情况，包括物理内存、交换空间等。ps
Spring 3自定义注解与格式化器的深度实践 t0_54manong spring python 数据库个人开发
在Spring框架中，格式化器（Formatter）和注解（Annotation）是处理数据格式化和验证的强大工具。通过将注解与格式化器绑定，我们可以在字段级别灵活地定义数据的格式化规则。本文将通过一个完整的示例，展示如何创建自定义注解、格式化器，并将它们绑定到Spring的AnnotationFormatterFactory中，实现字段级别的数据格式化。一、背景与需求在开发Web应用时，我们经常
Perl语言的软件开发工具 Code侠客行包罗万象 golang 开发语言后端
Perl语言的软件开发工具引言Perl是一种功能强大且灵活的高级编程语言，自1987年由拉里·沃尔（LarryWall）创建以来，就广泛应用于文本处理、系统管理、网络编程、Web开发等多个领域。作为一种脚本语言，Perl以其简洁的语法和强大的正则表达式处理能力而受到开发者的青睐。在实际开发过程中，虽然没有像Java或Python那样广泛流行，但Perl也有着自己独特的生态系统，其中包括许多强大的开
MDX语言的语法糖 ByteBlossom666 包罗万象 golang 开发语言后端
MDX语言的语法糖及其应用分析引言在当今数据驱动的时代，大数据分析和数据可视化已成为企业决策中不可或缺的一部分。MDX（MultidimensionalExpressions，多维表达式）作为一门专为分析多维数据而设计的查询语言，广泛应用于商业智能（BI）工具中。随着技术的发展，MDX语言逐渐演变，形成了其独特的语法糖，以提高开发者的效率和可读性。本文将深入探讨MDX语言的语法糖特性及其在实际应用
GitHub的原理及应用详解（二）凛鼕将至 Java技术栈高级攻略 github
本系列文章简介：GitHub是一个基于Git版本控制系统的代码托管平台，为开发者提供了一个方便的协作和版本管理的工具。它广泛应用于软件开发项目中，包括但不限于代码托管、协作开发、版本控制、错误追踪、持续集成等方面。GitHub的原理可以简单概括为，在本地创建一个仓库（repository），可以将项目的代码和文件上传到仓库中进行管理。每次对代码的修改都会生成一个新的版本，并记录下修改的内容和时间等
利用E2B环境进行数据分析 - 创建一个简单的OpenAI Agent srudfktuffk 数据分析数据挖掘 python
在AI技术应用中，数据分析是一个关键环节。E2B的云环境为大模型（LLM）的运行提供了一个安全的运行时沙箱，非常适合用来构建代码解释器或进行高级数据分析。在这篇文章中，我们将介绍如何利用E2B的DataAnalysis沙箱，结合OpenAI的API，创建一个简化的自动化数据分析应用。技术背景介绍E2B的DataAnalysis沙箱能够安全地执行代码，是构建自动化数据分析工具的理想选择。该沙箱提供了
使用 OpenRewrite 升级 JDK 17 潘多编程 java elasticsearch 开发语言
随着Java技术的不断发展，JDK17作为长期支持版本，带来了诸多新特性和性能优化。如果你的项目还停留在旧版本的JDK上，升级到JDK17是一个不错的选择。而OpenRewrite作为一个强大的代码重构工具，可以帮助我们自动化地完成这一升级过程。下面将通过一个实际案例，展示如何使用OpenRewrite将项目升级到JDK17。一、案例背景假设我们有一个基于JDK8的SpringBoot项目，项目中
IT综合运维管理系统智能助手观察 IT运维运维 IT运维管理
随着信息技术的快速发展，企业对于IT系统的依赖程度越来越高。而IT系统的正常运行和高效管理成为企业稳定运营的保障。为了满足企业的需求，IT综合运维管理系统应运而生。本文将介绍IT综合运维管理系统的概念、功能和优势。一、概念IT综合运维管理系统是一种通过集成各种运维工具和平台，以实现对企业IT系统的全面监控、管理和优化的系统。它涵盖了IT设备管理、IT服务管理、IT运维管理、IT性能管理等多个领域。
500人规模的企业CRM系统选型推荐
在当今竞争激烈的商业环境中，客户关系管理（CRM）对于企业的生存与发展起着至关重要的作用。尤其对于500人规模的中型企业而言，如何高效地管理客户资源、提升销售业绩、优化客户服务已成为企业战略布局中的关键环节。CRM系统作为企业实现这些目标的有力工具，其选型的恰当与否直接影响到企业在市场中的竞争力与运营效率。因此，本文深入分析500人中型企业对CRM的需求，并准确推荐合适的CRM系统，为企业主选型提
【部署prometheus+pushgateway+node_exporter+opengauss_exporter+grafana监控openGauss数据库】 momge prometheus 数据库
1.Prometheus组件总览如上图所示，Prometheus监控系统主要由三部分组成：监控数据采集（上图左）、监控数据存储处理（上图中）、监控数据显示上报（上图右）exporters该工具用于将Prometheus不能识别的指标数据转换为Prometheus能识别的指标数据，它可以将各种应用程序、服务、操作系统等的指标数据暴露为HTTP接口，供PrometheusServer采集。pushga
OpenCV相机标定与3D重建(66)对立体匹配生成的视差图（disparity map）进行验证的函数validateDisparity()的使用 jndingxin OpenCV opencv 3d
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述使用左右检查来验证视差。矩阵“cost”应该由立体对应算法计算。cv::validateDisparity函数是OpenCV库中用于对立体匹配生成的视差图（disparitymap）进行后处理的一个工具。其主要功能是对计算出的视差值进行验证，确保相邻像素间的视差值
【原创】大数据治理入门（5）《数据生命周期管理：从采集到归档》入门必看高赞实用精通代码大仙数据库 hadoop python 大数据数据挖掘数据治理数据库 python
数据生命周期管理：从采集到归档引言：数据生命周期的概念数据生命周期管理（DataLifecycleManagement，DLM）是指从数据的创建、使用、存储到最终归档或销毁的全过程管理。在大数据时代，企业需要通过对数据生命周期的全面管理，确保数据的可用性、安全性和合规性。本文将详细介绍数据生命周期的各个阶段，以及相应的管理策略和技术工具。各阶段介绍：采集、存储、处理、分析、归档数据采集（DataC
如何使用 LangChain 实现模型功能调用 dagGAIYD langchain python
在本文中，我们将探索如何使用LangChain框架实现语言模型（LLM）的功能调用。这是构建智能对话系统、工具调用代理等应用的核心能力。通过本文，你将能够理解模型功能调用的原理，并学习如何在代码中实现这一功能。技术背景介绍功能调用是近年来语言模型（特别是ChatGPT等对话模型）的一个重要特性。它允许开发者定义特定的工具或功能，并让模型根据上下文自动决定是否调用这些功能，以及如何调用。LangCh
使用ModelScope实现高效句嵌入生成 dagGAIYD python
技术背景介绍在自然语言处理（NLP）任务中，向量化文本（嵌入）是许多下游任务（如语义搜索、文本分类、问答系统等）的核心步骤之一。通过将文本转换为密集向量表示，我们可以在高维向量空间中构建更加高效的表示和检索算法。ModelScope是阿里云开源的一个模型和数据集管理平台，提供了大量预训练模型，涵盖了各种领域和任务。ModelScopeEmbeddings是一个与LangChain社区集成的工具类，
php中的伪协议 rzydal php 开发语言安全笔记学习
简介在PHP中，伪协议是一种强大的工具，允许开发者以不同的方式访问和操作文件及数据流。然而，需要注意的是，不当使用伪协议可能导致安全漏洞。虽然PHP伪协议主要用于文件操作函数（如file_get_contents(),fopen(),include(),require()等），并且其中一些协议出于安全考虑被限制在某些上下文中使用，但了解它们仍然对安全研究和测试很有价值。然而，需要注意的是，使用PH
告警管理 SOP：确保问题及时发现与处理 ivwdcwso 运维服务器告警运维
在云运维中，告警管理是确保系统稳定运行的关键环节。通过合理的告警策略和工具，团队可以及时发现问题并快速响应，从而减少对用户的影响。本文将详细介绍告警管理SOP（StandardOperatingProcedure，标准操作流程），涵盖告警目标、工具选择以及具体的操作步骤。©ivwdcwso(ID:u012172506)1.告警目标告警管理的核心目标是及时发现问题并减少误报，确保团队能够快速响应和处
速通 AI+Web3 开发技能: 免费课程+前沿洞察 OpenBuild.xyz 人工智能 web3 区块链去中心化
AI正以前所未有的速度重塑各行各业，从生成式模型到大规模数据处理，AI逐渐成为核心驱动力。与此同时，Web3去中心化技术也在重新定义信任、交易和协作方式。当这两大前沿技术相遇，AI+Web3的融合已不再是理论，而是未来趋势，有望催生出颠覆性的创新应用和商业模式。AI提供智能化工具和算法支持，Web3则为数据和应用赋予了去中心化的灵魂，二者结合将开创全新的技术生态。无论是智能合约中的AI决策，还是链
PDF的全能工具箱，你必不可少的办公助手 Ag大雨 pdf
PDFgear是一款集合了多种PDF处理工具的软件套装它包括PDF阅读、编辑、转换、合并和签署等功能。这款软件提供了全面的PDF处理解决方案，使用户能够轻松地完成各种与PDF文件相关的任务。功能特点多功能性：支持多种与PDF相关的操作，包括但不限于编辑、转换、合并和签署。这为用户提供了一个一站式的解决方案，可以满足各种与PDF文件处理相关的需求。文本编辑：支持编辑PDF文本，允许用户添加、替换甚至
云原生架构下的AI智能编排：ScriptEcho赋能前端开发前端
在当今快速发展的数字经济时代，云原生架构已成为构建现代化应用的关键。它通过微服务、容器化和DevOps等技术，实现了应用的高可用性、可扩展性和弹性。然而，在云原生架构下，前端开发也面临着新的挑战。为了应对这些挑战，AI写代码工具（例如ScriptEcho）应运而生，通过AI智能编排，显著提升了前端开发效率。本文将深入探讨AI智能编排在云原生架构中的作用，并以ScriptEcho为例，阐述其如何加速
新能源行业必会基础知识-----电力现货市场理论篇-----电力市场概述-----电力市场模式选择殷丿grd_志鹏新能源新能源电力市场经济学电力现货行业知识
新能源行业必会基础知识-----电力现货市场理论篇-----主目录-----持续更新https://blog.csdn.net/grd_java/article/details/143364261这本书是2023年出版的，是当下了解国内电力市场最好的途径了。还是推荐大家买来这本书进行阅读观看，最好作为随身携带的查阅工具书。内容均为阅读此书后，基于个人理解进行的总结，如有错误还请指正。推荐搭配书本阅
新能源行业必会基础知识---电力现货问答---第7问---何为电力辅助服务市场？和电力现货市场有什么关系？国外有哪些典型的电力辅助服务市场？殷丿grd_志鹏新能源新能源电力市场电力现货行业知识
新能源行业必会基础知识-----电力现货问答-----主目录-----持续更新https://blog.csdn.net/grd_java/article/details/142909208虽然这本书已经出来有几年了，现货市场已经产生了一定变化，但是原理还是相通的。还是推荐大家买来这本书进行阅读观看，最好作为随身携带的查阅工具书。什么是电力辅助服务市场？电力辅助服务市场与电力现货市场的关系是什么？
别再手动下载！用pip直接安装GitHub上的Python第三方库 python
引言平时安装Python库我们一般是直接使用pip或者其他的工具包管理工具安装，因为库都发布到了pypi上面，可以直接安装。但是有的时候会有一些Python软件包没有发布到pypi上面，这种情况下我们要安装的话要将它clone下来，然后进入到文件夹中安装，本篇文章分享一种新的方式，可以直接安装。pip+git先看官方文档：python-mpipinstall[options][package-in
Md5sum与aide的使用入眼皆含月 linux 运维安全知识图谱
一、Md5sum1、概述md5sum是一个用于计算和校验文件MD5哈希值的工具。MD5（Message-DigestAlgorithm5）是一种广泛使用的哈希算法，它可以产生一个128位（16字节）的哈希值，通常用32位的十六进制字符串表示。md5sum命令可以生成文件的MD5校验和，并与原始校验和进行比较，以判断文件是否被篡改。2、Md5sum的用途（1）验证文件完整性：在文件传输或备份后，使用
打造你的第一个AI Agent：从需求分析到架构设计人工智能机器学习
前面几篇文章，我们讨论了AIAgent的概念和技术选型。今天，我想和大家分享如何从零开始打造一个AIAgent。我会用一个实际的项目案例，带大家走一遍完整的开发流程。项目背景事情要从一个月前说起。那天我正在整理自己的笔记库，突然发现一个痛点：我的笔记散落在各个工具里（Notion、飞书、本地Markdown），想找一个知识点经常要翻好几个地方。于是我就想：能不能做一个AI助手，帮我管理和查询这些笔
C#使用rabbitmq （简单例子）罗汉松驻扎的工作基地 c#rabbitmq
首先在visualstudio项目里面用nuget工具加入easyNetQDLL然后做一个help类usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingEasyNetQ;usingEasyNetQ.Topology;namespa
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$