ctwen

HanLP自然语言处理包开源

支持中文分词（N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注），命名实体识别（中国人名、音译人名、日本人名、地名、实体机构名识别），关键词提取，自动摘要，短语提取，拼音转换，简繁转换，文本推荐，依存句法分析（MaxEnt依存句法分析、CRF依存句法分析）。提供Lucene插件，兼容Lucene4.x。

HanLP: Han Language Processing

汉语言处理包

HanLP是由一系列模型与算法组成的Java工具包，目标是促进自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP提供下列功能：

中文分词

最短路分词

N-最短路分词

CRF分词

索引分词

极速词典分词

用户自定义词典

词性标注

命名实体识别

中国人名识别

音译人名识别

日本人名识别

地名识别

实体机构名识别

关键词提取

TextRank关键词提取

自动摘要

TextRank自动摘要

短语提取

基于互信息和左右信息熵的短语提取

拼音转换

多音字

声母

韵母

声调

简繁转换

繁体中文分词

简繁分歧词

文本推荐

语义推荐

拼音推荐

字词推荐

依存句法分析

MaxEnt依存句法分析

CRF依存句法分析

语料库工具

分词语料预处理

词频词性词典制作

BiGram统计

词共现统计

CoNLL语料预处理

CoNLL UA/LA/DA评测工具

在提供丰富功能的同时，HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布，使用非常方便，同时自带一些语料处理工具，帮助用户训练自己的语料。

项目地址

HanLP项目主页：https://github.com/hankcs/HanLP

HanLP下载地址：https://github.com/hankcs/HanLP/releases

最新binary、文档都以项目主页为准。博客是一个相对容易编辑的地方，所以偶尔会更新一些新消息。

技术问题请在Github上发issue，大家一起讨论。留言、私信无法保证即时回复。

反馈问题的时候最好附上版本号、触发代码，节省彼此的时间。

内存要求

内存120MB以上（-Xms120m -Xmx120m -Xmn64m），标准数据包（35万核心词库+默认用户词典），分词测试正常。

全部词典和模型都是惰性加载的，如果你只用拼音转换的话，则只加载拼音词典，未加载的词典相当于不存在，不占内存。同理，模型也是如此。

更新日志

最新版请移步GitHub！

旧版本一览——

2015年7月12日发布了1.2.4版。在长时间的思考后，决定将用户词典用于分词后的合并处理，使得用户词典中的长词更容易切分出来。

2015年5月11日发布了1.2.2版。主要支持了并行化，优化了CRF分词，新增了TnT分词器，支持了数量词识别。数据包data-for-1.2.2.zip也做了小幅调整。其实最新的更新日志都可以在GitHub上看到，比博客详细多了，更新也勤快多了。

2015年5月02日发布了1.1.5版。主要将ACDAT降级为DAT，内存占用减少了一半。所以需要删缓存重新构建，或者下载data-for-1.1.5.zip。另外，还发布了内置数据包的Portable版，可以通过maven直接引入，零配置！

2015年4月28日发布了1.1.4版。这次训练了一个新的CRF分词模型，感觉效果要好很多（注：该模型与旧版本不兼容）。诸位可以评估一下，提出宝贵意见。

下载与配置

方式一、通过Maven的pom.xml

为了方便用户，特提供内置了数据包的Portable版，只需在pom.xml加入：

com.hankcs
hanlp
portable-1.2.4

零配置，即可使用基本功能（除CRF分词、依存句法分析外的全部功能）。连Maven都懒得用的话，可以直接下载portable版的jar。

如果用户有自定义的需求，可以参考方式二，使用hanlp.properties进行配置。

目前Portable体积仅仅5.7MB，作为代价，使用的是1998年的小词典，对现代汉语的支持有限；所以还是建议外挂下面的数据包比较好。

方式二、下载jar、data、hanlp.properties

HanLP将数据与程序分离，给予用户自定义的自由。

1、下载jar

hanlp.jar

2、下载data

数据包	功能	体积（MB）
data.zip	全部词典，全部模型	280（注：分词词典大约40MB，主要是句法分析模型占体积，可以自行删除。）

在GitHub的release页面Ctrl＋F搜索data即可，下载后解压到任意目录，接下来通过配置文件告诉HanLP数据包的位置。

HanLP中的数据分为词典和模型，其中词典是词法分析必需的，模型是句法分析必需的。

data
│
├─dictionary
└─model

用户可以自行增删替换，如果不需要句法分析功能的话，随时可以删除model文件夹。

3、配置文件

示例配置文件:hanlp.properties

配置文件的作用是告诉HanLP数据包的位置，只需修改第一行

root=usr/home/HanLP/

为data的父目录即可，比如data目录是/Users/hankcs/Documents/data，那么root=/Users/hankcs/Documents/ 。

如果选用mini词典的话，则需要修改配置文件：
CoreDictionaryPath=data/dictionary/CoreNatureDictionary.mini.txt
BiGramDictionaryPath=data/dictionary/CoreNatureDictionary.ngram.mini.txt

最后将HanLP.properties放入classpath即可，对于Eclipse，一般是：

$Project/bin

Web项目的话可以放在如下位置：

$Project/WEB-INF/classes

对于任何项目，都可以放到src目录下，编译时IDE会自动将其复制到classpath中。

如果放置不当，HanLP会智能提示当前环境下的合适路径，并且尝试从项目根目录读取数据集。

调用方法

HanLP几乎所有的功能都可以通过工具类HanLP快捷调用，当你想不起来调用方法时，只需键入HanLP.，IDE应当会给出提示，并展示HanLP完善的文档。

推荐用户始终通过工具类HanLP调用，这么做的好处是，将来HanLP升级后，用户无需修改调用代码。

所有Demo都位于com.hankcs.demo下。

1. 第一个Demo

System.out.println(HanLP.segment("你好，欢迎使用HanLP汉语处理包！"));

2. 标准分词

List<Term> termList = StandardTokenizer.segment("商品和服务");
System.out.println(termList);

说明
- HanLP中有一系列“开箱即用”的静态分词器，以Tokenizer结尾，在接下来的例子中会继续介绍。
- HanLP.segment其实是对StandardTokenizer.segment的包装。
- 分词结果包含词性，每个词性的意思请查阅《HanLP词性标注集》。
算法详解
- 《词图的生成》

3. NLP分词

List<Term> termList = NLPTokenizer.segment("中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程");
System.out.println(termList);

说明
- NLP分词NLPTokenizer会执行全部命名实体识别和词性标注。

4. 索引分词

List<Term> termList = IndexTokenizer.segment("主副食品");
for (Term term : termList)
{
System.out.println(term + " [" + term.offset + ":" + (term.offset + term.word.length()) + "]");
}

说明
- 索引分词IndexTokenizer是面向搜索引擎的分词器，能够对长词全切分，另外通过term.offset可以获取单词在文本中的偏移量。

5. N-最短路径分词

Segment nShortSegment = new NShortSegment().enableCustomDictionary(false).enablePlaceRecognize(true).enableOrganizationRecognize(true);
Segment shortestSegment = new DijkstraSegment().enableCustomDictionary(false).enablePlaceRecognize(true).enableOrganizationRecognize(true);
String[] testCase = new String[]{
"今天，刘志军案的关键人物,山西女商人丁书苗在市二中院出庭受审。",
"刘喜杰石国祥会见吴亚琴先进事迹报告团成员",
};
for (String sentence : testCase)
{
System.out.println("N-最短分词：" + nShortSegment.seg(sentence) + "\n最短路分词：" + shortestSegment.seg(sentence));
}

说明
- N最短路分词器NShortSegment比最短路分词器慢，但是效果稍微好一些，对命名实体识别能力更强。
- 一般场景下最短路分词的精度已经足够，而且速度比N最短路分词器快几倍，请酌情选择。
算法详解
- 《N最短路径的Java实现与分词应用》

6. CRF分词

/**
* CRF分词(在最新训练的未压缩100MB模型下，能够取得较好的效果，可以投入生产环境)
*
* @author hankcs
*/
public class DemoCRFSegment
{
public static void main(String[] args)
{
HanLP.Config.ShowTermNature = false; // 关闭词性显示
Segment segment = new CRFSegment();
String[] sentenceArray = new String[]
{
"HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。",
"鐵桿部隊憤怒情緒集結馬英九腹背受敵", // 繁体无压力
"馬英九回應連勝文“丐幫說”：稱黨內同志談話應謹慎",
"高锰酸钾，强氧化剂，紫红色晶体，可溶于水，遇乙醇即被还原。常用作消毒剂、水净化剂、氧化剂、漂白剂、毒气吸收剂、二氧化碳精制剂等。", // 专业名词有一定辨识能力
"《夜晚的骰子》通过描述浅草的舞女在暗夜中扔骰子的情景,寄托了作者对庶民生活区的情感", // 非新闻语料
"这个像是真的[委屈]前面那个打扮太江户了，一点不上品...@hankcs", // 微博
"鼎泰丰的小笼一点味道也没有...每样都淡淡的...淡淡的，哪有食堂2A的好次",
"克里斯蒂娜·克罗尔说：不，我不是虎妈。我全家都热爱音乐，我也鼓励他们这么做。",
"今日APPS：Sago Mini Toolbox培养孩子动手能力",
"财政部副部长王保安调任国家统计局党组书记",
"2.34米男子娶1.53米女粉丝称夫妻生活没问题",
"你看过穆赫兰道吗",
"乐视超级手机能否承载贾布斯的生态梦"
};
for (String sentence : sentenceArray)
{
List<Term> termList = segment.seg(sentence);
System.out.println(termList);
}
}
}

说明
- CRF对新词有很好的识别能力，但是无法利用自定义词典。
算法详解
- 《CRF分词的纯Java实现》
- 《CRF++模型格式说明》

7. 极速词典分词

/**
* 演示极速分词，基于AhoCorasickDoubleArrayTrie实现的词典分词，适用于“高吞吐量”“精度一般”的场合
* @author hankcs
*/
public class DemoHighSpeedSegment
{
public static void main(String[] args)
{
String text = "江西鄱阳湖干枯，中国最大淡水湖变成大草原";
System.out.println(SpeedTokenizer.segment(text));
long start = System.currentTimeMillis();
int pressure = 1000000;
for (int i = 0; i < pressure; ++i)
{
SpeedTokenizer.segment(text);
}
double costTime = (System.currentTimeMillis() - start) / (double)1000;
System.out.printf("分词速度：%.2f字每秒", text.length() * pressure / costTime);
}
}

说明
- 极速分词是词典最长分词，速度极其快，精度一般。
- 在i7上跑出了2000万字每秒的速度。
算法详解
- 《Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配》

8. 用户自定义词典

public class DemoCustomDictionary
{
public static void main(String[] args)
{
// 动态增加
CustomDictionary.add("攻城狮");
// 强行插入
CustomDictionary.insert("白富美", "nz 1024");
// 删除词语（注释掉试试）
// CustomDictionary.remove("攻城狮");
System.out.println(CustomDictionary.add("单身狗", "nz 1024 n 1"));
System.out.println(CustomDictionary.get("单身狗"));
String text = "攻城狮逆袭单身狗，迎娶白富美，走上人生巅峰"; // 怎么可能噗哈哈！
// DoubleArrayTrie分词
final char[] charArray = text.toCharArray();
CustomDictionary.parseText(charArray, new AhoCorasickDoubleArrayTrie.IHit<CoreDictionary.Attribute>()
{
@Override
public void hit(int begin, int end, CoreDictionary.Attribute value)
{
System.out.printf("[%d:%d]=%s %s\n", begin, end, new String(charArray, begin, end - begin), value);
}
});
// 首字哈希之后二分的trie树分词
BaseSearcher searcher = CustomDictionary.getSearcher(text);
Map.Entry entry;
while ((entry = searcher.next()) != null)
{
System.out.println(entry);
}
// 标准分词
System.out.println(HanLP.segment(text));
// Note:动态增删不会影响词典文件
// 目前CustomDictionary使用DAT储存词典文件中的词语，用BinTrie储存动态加入的词语，前者性能高，后者性能低
// 之所以保留动态增删功能，一方面是历史遗留特性，另一方面是调试用；未来可能会去掉动态增删特性。
}

说明
- CustomDictionary是一份全局的用户自定义词典，可以随时增删，影响全部分词器。
- 另外可以在任何分词器中关闭它。通过代码动态增删不会保存到词典文件。
追加词典
- CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt，用户可以在此增加自己的词语（不推荐）；也可以单独新建一个文本文件，通过配置文件CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;来追加词典（推荐）。
- 始终建议将相同词性的词语放到同一个词典文件里，便于维护和分享。
词典格式
- 每一行代表一个单词，格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ... 如果不填词性则表示采用词典的默认词性。
- 词典的默认词性默认是名词n，可以通过配置文件修改：全国地名大全.txt ns;如果词典路径后面空格紧接着词性，则该词典默认是该词性。
- 关于用户词典的更多信息请参考词典说明一章。
算法详解
- 《Trie树分词》
- 《Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配》

9. 中国人名识别

String[] testCase = new String[]{
"签约仪式前，秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。",
"王国强、高峰、汪洋、张朝阳光着头、韩寒、小四",
"张浩和胡健康复员回家了",
"王总和小丽结婚了",
"编剧邵钧林和稽道青说",
"这里有关天培的有关事迹",
"龚学平等领导,邓颖超生前",
};
Segment segment = HanLP.newSegment().enableNameRecognize(true);
for (String sentence : testCase)
{
List<Term> termList = segment.seg(sentence);
System.out.println(termList);
}

说明
- 目前分词器基本上都默认开启了中国人名识别，比如HanLP.segment()接口中使用的分词器等等，用户不必手动开启；上面的代码只是为了强调。
- 有一定的误命中率，比如误命中关键年，则可以通过在data/dictionary/person/nr.txt加入一条关键年 A 1来排除关键年作为人名的可能性，也可以将关键年作为新词登记到自定义词典中。
- 如果你通过上述办法解决了问题，欢迎向我提交pull request，词典也是宝贵的财富。
算法详解
- 《实战HMM-Viterbi角色标注中国人名识别》

9. 音译人名识别

String[] testCase = new String[]{
"一桶冰水当头倒下，微软的比尔盖茨、Facebook的扎克伯格跟桑德博格、亚马逊的贝索斯、苹果的库克全都不惜湿身入镜，这些硅谷的科技人，飞蛾扑火似地牺牲演出，其实全为了慈善。",
"世界上最长的姓名是简森·乔伊·亚历山大·比基·卡利斯勒·达夫·埃利奥特·福克斯·伊维鲁莫·马尔尼·梅尔斯·帕特森·汤普森·华莱士·普雷斯顿。",
};
Segment segment = HanLP.newSegment().enableTranslatedNameRecognize(true);
for (String sentence : testCase)
{
List<Term> termList = segment.seg(sentence);
System.out.println(termList);
}

说明
- 目前分词器基本上都默认开启了音译人名识别，用户不必手动开启；上面的代码只是为了强调。
算法详解
- 《层叠隐马模型下的音译人名和日本人名识别》

11. 日本人名识别

String[] testCase = new String[]{
"北川景子参演了林诣彬导演的《速度与激情3》",
"林志玲亮相网友:确定不是波多野结衣？",
};
Segment segment = HanLP.newSegment().enableJapaneseNameRecognize(true);
for (String sentence : testCase)
{
List<Term> termList = segment.seg(sentence);
System.out.println(termList);
}

说明
- 目前标准分词器默认关闭了日本人名识别，用户需要手动开启；这是因为日本人名的出现频率较低，但是又消耗性能。
算法详解
- 《层叠隐马模型下的音译人名和日本人名识别》

12. 地名识别

String[] testCase = new String[]{
"武胜县新学乡政府大楼门前锣鼓喧天",
"蓝翔给宁夏固原市彭阳县红河镇黑牛沟村捐赠了挖掘机",
};
Segment segment = HanLP.newSegment().enablePlaceRecognize(true);
for (String sentence : testCase)
{
List<Term> termList = segment.seg(sentence);
System.out.println(termList);
}

说明
- 目前标准分词器都默认关闭了地名识别，用户需要手动开启；这是因为消耗性能，其实多数地名都收录在核心词典和用户自定义词典中。
- 在生产环境中，能靠词典解决的问题就靠词典解决，这是最高效稳定的方法。
算法详解
- 《实战HMM-Viterbi角色标注地名识别》

13. 机构名识别

String[] testCase = new String[]{
"我在上海林原科技有限公司兼职工作，",
"我经常在台川喜宴餐厅吃饭，",
"偶尔去地中海影城看电影。",
};
Segment segment = HanLP.newSegment().enableOrganizationRecognize(true);
for (String sentence : testCase)
{
List<Term> termList = segment.seg(sentence);
System.out.println(termList);
}

说明
- 目前分词器默认关闭了机构名识别，用户需要手动开启；这是因为消耗性能，其实常用机构名都收录在核心词典和用户自定义词典中。
- HanLP的目的不是演示动态识别，在生产环境中，能靠词典解决的问题就靠词典解决，这是最高效稳定的方法。
算法详解
- 《层叠HMM-Viterbi角色标注模型下的机构名识别》

14. 关键词提取

String content = "程序员(英文Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员，但两者的界限并不非常清楚，特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类。";
List<String> keywordList = HanLP.extractKeyword(content, 5);
System.out.println(keywordList);

说明
- 内部采用TextRankKeyword实现，用户可以直接调用TextRankKeyword.getKeywordList(document, size)
算法详解
- 《TextRank算法提取关键词的Java实现》

15. 自动摘要

String document = "算法可大致分为基本算法、数据结构的算法、数论算法、计算几何的算法、图的算法、动态规划以及数值分析、加密算法、排序算法、检索算法、随机化算法、并行算法、厄米变形模型、随机森林算法。\n" +
"算法可以宽泛的分为三类，\n" +
"一，有限的确定性算法，这类算法在有限的一段时间内终止。他们可能要花很长时间来执行指定的任务，但仍将在一定的时间内终止。这类算法得出的结果常取决于输入值。\n" +
"二，有限的非确定算法，这类算法在有限的时间内终止。然而，对于一个（或一些）给定的数值，算法的结果并不是唯一的或确定的。\n" +
"三，无限的算法，是那些由于没有定义终止定义条件，或定义的条件无法由输入的数据满足而不终止运行的算法。通常，无限算法的产生是由于未能确定的定义终止条件。";
List<String> sentenceList = HanLP.extractSummary(document, 3);
System.out.println(sentenceList);

说明
- 内部采用TextRankSentence实现，用户可以直接调用TextRankSentence.getTopSentenceList(document, size)。
算法详解
- 《TextRank算法自动摘要的Java实现》

16. 短语提取

String text = "算法工程师\n" +
"算法（Algorithm）是一系列解决问题的清晰指令，也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。" +
"如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、" +
"空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。\n" +
"\n" +
"1职位简介\n" +
"算法工程师是一个非常高端的职位；\n" +
"专业要求：计算机、电子、通信、数学等相关专业；\n" +
"学历要求：本科及其以上的学历，大多数是硕士学历及其以上；\n" +
"语言要求：英语要求是熟练，基本上能阅读国外专业书刊；\n" +
"必须掌握计算机相关知识，熟练使用仿真工具MATLAB等，必须会一门编程语言。\n" +
"\n" +
"2研究方向\n" +
"视频算法工程师、图像处理算法工程师、音频算法工程师通信基带算法工程师\n" +
"\n" +
"3目前国内外状况\n" +
"目前国内从事算法研究的工程师不少，但是高级算法工程师却很少，是一个非常紧缺的专业工程师。" +
"算法工程师根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、" +
"雷达信号处理、生物医学信号处理等领域的一维信息算法处理。\n" +
"在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法：机器视觉成为此类算法研究的核心；" +
"另外还有2D转3D算法(2D-to-3D conversion)，去隔行算法(de-interlacing)，运动估计运动补偿算法" +
"(Motion estimation/Motion Compensation)，去噪算法(Noise Reduction)，缩放算法(scaling)，" +
"锐化处理算法(Sharpness)，超分辨率算法(Super Resolution),手势识别(gesture recognition),人脸识别(face recognition)。\n" +
"在通信物理层等一维信息领域目前常用的算法：无线领域的RRM、RTT，传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。\n" +
"另外数据挖掘、互联网搜索算法也成为当今的热门方向。\n" +
"算法工程师逐渐往人工智能方向发展。";
List<String> phraseList = HanLP.extractPhrase(text, 5);
System.out.println(phraseList);

说明
- 内部采用MutualInformationEntropyPhraseExtractor实现，用户可以直接调用MutualInformationEntropyPhraseExtractor..extractPhrase(text, size)。
算法详解
- 《基于互信息和左右信息熵的短语提取识别》

17. 拼音转换

/**
* 汉字转拼音
* @author hankcs
*/
public class DemoPinyin
{
public static void main(String[] args)
{
String text = "重载不是重任";
List<Pinyin> pinyinList = HanLP.convertToPinyinList(text);
System.out.print("原文,");
for (char c : text.toCharArray())
{
System.out.printf("%c,", c);
}
System.out.println();
System.out.print("拼音（数字音调）,");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin);
}
System.out.println();
System.out.print("拼音（符号音调）,");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin.getPinyinWithToneMark());
}
System.out.println();
System.out.print("拼音（无音调）,");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin.getPinyinWithoutTone());
}
System.out.println();
System.out.print("声调,");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin.getTone());
}
System.out.println();
System.out.print("声母,");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin.getShengmu());
}
System.out.println();
System.out.print("韵母,");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin.getYunmu());
}
System.out.println();
System.out.print("输入法头,");
for (Pinyin pinyin : pinyinList)
{
System.out.printf("%s,", pinyin.getHead());
}
System.out.println();
}
}

说明
- HanLP不仅支持基础的汉字转拼音，还支持声母、韵母、音调、音标和输入法首字母首声母功能。
- HanLP能够识别多音字，也能给繁体中文注拼音。
- 最重要的是，HanLP采用的模式匹配升级到AhoCorasickDoubleArrayTrie，性能大幅提升，能够提供毫秒级的响应速度！
算法详解
- 《汉字转拼音与简繁转换的Java实现》

18. 简繁转换

/**
* 简繁转换
* @author hankcs
*/
public class DemoTraditionalChinese2SimplifiedChinese
{
public static void main(String[] args)
{
System.out.println(HanLP.convertToTraditionalChinese("用笔记本电脑写程序"));
System.out.println(HanLP.convertToSimplifiedChinese("「以後等妳當上皇后，就能買士多啤梨慶祝了」"));
}
}

说明
- HanLP能够识别简繁分歧词，比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字，HanLP可以。
算法详解
- 《汉字转拼音与简繁转换的Java实现》

19. 文本推荐

/**
* 文本推荐(句子级别，从一系列句子中挑出与输入句子最相似的那一个)
* @author hankcs
*/
public class DemoSuggester
{
public static void main(String[] args)
{
Suggester suggester = new Suggester();
String[] titleArray =
(
"威廉王子发表演说呼吁保护野生动物\n" +
"《时代》年度人物最终入围名单出炉普京马云入选\n" +
"“黑格比”横扫菲：菲吸取“海燕”经验及早疏散\n" +
"日本保密法将正式生效日媒指其损害国民知情权\n" +
"英报告说空气污染带来“公共健康危机”"
).split("\\n");
for (String title : titleArray)
{
suggester.addSentence(title);
}
System.out.println(suggester.suggest("发言", 1)); // 语义
System.out.println(suggester.suggest("危机公共", 1)); // 字符
System.out.println(suggester.suggest("mayun", 1)); // 拼音
}
}

说明
- 在搜索引擎的输入框中，用户输入一个词，搜索引擎会联想出最合适的搜索词，HanLP实现了类似的功能。
- 可以动态调节每种识别器的权重

20. 语义距离

/**
* 语义距离
* @author hankcs
*/
public class DemoWordDistance
{
public static void main(String[] args)
{
String[] wordArray = new String[]
{
"香蕉",
"苹果",
"白菜",
"水果",
"蔬菜",
"自行车",
"公交车",
"飞机",
"买",
"卖",
"购入",
"新年",
"春节",
"丢失",
"补办",
"办理",
"送给",
"寻找",
"孩子",
"教室",
"教师",
"会计",
};
for (String a : wordArray)
{
for (String b : wordArray)
{
System.out.println(a + "\t" + b + "\t之间的距离是\t" + CoreSynonymDictionary.distance(a, b));
}
}
}
}

说明
- 设想的应用场景是搜索引擎对词义的理解，词与词并不只存在“同义词”与“非同义词”的关系，就算是同义词，它们之间的意义也是有微妙的差别的。
算法
- 为每个词分配一个语义ID，词与词的距离通过语义ID的差得到。语义ID通过《同义词词林扩展版》计算而来。

21. 依存句法解析

/**
* 依存句法解析
* @author hankcs
*/
public class DemoDependencyParser
{
public static void main(String[] args)
{
System.out.println(HanLP.parseDependency("把市场经济奉行的等价交换原则引入党的生活和国家机关政务活动中"));
}
}

说明
- 内部采用MaxEntDependencyParser实现，用户可以直接调用MaxEntDependencyParser.compute(sentence)
- 也可以调用基于随机条件场的依存句法分析器CRFDependencyParser.compute(sentence)
- 在封闭测试集上准确率有90%以上，但在开放测试集上则不理想。
算法详解
- 《最大熵依存句法分析器的实现》
- 《基于CRF序列标注的中文依存句法分析器的Java实现》

词典说明

本章详细介绍HanLP中的词典格式，满足用户自定义的需要。HanLP中有许多词典，它们的格式都是相似的，形式都是文本文档，随时可以修改。

基本格式

词典分为词频词性词典和词频词典。

词频词性词典
- 每一行代表一个单词，格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ...。
词频词典
- 每一行代表一个单词，格式遵从[单词] [单词的频次]。
- 每一行的分隔符为空格符或制表符

少数词典有自己的专用格式，比如同义词词典兼容《同义词词林扩展版》的文本格式，而转移矩阵词典则是一个csv表格。

下文主要介绍通用词典，如不注明，词典特指通用词典。

数据结构

Trie树（字典树）是HanLP中使用最多的数据结构，为此，我实现了通用的Trie树，支持泛型、遍历、储存、载入。

用户自定义词典采用AhoCorasickDoubleArrayTrie和二分Trie树储存，其他词典采用基于双数组Trie树(DoubleArrayTrie)实现的AC自动机AhoCorasickDoubleArrayTrie。

储存形式

词典有两个形态：文本文件(filename.txt)和缓存文件(filename.txt.bin或filename.txt.trie.dat和filename.txt.trie.value)。

文本文件
- 采用明文储存，UTF-8编码，CRLF换行符。
缓存文件
- 就是一些二进制文件，通常在文本文件的文件名后面加上.bin表示。有时候是.trie.dat和.trie.value。后者是历史遗留产物，分别代表trie树的数组和值。
- 如果你修改了任何词典，只有删除缓存才能生效。

修改方法

HanLP的核心词典训练自人民日报2014语料，语料不是完美的，总会存在一些错误。这些错误可能会导致分词出现奇怪的结果，这时请打开调试模式排查问题：

HanLP.Config.enableDebug();

核心词性词频词典
- 比如你在data/dictionary/CoreNatureDictionary.txt中发现了一个不是词的词，或者词性标注得明显不对，那么你可以修改它，然后删除缓存文件使其生效。
核心二元文法词典
- 二元文法词典data/dictionary/CoreNatureDictionary.ngram.txt储存的是两个词的接续，如果你发现不可能存在这种接续时，删掉即可。
- 你也可以添加你认为合理的接续，但是这两个词必须同时在核心词典中才会生效。
命名实体识别词典
- 基于角色标注的命名实体识别比较依赖词典，所以词典的质量大幅影响识别质量。
- 这些词典的格式与原理都是类似的，请阅读相应的文章或代码修改它。

如果问题解决了，欢迎向我提交一个pull request，这是我在代码库中保留明文词典的原因，众人拾柴火焰高！

版权

Apache License Version 2.0

Apache License Version 2.0
HanLP产品初始知识产权归上海林原信息科技有限公司所有，任何人和企业可以无偿使用，可以对产品、源代码进行任何形式的修改，可以打包在其他产品中进行销售。
任何使用了HanLP的全部或部分功能、词典、模型的项目、产品或文章等形式的成果必须显式注明HanLP及此项目主页。

鸣谢

感谢下列优秀开源项目：

darts-clone-java
aho-corasick
SharpICTCLAS
snownlp
ansj_seg
nlp-lang

感谢NLP界各位学者老师的著作：

《基于角色标注的中国人名自动识别研究》张华平刘群
《基于层叠隐马尔可夫模型的中文命名实体识别》俞鸿魁张华平刘群吕学强施水才
《基于角色标注的中文机构名识别》俞鸿魁张华平刘群
《基于最大熵的依存句法分析》辛霄范士喜王轩王晓龙
An Efficient Implementation of Trie Structures, JUN-ICHI AOE AND KATSUSHI MORIMOTO
TextRank: Bringing Order into Texts, Rada Mihalcea and Paul Tarau

感谢上海林原信息科技有限公司的刘先生，允许我利用工作时间开发HanLP，提供服务器和域名，并且促成了开源。感谢诸位用户的关注和使用，HanLP并不完善，未来还恳求各位NLP爱好者多多关照，提出宝贵意见。

作者 @hankcs
2014年12月16日

转载须注明：码农场 » HanLP自然语言处理包开源

你可能感兴趣的:(Industry,Applications)

Ubuntu Juju 与 Ansible的区别 xidianjiapei001 #Kubernetes ubuntu ansible linux 云原生 Juju
JujuandAnsiblearebothpowerfultoolsusedformanagingandorchestratingITinfrastructureandapplications,buttheyhavedifferentapproachesandusecases.Here’sabreakdownofthekeydifferencesbetweenthem:1.ConceptualFo
webstorm报错TypeError: this.cliEngine is not a constructor Blue_Color
点击Details在控制台会显示报错的位置TypeError:this.cliEngineisnotaconstructoratESLintPlugin.invokeESLint(/Applications/RubyMine.app/Contents/plugins/JavaScriptLanguage/languageService/eslint/bin/eslint-plugin.js:97:
在Python应用程序中使用.env文件管理环境变量手机用户3381415902 学习 python 开发语言
原始地址：https://dev.to/jakewitcher/using-env-files-for-environment-variables-in-python-applications-55a1应用程序被部署后，在开发过程中必须考虑应用程序运行的环境以及应用程序执行任务所需的敏感或环境特定信息。环境变量是软件开发人员向应用程序提供此类信息的关键方式之一，但是如果设置这些变量在本地机器的环境
Mac 技术篇-应用程序被锁定无法进行卸载问题解决方法，文件、文件夹被锁定无法移入废纸篓处理方法 lq9527_ Mac使用 macos
在卸载Karabiner-Elements和Karabiner-EventViewer软件时，提示应用锁定，无法卸载。参照方法。在进行/bin/ls-dleO@App路径操作后，返回提示信息与链接方法略有区别。/bin/ls-dleO@App路径drwxr-xr-x@3root wheel uchg96 3 1 2022/Applications/Karabiner-Elements.appcom
探索.NET Core的宝库：开源项目的无限可能胡易黎Nicole
探索.NETCore的宝库：开源项目的无限可能awesome-dotnet-core-applicationsAnawesomecollectionof.NETCorerealtime,sample,architecturereferenceapplicationprojects项目地址:https://gitcode.com/gh_mirrors/aw/awesome-dotnet-core-a
综述论文“A Survey of Zero-Shot Learning: Settings, Methods, and Applications” 硅谷秋水机器学习机器学习神经网络深度学习
该零样本学习综述，发表于ACMTrans.Intell.Syst.Technol.10,2,Article13(January2019)摘要：大多数机器学习方法着重于对已经在训练中看到其类别的实例进行分类。实际上，许多应用程序需要对实例进行分类，而这些实例的类以前没有见过。零样本学习（Zero-ShotLearning）是一种强大而有前途的学习范例，其中训练实例涵盖的类别与想分类的类别是不相交的。
arXiv综述论文“Graph Neural Networks: A Review of Methods and Applications” 硅谷秋水自动驾驶
arXiv于2019年7月10日上载的GNN综述论文“GraphNeuralNetworks:AReviewofMethodsandApplications“。摘要：许多学习任务需要处理图数据，该图数据包含元素之间的丰富关系信息。建模物理系统、学习分子指纹、预测蛋白质界面以及对疾病进行分类都需要一个模型从图输入学习。在其他如文本和图像之类非结构数据学习的领域中，对提取的结构推理，例如句子的依存关系
聚类分析 | Python密度聚类（DBSCAN）天天酷科研聚类分析算法（CLA）python 聚类机器学习 DBSCAN
密度聚类是一种无需预先指定聚类数量的聚类方法，它依赖于数据点之间的密度关系来自动识别聚类结构。本文中，演示如何使用密度聚类算法，具体是DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）来对一个实际的数据集进行聚类分析。一、基本介绍密度聚类的核心思想是将数据点分为高密度区域和低密度区域。高密度区域内的数据点被认为属于同一簇，而低
【python】【Ray的概述】资源存储库 python 开发语言
Overview概述Rayisanopen-sourceunifiedframeworkforscalingAIandPythonapplicationslikemachinelearning.Itprovidesthecomputelayerforparallelprocessingsothatyoudon’tneedtobeadistributedsystemsexpert.Rayminimi
Spring Boot 自动配置简单流程憨p鱼 spring boot java
SpringBootmakesiteasytocreatestand-alone,production-gradeSpringbasedApplicationsthatyoucan"justrun".以上就依赖于自动配置！使用SSM时，需要做大量的配置，较为繁琐。而在使用SpringBoot时，如果需要引入某个依赖，则直接引入jar包，进行配置（可能是增加某个注解），最后按需在yml中进行配置即可
Go Web 编程 PDF book_longker 资源 golang pdf 开发语言
GoWeb开发必读:《BuildingWebApplicationswithGo》PDF资源分享找寻良久,终于寻得这本珍贵资源!现在我免费分享给大家你是否正在学习Go语言开发Web应用?是否想要提升Go并发编程能力?这本书绝对不容错过!关于这本书《BuildingWebApplicationswithGo》是一本非常实用的GoWeb开发指南:以构建网络论坛为案例,全面讲解GoWeb开发️深入剖析请
【Jeecg-uniapp】【HBuilderX】【Sass】-安装 goodmao Jeecg-Uni-App Jeecg Jeecg-uniapp HBuilderX sass npm
【Jeecg-uniapp】【HBuilderX】【Sass】-安装在项目中，使用了sass，所以，需要安装对应的库。在macOS中：1.下载compile-node-sass的压缩包2.解压缩3.拷贝到文件夹/Applications/HBuilderX.app/Contents/HBuilderX/plugins/compile-node-sass注意：文件夹名称改成：compile-node
微信多开 WechatTweak for Mac(微信多开、消息防撤回工具)v3.8.6中文集成版鱼儿吃西瓜微信多开
功能特色消息防撤回WechatTweak可以阻止微信消息撤回，对于好友已经撤回的消息，你依然可以看到。微信多开安装Tweak后，终端执行命令多开open-n/Applications/WeChat.app微信多开WechatTweakforMac(微信多开、消息防撤回工具)软件地址Macv.com消息处理增强支持任意表情导出支持二维码识别支持右键直接复制链接支持由系统默认浏览器直接打开UI界面设置
Oracle连接池oci,Oracle数据库的连接(OCI方式、thin方式和JdbcOdbc桥方式、l连接池) 见物思理 Oracle连接池oci
在J2EE应用程序开发中，应用程序与数据库连接的建立是我们经常遇到的问题之一。在这里我主要谈谈在本地应用程序中通过OCI方式、thin方式和JdbcOdbc桥方式连接Oracle数据库，在iPlanetApplicationServer6.5和SunJavaSystemApplicationServer7中对Oracle数据库连接池的配置以及应用中如何从连接池中获得连接一、本地通过JDBC获得Or
Chrome with proxy the 8th dwarf chrome 前端
命令行默认直接打开Chrome是没有代理的，但命令行可以指定代理：--no-proxy-server--proxy-auto-detect--proxy-bypass-list=XXX--proxy-pac-url=XXX--proxy-server=XXXMacOS中使用方法：$open-a/Applications/Google\Chrome.app/--args--proxy-server=
在移动应用程序中集成模糊方法的基于物联网的天气监测系统的实现神一样的老师论文阅读分享物联网物联网
这篇论文的标题是《IMPLEMENTATIONOFWEATHERMONITORINGSYSTEMBASEDINTERNETOFTHINGSUSINGINTEGRATEDFUZZYMETHODINMOBILEAPPLICATIONS》，作者是MuhammadMalikAmin，来自PoliteknikNegeriJakarta的D-IVINSTRUMENTASIDANKONTROLINDUSTRI部
【论文阅读】AugSteal: Advancing Model Steal With Data Augmentation in Active Learning Frameworks（2024） Bosenya12 科研学习模型窃取论文阅读模型窃取模型提取数据增强主动学习
摘要Withtheproliferationof（随着）machinelearningmodels（机器学习模型）indiverseapplications,theissueofmodelsecurity（模型的安全问题）hasincreasinglybecomeafocalpoint（日益成为人们关注的焦点）.Modelstealattacks（模型窃取攻击）cancausesignifican
dbus-sensors与libgpiod logiciel OpenBMC
1开发平台Win11、VS2022、Fedora39。2debus-sensors简介以下摘自openbmc/dbus-sensors:D-Busconfigurablesensorscanningapplications(github.com)：dbus-sensorsisacollectionofsensorapplicationsthatprovidethexyz.openbmc_proje
SpringBoot 依赖之 Spring for RabbitMQ ahauedu 微服务架构设计 spring java-rabbitmq spring boot
在IntelliJIDEA中创建SpringBoot项目并调试SpringforRabbitMQ的完整流程。概念SpringforRabbitMQ依赖名称:SpringforRabbitMQ功能描述:Givesyourapplicationsacommonplatformtosendandreceivemessages,andyourmessagesasafeplacetoliveuntilrec
SpringBoot 依赖之Spring Web ahauedu 微服务架构设计 spring spring boot maven intellij-idea
SpringBoot依赖之SpringWeb详细介绍SpringWeb依赖的内容：第1章：SpringWeb1.简介功能描述英文:Buildweb,includingRESTful,applicationsusingSpringMVC.UsesApacheTomcatasthedefaultembeddedcontainer.中文译文：使用SpringMVC构建Web应用程序，包括RESTful应
Android的数据库SQLite进行数据存储与SharePreferences存储程序员小徐同学笔记 android-studio
Android的数据库SQLite进行数据存储与SharePreferences存储SQLite进行数据存储packagecom.example.administrator.myapplicationsqllite;importandroid.content.ContentValues;importandroid.content.Context;importandroid.database.Cur
为基于物联网的监测应用构建边缘云连续体架构神一样的老师论文阅读分享物联网物联网架构
作者：IvanZyrianoff导师：Prof.MarcoDiFelice（主要导师）,Prof.LucaDeMarchi（博士协调员）,Prof.TullioSalmonCinotti（共同导师）题目：Architectingtheedge-cloudcontinuumforIoT-basedmonitoringapplications论文提交时间：2024年论文类型：博士论文所属机构：Univ
mac在终端中使用vscode打开文件或者文件夹菲林可乐 vscode ide 编辑器
在Mac上使用VisualStudioCode（VSCode）打开指定文件夹，你可以通过以下步骤操作：1.创建软连接1.找到VSCode的安装位置。在Finder中，导航到/Applications/VisualStudioCode.app2.进入VSCode的内容文件夹：使用终端命令cd/Applications/VisualStudioCode.app/Contents进入VSCode的内容文
Zookeeper简介 Daly罗 Zookeeper zookeeper 分布式云原生
1.什么是ZookeeperZooKeeperisahigh-performancecoordinationservicefordistributedapplications.Itexposescommonservices-suchasnaming,configurationmanagement,synchronization,andgroupservices-inasimpleinterface
DevOps Azure Pipeline 发布失败 MSB4226 Zhen (Evan) Wang devops azure 运维
DevOpsAzure利用pipeline发布项目,报错MSB4226.ErrorMSB4226:Theimportedproject"C:\ProgramFiles(x86)\MicrosoftVisualStudio\2019\BuildTools\MSBuild\Current\Bin\WebApplications\Microsoft.WebApplication.targets"wasn
SQLServer -ServiceBroker 神毓逍遥- SQLSERVER SqlServer Service service broker
1.ServiceBroker简介直接把文档原话copy过来吧：SQLServiceBrokerisoneofthebestrecentfeaturesinSQLServer2005becauseitmakesitpossibletowritequeuingandmessage-basedapplications.WithServiceBroker,databasedeveloperscanwri
机器学习：DBSCAN算法（内有精彩动图）吃什么芹菜卷机器学习机器学习算法人工智能
目录前言一、DBSCAN算法1.动图展示（图片转载自网络）2.步骤详解3.参数配置二、代码实现1.完整代码2.代码详解1.导入数据2.通过循环确定参数最佳值总结前言DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法。它可以发现任意形状的簇并能够处理噪声数据。一、DBSCAN算法1.动图展示（图片转载自网
delphi fireDAC+SQLite 在多线程下笔记蝈蝈(GuoGuo) SQLite Delphi sqlite 笔记 jvm
sqlite1篇文章0订阅订阅专栏SQLite官方描述是支持多线程的，参考：UsingSQLiteInMulti-ThreadedApplicationsFIREDAC默认的threadsafe为2，要求是为每个线程单独建立一个连接，实际测试，应该是有且只能有一个连接。特别是主线程需要注意。在有DBGRID的情况下，多个连接会导致databaseislocked的错误。关于多线程的配置，官方文档描
电商成功的密码：高效指标体系的构建与为何如此重要 ProXiaoduo 大数据数据分析
Hi~这里是ProXiao文章参考：晓观点电商行业如何构建有效的指标体系？为什么需要指标体系？https://insight.xiaoduoai.com/commerce-knowledge/how-to-build-an-effective-indicator-system-in-the-e-commerce-industry.html?utm_campaign=%E6%99%93%E8%A7%
VirtualBox 安装增强功能报错：Unable to insert the virtual optical disk /Applications/VirtualBox.app/Conten... MistyL
VirtualBox中很多功能需要安装增强功能，在使用过程，安装增强功能会报下面的错误：Unabletoinsertthevirtualopticaldisk/Applications/VirtualBox.app/Contents/MacOS/VBoxGuestAdditions.isointothemachineVirtualUbuntu.Wouldyouliketotrytoforceins
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&