aigui1439

开源分词软件

由于中文文本词与词之间没有像英文那样有空格分隔，因此很多时候中文文本操作都涉及切词，这里整理了一些中文分词工具。一般来说用CRF实现的分词工具的处理速度是比较慢的（训练CRF模型是非常耗时的），但是精度高，涉及CRF的分词工具有CRF++，Stanford分词工具。

Bakeoff是一个国际中文处理比赛，有多个语料，所以每个语料都有排名。只有部分优秀的Bakeoff工具开源。

介绍了以下18种分词工具（大部分是基于java语言）：

perminusminus

Stanford 汉语分词工具（Bakeoff-2两项第一）

哈工大语言云（LTP -cloud）

ICTCLAS——（Bakeoff -1两项第一）

Ansj（ICTCLAS的java实现）

庖丁解牛分词

盘古分词

IKAnalyzer

imdict-chinese-analyzer

mmseg4j

FudanNLP(复旦大学)

Jcseg

SCWS

Friso

HTTPCWS

libmmseg

OpenCLAS

CRF++ （Bakeoff-3四项第一）

perminusminus

项目网址：http://code.google.com/p/perminusminus/

作者：张开旭（清华大学2012届博士毕业生，毕业论文，现在厦大教学）。

个人主页：http://nlp.csai.tsinghua.edu.cn/~zkx/

源码是python。算法原理是感知器模型。

Introduction

Per-- is a toolkit of AveragedPerceptron (Freund and Schapire, 1999) for path Labelingunder the KISS principle(Keep It Simple and Stupid).

Features

Simple and efficient
Multiple usage: path labeling, path finding, sequence labeling and classification
Can provide n-best outputs
Can provide "mar.ginal score"
Can provide alpha (forward) values and beta (backward) values using forward-backward algorithm
Open source

Stanford 汉语分词工具

Stanford 汉语分词工具的成绩：2005年Bakeoff2两个语料的测试第一。

官网：http://nlp.stanford.edu/software/segmenter.shtml

最后更新2013-11-12（今天2013-12-28）

一篇使用介绍：

http://hi.baidu.com/liheming333/item/585fba1f898838623e87ce18

斯坦福自然语言小组直接使用CRF 的方法，特征窗口为5。

哈工大语言云（LTP -cloud）

项目网址：http://www.ltp-cloud.com/download/#ltp_cloud_sdk

HIT的ITNLP Lab, HIT Wei JIANG在Bakeoff 2005的open语料MSR上获得测评第一名。不确定LTP –cloud是否是在Wei JIANG的工作基础上进行的开发。

语言云曾获CoNLL2009七国语言句法语义分析评测总成绩第一名，

使用方式为web service。

语言云（语言技术平台云 LTP-Cloud）是由哈工大社会计算与信息检索研究中心研发的云端自然语言处理服务平台。后端依托于语言技术平台，语言云为用户提供了包括分词、词性标注、依存句法分析、命名实体识别、语义角色标注在内的丰富高效的自然语言处理服务。

作为基于云端的服务，语言云具有如下一些优势：

免安装：用户只需要下载语言云客户端源代码，编译执行后即可获得分析结果，无需调用静态库或下载模型文件。
省硬件：语言云客户端几乎可以运行于任何硬件配置的计算机上，用户不需要购买高性能的机器，即可快捷的获得分析结果。
跨平台：语言云客户端几乎可以运行于任何操作系统之上，无论是Windows、Linux各个发行版或者Mac OS。
跨编程语言：时至今日，语言云已经提供了包括C++，Java，C#，Python，Ruby在内的客户端，其他编程语言的客户端也在开发之中。

在运算资源有限，编程语言受限的情况下，语言云无疑是用户进行语言分析更好的选择。

从2006年9月5日开始该平台对外免费共享目标代码，截止目前，已经有国内外400多家研究单位共享了LTP，也有国内外多家商业公司购买了LTP，用于实际的商业项目中。2010年12月获得中国中文信息学会颁发的行业最高奖项：”钱伟长中文信息处理科学技术奖”一等奖。

2011年6月1日，为了与业界同行共同研究和开发中文信息处理核心技术，我中心正式将LTP的源代码对外共享，LTP由C++语言开发，可运行于Windows和Linux操作系统。

ICTCLAS：　汉语词法分析系统

官网：http://ictclas.nlpir.org/newsdownloads?DocId=354

（这是作者在中科院读研时的作品，最新版本是NLPIR，官网）

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)

获取Bakeoff 1两项第一。

　这是最早的中文开源分词项目之一，ICTCLAS在国内973专家组组织的评测中活动获得了第一名，在第一届（2003）国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。

性能：

分词速度单机996KB/s， API 不超过 200KB ，各种词典数据压缩后不到 3M.

准确率：

分词精度98.45%，

语言和平台：

ICTCLAS全部采用 C/C++ 编写，支持 Linux 、 FreeBSD 及 Windows 系列操作系统，支持 C/C++ 、 C# 、 Delphi、 Java 等主流的开发语言。

Author：

中国科学院计算技术研究所

主要功能：

中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典；支持繁体中文；支持GBK 、 UTF-8 、 UTF-7 、 UNICODE 等多种编码格式。

算法：

完美PDAT 大规模知识库管理技术（ 200510130690.3 ），在高速度与高精度之间取得了重大突破，该技术可以管理百万级别的词典知识库，单机每秒可以查询 100 万词条，而内存消耗不到知识库大小的 1.5 倍。层叠隐马尔可夫模型（ Hierarchical Hidden Markov Model ），该分词系统的主要是思想是先通过 CHMM( 层叠形马尔可夫模型 ) 进行分词 , 通过分层 , 既增加了分词的准确性 , 又保证了分词的效率 . 共分五层, 如下图所示。基本思路是进行原子切分 , 然后在此基础上进行N- 最短路径粗切分 , 找出前 N 个最符合的切分结果 , 生成二元分词表 , 然后生成分词结果 , 接着进行词性标注并完成主要分词步骤 .

Ansj（ICTCLAS的java实现）

项目网址：https://github.com/ansjsun/ansj_seg

作者网址：http://www.ansj.org/

演示网址：http://demo.ansj.org/seg.action

ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict.中文分词,人名识别,词性标注,用户自定义词典

增加了对lucene的支持.如果不想编译文件可以直接到 https://github.com/ansjsun/mvn-repo/tree/gh-pages/org/ansj这里下载jar包!

这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化

内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)

文件读取分词每秒钟大约30万字

准确率能达到96%以上

目前实现了.中文分词. 中文姓名识别 . 用户自定义词典

可以应用到自然语言处理等方面,适用于对分词效果要求搞的各种项目.

庖丁解牛分词

官网：http://code.google.com/p/paoding/

语言和平台：

Java,提供 lucence 3.0 接口，仅支持 Java 语言。

性能：

在PIII 1G 内存个人机器上， 1 秒可准确分词 100 万汉字。

算法：

采用基于不限制个数的词典文件对文章进行有效切分

主要功能：

使能够将对词汇分类定义。能够对未知的词汇进行合理解析

盘古分词

官网：http://pangusegment.codeplex.com/

作者：eaglet

博客：http://www.cnblogs.com/eaglet/

是一个中英文分词组件。

项目描述

Pan Gu Segment is alibrary that can segment Chinese and English words from sentence.

盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件，拥有大量用户。

作者基于之前分词组件的开发经验，结合最新的开发技术重新编写了盘古分词组件。

主要功能：

中文分词功能

中文未登录词识别

词频优先

盘古分词可以根据词频来解决分词的歧义问题

多元分词

盘古分词提供多重输出解决分词粒度和分词精度权衡的问题

中文人名识别

强制一元分词

繁体中文分词

同时输出简体和繁体

中文词性输出

盘古分词可以将以登录词的中文词性输出给用户，以方便用户做进一步处理。

全角字符支持

盘古分词可以识别全角的字母和数字

英文分词

英文专用词识别

一些英文简写是字母符号混合，或者是字母数字混合，这个分词起来就不能按照空格符号这样分割了，对于字母符号混合的如 U.S.A ，只要将这个词录入到字典中，盘古分词就可以分出整词。对于字母和数字混合的，盘古分词会自动作为整词输出。

英文原词输出

英文大小写同时输出

其他功能

停用词过滤

对于一些标点符号，连词，助词等有时候需要在分词时过滤掉，盘古分词提供一个 StopWord.txt 文件，用户只要将需要过滤的词加入到这个文件中，并将停用词过滤开发打开，就可以过滤掉这些词。

设置分词权值

盘古分词可以让用户对如下特性设置自定义权值

1 未登录词权值

2 最匹配词权值

3 次匹配词权值

4 再次匹配词权值

5 强行输出的单字的权值

6 数字的权值

7 英文词汇权值

8 符号的权值

9 强制同时输出简繁汉字时，非原来文本的汉字输出权值。

*用户自定义规则

字典管理

盘古分词提供一个字典管理工具 DictManage 通过这个工具，你可以增加，修改，和删除字典中的单词

动态加载字典

通过字典工具增加，修改，和删除字典中的单词后，保持字典，盘古分词会自动将新的字典文件加载进去，而不需要重新启动。

关键词高亮组件

Lucene 提供了一个关键词高亮组件，但这个组件对中文的支持不是特别好，特别是如果还有多元分词的情况，处理的就更不好。盘古分词提供了一个针对中文和英文的关键词高亮组件 PanGu.HighLight ，其对中文的支持要好于Lucene 那个高亮组件。

同义词输出( 后续版本提供 )

Lucene.net 接口及示例

在PanGu4Lucene 这个包里面有我做的一个盘古 +Lucene 的简单新闻搜索 Web 示例程序， Release 包里面有使用说明。

性能：

Core Duo 1.8 GHz 下单线程分词速度为 390K 字符每秒， 2 线程分词速度为 690K 字符每秒。

算法：

盘古分词提供的字典包括17万个中文常用单词，但这个字典依然不够完整，如果要分词更准确，需要适当维护一下这个字典。中文人名的识别能力取决于 ChsSingleName.txt ， ChsDoubleName1.txt ， ChsDoubleName2.txt 这三个文件，它们分别表示单子人名，双字人名的首字和双字人名的尾字。

IKAnalyzer

官网：http://code.google.com/p/ik-analyzer/

作者博客：http://linliangyi2007.iteye.com/

从2006年12月推出1.0版开始。

开源轻量级的中文分词工具包

语言和平台：

基于java 语言开发，最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的 IKAnalyzer3.0 则发展为面向 Java 的公用分词组件，独立于 Lucene 项目，同时提供了对 Lucene 的默认优化实现。

算法：

采用了特有的“ 正向迭代最细粒度切分算法 “ 。采用了多子处理器分析模式，支持：英文字母（ IP 地址、 Email 、 URL ）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。优化的词典存储，更小的内存占用。支持用户词典扩展定义。针对 Lucene 全文检索优化的查询分析器 IKQueryParser ；采用歧义分析算法优化查询关键字的搜索排列组合，能极大的提高 Lucene 检索的命中率。

性能：

在系统环境：Core2i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力

imdict-chinese-analyzer

官网：http://code.google.com/p/imdict-chinese-analyzer/

是imdict 智能词典的智能中文分词模块。

算法：

基于隐马尔科夫模型(Hidden Markov Model， HMM) ，是中国科学院计算技术研究所的 ictclas 中文分词程序的重新实现（基于 Java ） .

可以直接为lucene搜索引擎提供简体中文分词支持。

主要功能：

1，完全 Unicode 支持

分词核心模块完全采用Unicode 编码，无须各种汉字编码的转换，极大的提升了分词的效率。

2. 提升搜索效率

根据imdict 智能词典的实践，在有智能中文分词的情况下，索引文件比没有中文分词的索引文件小 1/3

3. 提高搜索准确度

imdict-chinese-analyzer采用了 HHMM 分词模型，极大的提高了分词的准确率，在此基础上的搜索，比对汉字逐个切分要准确得多！

4. 更高效的数据结构

为了提高效率，针对常用中文检索的应用场景，imdict-chinese-analyzer 对一些不必要的功能进行了删减，例如词性标注、人名识别、时间识别等等。另外还修改了算法的数据结构，在内存占用量缩减到 1/3 的情况下把效率提升了数倍。

	ictclas4j	imdict-chinese-analyzer	ICTCLAS 3.0
分词速度( 字节 / 秒 )	13.86	483.64	678.15
分词速度( 汉字 / 秒 )	7439	259517	363888

测试环境为：酷睿E7200双核，内存 2G， JDK 参数为： "-Xms512m -Xmx1024m "

由此对比可以看出， imdict-chinese-analyzer的分词效率与 C ＋＋实现的 ICTCLAS 3.0的分词效率在同一个数量级，是 ictclas4j 的 36 倍！

ictclas4j中文分词系统是 sinboy 在中科院张华平和刘群老师的研制的 FreeICTCLAS 的基础上完成的一个 java 开源分词项目，简化了原分词程序的复杂度，旨在为广大的中文分词爱好者一个更好的学习机会。

mmseg4j

项目网址：

（旧）http://code.google.com/p/mmseg4j/

（新）https://github.com/chenlb/mmseg4j-solr

作者博客：

1、http://blog.chenlb.com/

2、http://chenlb.iteye.com/

算法：

1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/)实现的中文分词器，并实现 lucene 的 analyzer和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。

2、MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四个规则过虑。官方（指mmseg论文的作者）说：词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

1.5版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右，（测试机：AMD athlon 64 2800+ 1G内存 xp）。
1.6版在complex基础上实现了最多分词(max-word)。“很好听” -> "很好|好听"; “中华人民共和国” -> "中华|华人|共和|国"; “中国人民银行” -> "中国|人民|银行"。
1.7-beta 版, 目前 complex 1200kb/s左右, simple 1900kb/s左右, 但内存开销了50M左右. 上几个版都是在10M左右.
1.8 后,增加 CutLetterDigitFilter过虑器，切分“字母和数”混在一起的过虑器。比如：mb991ch 切为 "mb 991 ch"。

mmseg4j实现的功能详情请看：

http://mmseg4j.googlecode.com/svn/trunk/CHANGES.txt

3、在 com.chenlb.mmseg4j.example包里的类示例了三种分词效果。

FudanNLP(复旦大学)

官网：http://code.google.com/p/fudannlp/

2013.8.14 发布FudanNLP1.6.1版。时常更新。

复旦大学开发的软件。

FudanNLP主要是为中文自然语言处理而开发的工具包，也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0许可证。开发语言为Java。功能包括中文分词等，不需要字典支持。

功能：

信息检索：文本分类新闻聚类
中文处理：中文分词词性标注实体名识别关键词抽取依存句法分析时间短语识别
结构化学习：在线学习层次分类聚类精确推理

Jcseg

官网：http://code.google.com/p/jcseg/

一、jcseg中文分词器

jcseg是使用Java开发的一个中文分词器，使用mmseg算法实现。

1。目前最高版本：jcseg1.9.0。兼容最高版本lucene-4.x和最高版本solr-4.x

2。mmseg四种过滤算法，分词准确率达到了98.41%。

3。支持自定义词库。在lexicon文件夹下，可以随便添加/删除/更改词库和词库内容，并且对词库进行了分类。如何给jcseg添加词库/新词。

4。中英文同义词追加/同义词匹配 + 中文词条拼音追加．词库整合了《现代汉语词典》和cc-cedict辞典中的词条，并且依据cc-cedict词典为词条标上了拼音，依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。jcseg新版词库

5。中文数字和中文分数识别，例如："一百五十个人都来了，四十分之一的人。"中的"一百五十"和"四十分之一"。并且jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如：150， 1/40。

6。支持中英混合词和英中混合词的识别(维护词库可以识别任何一种组合)。例如：B超, x射线, 卡拉ok, 奇都ktv, 哆啦a梦。

7。更好的英文支持，电子邮件，网址，小数，分数，百分数，字母和标点组合词（例如C++, c#）的识别。(这个对购物网址来说很重要)。

8。支持阿拉伯数字/小数/中文数字基本单字单位的识别，例如2012年，1.75米，38.6℃，五折，并且jcseg会将其转换为“5折”加入分词结果中。

9。智能圆角半角, 英文大小写转换。

10。特殊字母识别：例如：Ⅰ，Ⅱ

11。特殊数字识别：例如：①，⑩

12。配对标点内容提取：例如：最好的Java书《java编程思想》，‘畅想杯黑客技术大赛’，被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。

13。智能中文人名识别。中文人名识别正确率达94%以上。（可以维护lex-lname.lex，lex-dname-1.lex，lex-dname-2.lex来提高准确率），(引入规则和词性后会达到98%以上的识别正确率)。

14。自动中英文停止词过滤功能（需要在jcseg.properties中开启该选项，lex-stopwords.lex为停止词词库）。

15。词库更新自动加载功能, 开启一个守护线程随时检测词库的更新并且加载。

16。自动词性标注。

17。jcseg.properties----- jcseg配置文件如何配置jcseg

二、分词速度：

测试环境：2.8GHZ/2G/Ubuntu

Simple 模式： 1366058字/秒 3774.5KB/秒

Complex 模式： 479338字/秒 1324.4KB/秒

分词正确率98%以上，请参考本算法的原作：

http://technology.chtsai.org/mmseg/

测试文章，“世界与和平” 简易模式830msec，复杂模式2461msec。

SCWS

　　 Author： Hightman

C语言编写。

算法：

基于词频词典的机械中文分词引擎，采用的是采集的词频词典，并辅以一定的专有名称，人名，地名，数字年代等规则识别来达到基本分词

准确率：

经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一些小型搜索引擎、关键字提取等场合运用。

性能：

45Kb左右的文本切词时间是 0.026 秒，大概是 1.5MB 文本 / 秒，

语言和平台：

SCWS 采用纯 C 代码开发，以 Unix-Like OS 为主要平台环境，提供共享函数库，方便植入各种现有软件系统。此外它支持 GBK ， UTF-8 ，BIG5 等汉字编码。支持 PHP4 和PHP 5 。

版本列表

版本	类型	平台	性能
SCWS-1.1.x	C 代码	Unix/PHP	准确: 95%, 召回 : 91%, 速度 : 1.2MB/sec PHP扩展分词速度 : 250KB/sec
php_scws.dll(1)	PHP扩展库	Windows/PHP 4.4.x	准确: 95%, 召回 : 91%, 速度 : 40KB/sec
php_scws.dll(2)	PHP扩展库	Windows/PHP 5.2.x	准确: 95%, 召回 : 91%, 速度 : 40KB/sec
php_scws.dll(3)	PHP扩展库	Windows/PHP 5.3.x	准确: 95%, 召回 : 91%, 速度 : 40KB/sec
PSCWS23	PHP源代码	不限 (不支持 UTF-8)	准确: 93%, 召回 : 89%, 速度 : 960KB/min
PSCWS4	PHP源代码	不限	准确: 95%, 召回 : 91%, 速度 : 160KB/min

Friso

官网http://code.google.com/p/friso/

friso是使用c语言开发的一个中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入到其他程序中，例如：MySQL，PHP等。并且提供了一个php中文分词扩展robbe。

1。只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用，加载完20万的词条，内存占用稳定为14M。】。

2。mmseg四种过滤算法，分词准确率达到了98.41%。

3。支持自定义词库。在dict文件夹下，可以随便添加/删除/更改词库和词库词条，并且对词库进行了分类。

4。词库使用了friso的Java版本jcseg的简化词库。

5。支持中英混合词的识别。例如：c语言，IC卡。

7。很好的英文支持，电子邮件，网址，小数，分数，百分数。

8。支持阿拉伯数字基本单字单位的识别，例如2012年，5吨，120斤。

9。自动英文圆角/半角，大写/小写转换。

并且具有很高的分词速度：简单模式：3.7M/秒，复杂模式：1.8M/秒。[3]

HTTPCWS：

基于HTTP 协议的开源中文分词系统，

语言和平台：目前仅支持Linux 系统

算法：HTTPCWS 使用 “ICTCLAS 3.0 2009 共享版中文分词算法 ” 的 API 进行分词处理，得出分词结果。 HTTPCWS 将取代之前的 PHPCWS 中文分词扩展。

PHPCWS（ PHP 中文分词扩展）

author：张宴

　　语言和平台：

PHPCWS 是一款开源的 PHP 中文分词扩展，目前仅支持 Linux/Unix 系统。

　　算法：PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法 ” 的 API 进行初次分词处理，再使用自行编写的 “ 逆向最大匹配算法 ” 对分词和进行词语合并处理，并增加标点符号过滤功能，得出分词结果。 ICTCLAS 3.0 商业版是收费的，而免费提供的 ICTCLAS 3.0 共享版不开源，词库是根据人民日报一个月的语料得出的，很多词语不存在。所以本人对 ICTCLAS 分词后的结果，再采用逆向最大匹配算法，根据自己补充的一个 9 万条词语的自定义词库（与 ICTCLAS 词库中的词语不重复），对 ICTCLAS 分词结果进行合并处理，输出最终分词结果。由于 ICTCLAS 3.0 共享版只支持 GBK 编码，因此，如果是 UTF-8 编码的字符串，可以先用 PHP 的 iconv 函数转换成 GBK 编码，再用 phpcws_split 函数进行分词处理，最后转换回 UTF-8 编码。

性能：5 8字节的一句话 ——“2009 年 2 月 13 日，我编写了一款PHP 中文分词扩展： PHPCWS 1.0.0。 ” ，分词速度只需 0.0003 秒。对于那些采用二元交叉切分的搜索引擎， PHPCWS 用在前端搜索层对用户输入的搜索关键字、短语进行分词处理，同样适合。 PHPCWS 开发的目的正在于此，对于短句、小文本中文分词切分，速度非常之快。

libmmseg

Author：李沫南

语言和平台：用C++ 编写的开源的中文分词软件， libmmseg 主要被作者用来实现 Sphinx 全文检索软件的中文分词功能，因此作者给 Sphinx 提供了一个补丁文件，可以让 Sphinx 集成 libmmseg ，从而支持对于中文文章的全文检索功能。 libmmseg 从 0.7.2版本开始，作者提供了 ruby 调用的接口，所以我们可以直接在ruby 程序里面调用 libmmseg 进行分词了。特别是我们可以用 ferret 去调用 libmmseg 分词功能，从而让 ruby 原生支持中文的全文检索。

算法：

“基于词库的最大匹配算法 ”

性能：

分词速度为每秒300KB左右。

OpenCLAS

是一个开源的中文词法分析库。

主要功能：

其中包括了中文分词、词性标注等功能。系统使用基于概率的多层HMM 。可以对已登录词和未登录词进行识别分析。

OpenCLAS是对原有的 ICTCLAS ( 中科院中文词法分析系统 ) 进行的重写。 OpenCLAS 将不包含任何 ICTCLAS 中的源代码，并且以 BSD 协议发布。因此其代码可以在满足 BSD 协议的前提下，用于包括商用在内的各种场合。

OpenCLAS将包含三个语言分支，C++, Java 和 C# 。 ( 目前只实现了 C++ 的版本 ) 。

CRF++（上海交大）

项目网址：http://code.google.com/p/crfpp/

详细介绍：http://crfpp.googlecode.com/svn/trunk/doc/index.html

作者：上海交大赵海

个人主页：http://bcmi.sjtu.edu.cn/~zhaohai/index.ch.html

成绩

[2007]Bakeoff-4

第一届中国中文信息学会汉语处理评测暨第四届国际中文自然语言处理Bakeoff (Bakeoff-4, Bakeoff-2007, 2008)

28个研究团队提交的166个分词结果中赢得本届Bakeoff分词的封闭评测的所有五项第一名

33个命名实体识别结果中赢得三个第二名，一个第三名

Bakeoff-4的正式结果在此。我们的系统报告在此。

[2006]Bakeoff-3

第三届国际中文分词竞赛 (Bakeoff-3,Bakeoff-2006)

在29个研究团队提交的101个分词结果中赢得四项第一、两项第三

Bakeoff-3的正式结果在此。我们的系统报告在此。

CRF++ is a simple, customizable, and opensource implementation of Conditional Random Fields (CRFs) forsegmenting/labeling sequential data. CRF++ is designed for generic purpose andwill be applied to a variety of NLP tasks, such as Named Entity Recognition,Information Extraction and Text Chunking.

转载于:https://www.cnblogs.com/StevenL/p/6818524.html

你可能感兴趣的:(开源分词软件)

Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
如何选择最适合你的项目研发管理软件？TAPD卓越版全面解析北京云巴巴信息技术有限公司产品经理需求分析
在当今快速发展的科技时代，项目研发管理软件已成为企业不可或缺的重要工具。面对市场上琳琅满目的产品，如何选择一款适合自己团队的项目研发管理软件呢？本文将围绕项目研发管理软件的选择标准，重点介绍TAPD卓越版的特点、优势以及使用体验，让你更好地理解和选择适合自己的项目研发管理软件。项目研发管理软件的选择标准在选择项目研发管理软件时，我们需要考虑以下几个方面的因素：功能全面性：软件是否覆盖了从需求管理、
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ExpRe[25] bash外的其它shell：zsh和fish tritone ExpRe bash linux ubuntu shell
文章目录zsh基础配置实用特性插件`autojump`语法高亮自动补全fish优点缺点时效性本篇撰写时间为2021.12.15，由于计算机技术日新月异，博客中所有内容都有时效和版本限制，具体做法不一定总行得通，链接可能改动失效，各种软件的用法可能有修改。但是其中透露的思想往往是值得学习的。本篇前置：ExpRe[10]Ubuntu[2]准备神秘软件、备份恢复软件https://www.cnblogs
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
十大可以挣钱的软件(盘点当前赚钱快还靠谱的7个赚钱软件) 高省APP大九
挣钱软件可以用“泛滥”来形容了，网上各式各样的打着“赚钱”标签的挣钱软件着实让人眼花缭乱，不知道的还以为随便找个软件玩玩就能发家致富，体验过的人却看得清清楚楚明明白白，挣钱软件哪有看到的那么“繁荣”，很多不过是标榜着赚钱来忽悠老百姓的“假”软件罢了！很多网友都在抱怨想找个真正能赚钱的软件太难了，有人花费了大量的时间和精力也没找到个称心如意的挣钱软件，不过现在你是幸运的，本篇千秋将为大家盘点当前赚钱
【从浅识到熟知Linux】Linux发展史 Jammingpro 从浅学到熟知Linux linux 运维服务器
归属专栏：从浅学到熟知Linux个人主页：Jammingpro每日努力一点点，技术变化看得见文章前言：本篇文章记录Linux发展的历史，因在介绍Linux过程中涉及的其他操作系统及人物，本文对相关内容也有所介绍。文章目录Unix发展史Linux发展史开源Linux官网企业应用情况发行版本在学习Linux前，我们可能都会问Linux从哪里来？它是如何发展的。但在介绍Linux之前，需要先介绍一下Un
linux 发展史种树的猴子内核 java 操作系统 linux 大数据
linux发展史说明此前对linux认识模糊一知半解，近期通过学习将自己对于linux的发展总结一下方便大家日后的学习。那Linux是目前一款非常火热的开源操作系统，可是linux是什么时候出现的，又是因为什么样的原因被开发出来的呢。以下将对linux的发展历程进行详细的讲解。目录一、Linux发展背景二、UINIX的诞生三、UNIX的重要分支-BSD的诞生四、Minix的诞生五、GNU与Free
2019考研 | 西交大软件工程笔者阿蓉
本科背景：某北京211学校电子信息工程互联网开发工作两年录取结果：全日制软件工程学院分数：初试350+复试笔试80+面试85+总排名：100+从五月份开始脱产学习，我主要说一下专业课和复试还有我对非全的一些看法。【数学100+】张宇，张宇，张宇。跟着张宇学习，入门视频刷一遍，真题刷两遍，错题刷三遍。书刷N多遍。从视频开始学习，是最快的学习方法。5-7月份把主要是数学学好，8-9月份开始给自己每个周
简单说说关于shell中zsh和bash的选择秋刀prince MacOS 小猿们的开发日常 bash
希望文章能给到你启发和灵感～如果觉得文章对你有帮助的话，点赞+关注+收藏支持一下博主吧～阅读指南开篇说明一、基础环境说明1.1硬件环境1.2软件环境二、什么是shell、bash、zsh?2.1bash2.2zsh三、选择Bash还是Zsh？四、一些常见问题开篇说明本篇主要简单说明一下，shell中bash和zsh的区别和选择；我们经常会把这两个搞混，不知道什么时候用哪一个，以及怎么使用；一、基础
准备胡珊珊乐平九小
尊敬的各位领导、各位同仁们：大家上午好！我是来自乐平九小的胡珊珊。今天很高兴能有机会给大家做“智慧作业”应用培训。说到“智慧作业”我感触颇多，我是在智慧作业中成长起来的，我也时常以自己是一名“智慧作业人”自居。早在2020年疫情期间，学校电教处周光杰主任在学校群里发出智慧作业抢题通知，我看了有些心动，一节微课相当于一次省级公开课，这对于我们普通老师是多么难得的机会啊。但想归想，我也不会用软件啊，再
果冻宝盒邀请码怎么填好，附6个顶级有效邀请码小小编007
在当今的电商时代，返利app已经成为了很多网购达人的必备工具。其中，果冻宝盒作为一款备受好评的返利软件，吸引了大量用户。而对于一些新手用户来说，填写果冻宝盒的邀请码可能会让他们感到困惑。本文将详细介绍果冻宝盒返利app，并指导用户如何正确填写邀请码。一、果冻宝盒返利app简介果冻宝盒是一款集折扣、返利、分享为一体的购物app。用户在果冻宝盒上购物时，不仅可以享受到商家提供的折扣，还可以获得果冻宝盒
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python批量读取tiff文件_Python Pillow批量转换tif格式到jpg weixin_39557797
最近因为想要整下网站的壁纸，从网站下载了别人整理好的合集压缩包，解压之后，却发现里面的文件都是tif的，tif格式网站和电脑都不认的，根本不能作壁纸。这时候，就需要转换图片格式了，首先我找了几款转换格式的软件，发现效果都不好，要不是不支持tif格式，要不就是转换出来的图片糊的不行。最终，还是决定用Python的Pillow库来写一个脚本，完成这个任务。下面是整个的小脚本----importosim
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
Android应用性能优化轻口味 Android
Android手机由于其本身的后台机制和硬件特点，性能上一直被诟病，所以软件开发者对软件本身的性能优化就显得尤为重要；本文将对Android开发过程中性能优化的各个方面做一个回顾与总结。Cache优化ListView缓存：ListView中有一个回收器，Item滑出界面的时候View会回收到这里，需要显示新的Item的时候，就尽量重用回收器里面的View；每次在getView函数中inflate新
2021 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级C++语言试题（第三大题：完善程序代码） mmz1207 c++csp
最近有一段时间没更新了，在准备CSP考试，请大家见谅。（1）有n个人围成一个圈，依次标号0到n-1。从0号开始，依次0，1，0，1...交替报数，报到一的人离开，直至圈中剩最后一个人。求最后剩下的人的编号。#includeusingnamespacestd;intf[1000010];intmain(){intn;cin>>n;inti=0,cnt=0,p=0;while(cnt#includeu
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

开源分词软件

perminusminus

Introduction

Features

Stanford 汉语分词工具

哈工大语言云（LTP -cloud）

ICTCLAS： 汉语词法分析系统

Ansj（ICTCLAS的java实现）

庖丁解牛分词

盘古分词

IKAnalyzer

imdict-chinese-analyzer

mmseg4j

FudanNLP(复旦大学)

Jcseg

一、jcseg中文分词器

二、分词速度：

SCWS

Friso

HTTPCWS：

libmmseg

OpenCLAS

CRF++（上海交大）

你可能感兴趣的:(开源分词软件)

ICTCLAS：　汉语词法分析系统