分词器第56页

中文分词器性能比较

摘要：本篇是本人在Solr 的基础上，配置了中文分词器，并对其进行的性能测试总结，具体包括使用mmseg4j、IKAnalyzer、Ansj，分别从创建索引效果

·2015-10-21 11:15

CDH添加solr中文分词

solr本身对中文分词的处理不是太好，所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理，ik-analyzer就是

catboy·2015-10-12 15:00

solr配置ik中文分词

我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到solrhome需要使用分词器的core的conf下面，和core的schema.xml文件一个目录。

fengyong7723131·2015-10-10 10:00

hibernate search -- 中文词法分析

hibernatesearch默认的分词器是org.apache.lucene.analysis.standard.StandardAnaly

开心的D哥·2015-09-28 15:42

Lucene自定义分词:合并IK分词+二元分词

索引命中效果不佳，采用IK分词与二元分词的效果都不是特别好，于是设计了新的自定义分词器，先将句子用IK分词分开，再对长度超过3的词进行二元分词。以下是分词器的实现效果图。

fzu_rookie·2015-09-23 15:58

[维护]Elasticsearch零停机时间更新索引配置或迁移索引

:http://blog.csdn.net/dm_vincent/article/details/41643793本文介绍Elasticsearch零宕机时间更新索引配置映射内容的方法，包括字段类型、分词器

Horsemen·2015-09-18 10:00

lucene整合中文分词器mmseg4j和高亮highlighter

最近在研究lucene，其实很简单，可以整合中文分词器mmseg4j时，总是会报一些异常，这主要是版本兼容问题，在此做一个记录环境：lucene：4.3.1mmseg4j：1.9.1主要jar包，如下图

grhlove123·2015-09-17 16:00

elasticsearch的Mapping定义

一般不需要要指定mapping都可以，因为es会自动根据数据格式定义它的类型，如果你需要对某些字段添加特殊属性（如：定义使用其它分词器、是否分词、是否存储等），就必须手动添加mapping。

Horsemen·2015-09-17 09:00

Java项目依赖各jar包的作用和解释

IKIKAnalyzer3.2.8.jar//分词器ant-junit4.jar//antjunitantlr-2.7.6.jar//没有此包，hibernate不会执行hql语句。

小雄哥·2015-09-14 16:11

Java项目依赖各jar包的作用和解释

IKIKAnalyzer3.2.8.jar//分词器ant-junit4.jar//antjunitantlr-2.7.6.jar//没有此包，hibernate不会执行hql语句。

caisini_vc·2015-09-14 16:00

Solr5之使用IK分词器

Solr5之使用IK分词器在Solr中该如何使用IK分词器呢，这是小伙伴们问的频率比较高的一个问题，今晚特此更新此篇博客。其实之前我在其他博客里已经使用了IK分词器，只是我没做详细说明。

华梦行·2015-09-11 17:00

IK分词器使用自定义词库

1、拷贝IKAnalyzer.cfg.xml到WEB-INF/classes下，拷贝IKAnalyzer2012FF_u1.jar到lib目录下，IKAnalyzer.cfg.xml内容如下： IKAnalyzer扩展配置 myExt.dic; stopword.dic; 2、修改加入自定义词库：myExt.dic;myExt2.dic3、myExt.dic格

Zero零_度·2015-09-06 10:00

跟益达学Solr5之拼音分词[改进版]

之前一篇介绍过如何自定义实现拼音分词器，不过当初只考虑了全拼这种情况，且有些BUG，趁着抗日胜利70周年阅兵3天假期有时间，又把当初的代码拿起来进行了改进，改进点包括支持全拼，简拼以及全拼+简拼，

lxwt909·2015-09-04 23:00

lucene4.7 分词器（三）之自定义分词器

本来的Lucene的内置的分词器，差不多可以完成我们的大部分分词工作了，如果是英文文章那么可以使用StandardAnalyzer标准分词器，WhitespaceAnalyzer空格分词器,对于中文我们则可以选择

m635674608·2015-08-30 09:00

lucene4.7 分词器（三）

的进阶开发了，那么首先摆在我们面前的第一个必须要解决的问题，就是关于中文分词的问题，因为Lucene毕竟是国外的大牛们开发的，显然会比较侧重英文文章，不过还好，在Lucene的下载包里同步了SmartCN的分词器针对中文发行的

m635674608·2015-08-29 00:00

solr自定义分词

工作上，有需要对纯数字的字符串做分词，好像CJK二元分词器对这样的数字不会做分词，所以自己写了个分词器，分词器达到以下效果：对字符串"哈哈1234呵呵456"，分词后为：1121231234445456Analyzer

Zero零_度·2015-08-27 14:00

返利网面试

3、lucene的原理，分词器怎么扩容的原理：建立索引，通过目录直接定位到相关的数据，所以速度快，而数据库是需要逐条去比对，所以查询速度慢。

飞翔神话·2015-08-25 09:00

返利网面试

3、lucene的原理，分词器怎么扩容的原理：建立索引，通过目录直接定位到相关的数据，所以速度快，而数据库是需要逐条去比对，所以查询速度慢。

飞翔神话·2015-08-25 09:00

Solr 关于Analyzer、Tokenizer、和Filter，以及中文分词器

对于文本数据（solr.TextField），solr在建立索引和搜索的时候需要拆分它们、并做一些相应的处理（比如英文要去掉介词、转成小写、单词原形化等，中文要恰当地要分词）。这些工作，一般由Analyzers、Tokenizers、和Filter来实现。这三个东东配置在fieldType中。ananlyzer：告诉solr在建立索引和搜索的时候，如何处理text类型的内容，比如要不要去掉“a”、

ClementAD·2015-08-19 20:00

分词器之NLPIR加密文件在哪

官方网站http://ictclas.nlpir.org/newsdownloads?DocId=389既然官方承诺对个人用户永久免费，那拿来做科研还是可以的。只不过每次过期失效之后都要下载最新版本，找到其中的Data/NLPIR.user文件,这是一个加密文件,相当于软件可以用的证书。替换旧版本的Data/NLPIR.user文件，其他不变即可继续使用很长时间了。python包装之后的代码：#-

xuxiuning·2015-08-18 20:00

Solr5.2.1学习笔记-3-分词配置

先上官方文档：http://www.solr-start.com/info/analyzers/为啥要自定义分词器？Index建立时是按分词器的分词结果得到的词进行索引的。

xuxiuning·2015-08-18 13:00

Elasticsearch安装中文分词插件ik

http://blog.csdn.net/liuzhenfeng/article/details/39404435Elasticsearch默认提供的分词器，会把每个汉字分开，而不是我们想要的根据关键词来分词

earbao·2015-08-13 18:00

lucene分词器分词

packagecom.essearch.core.analyzer; importjava.io.IOException; importjava.io.Reader; importjava.io.StringReader; importorg.apache.lucene.analysis.Analyzer; importorg.apache.lucene.analysis.Tok

earbao·2015-08-13 17:00

lucene分词器分词demo

packagecom.jiepu.lucene_49;//lucene不同分词测试,来至：http://blog.zzzhc.com/blogs/86/importjava.io.IOException;importjava.io.StringReader;importjava.util.HashSet;importjava.util.Iterator;importnet.paoding.anal

yunshouhu·2015-08-13 16:25

lucene分词器分词demo

packagecom.jiepu.lucene_49; //lucene不同分词测试,来至：http://blog.zzzhc.com/blogs/86/ importjava.io.IOException; importjava.io.StringReader; importjava.util.HashSet; importjava.util.Iterator; import

earbao·2015-08-13 16:00

为Elasticsearch添加中文分词，对比分词器效果

Elasticsearch中，内置了很多分词器（analyzers），例如standard （标准分词器）、english（英文分词）和chinese （中文分词）。

hong0220·2015-08-13 11:00

IK 分词器 2012 FF 版本取消了 org.wltea.analyzer.solr.IKTokenizerFactory 类【导致只能使用ik分词器来进行分词，无法使用solr自带的其它过滤方式

文章来源：http://qb.doudang.com/doc-view-910.html看到ik分词器支持solr4.0,于是下载了试用，结果发现IK分词器2012FF版本取消了org.wltea.analyzer.solr.IKTokenizerFactory

buster2014·2015-08-12 15:00

ElasticSearch:为中文分词器增加对英文的支持（让中文分词器可以处理中英文混合文档）

本文地址，需转载请注明出处：http://blog.csdn.net/hereiskxm/article/details/47441911当我们使用中文分词器的时候，其实也希望它能够支持对于英文的分词。

kexinmei·2015-08-12 12:00

中文分词器IK和Paoding技术对比

IK和Paoding的技术介绍一、Ik分词器介绍：优点：缺点：二、Paoding分词器介绍：优点：缺点： 2.

m635674608·2015-08-11 22:00

oracle-全文索引的学习与应用

1.sysdba用户授权grantctxapptoxmaricallplat;grantctx_ddlexecuteonxmaircallplat;2.选择分析器basic_lexer:针对英语分词器chinese_vgram_lexer

zcz123·2015-08-10 15:00

lucene自定义分词器

工作上，有需要对纯数字的字符串做分词，好像CJK二元分词器对这样的数字不会做分词，所以自己写了个分词器，分词器达到以下效果：对字符串1234567，分词后为：1234567Analyzer：package

Zero零_度·2015-08-08 16:00

天亮舆情系统-架构设计-01

2、系统模块组成2.1采集模块：垂直采集器：天亮微博采集器，天亮电商平台采集器通用网页采集器：天亮舆情采集器2.2分析与挖掘中文分词器：天亮中文分词，ansj中文分词主题词提取：基于天亮分词实现的theme_extractor

周天亮·2015-08-02 17:22

天亮舆情系统-架构设计-01

2、系统模块组成 2.1采集模块：垂直采集器：天亮微博采集器，天亮电商平台采集器通用网页采集器：天亮舆情采集器 2.2分析与挖掘中文分词器：

erliang20088·2015-08-02 17:00

[置顶] solr实战-(一)

server/solr/user/conf/managed-schema中添加 3.2添加IK分词库 filed定义中使用了IKAnalyzer，需要进入相关配置引用分词器

buyaore_wo·2015-07-30 16:00

python: 中文分词器pymmseg的编译安装

在使用libsvm的时候,缺少各种依赖，首先是libsvm.dll自带的是32位，只好找64的，在http://www.lfd.uci.edu/~gohlke/pythonlibs/#libsvm下载了64位的dll，然后又缺少了libiomp5md.dll在这个http://cn.dll-files.com/libiomp5md.dll.html下载了，在运行train.py的时候，仍然报错，又

u013652219·2015-07-29 17:00

compass使用的步骤

打入lucene,paoding分词器,compass,common-log.jar相关的jar包，可以使用配置或者注释的方式来使用compass. 使用xml配置方式： 01.<?

jinxinwei·2015-07-27 23:00

【中文分词】亲手开发一款中文分词器——源代码

这里提供我开发的中文分词器源代码。代码分为三个部分：（一）状态矩阵元素对象GNode。

mychaint·2015-07-09 10:23

Solr之SolrCloud配置mmseg4j同义词

1.修改$SOLR_HOME/collection1/conf/schema.xml在fields节点下面的mmseg4j分词器相关配置修改为类似于如下的内容： 2.修改$SOLR_HOME

tianwei7518·2015-07-02 22:00

Solr之中文分词

针对Solr的分词器比较多，其中最常用的的两个是mmseg4j和ik-analyzer,使用都很方便，关于分成器的比较参考：与Lucene4.10配合的中文分词比较，ik-analyzer最新版本IKAnalyzer2012FF_u1

tianwei7518·2015-07-02 21:00

solr4.7中文分词器（ik-analyzer）配置

http://blog.csdn.net/clj198606061111/article/details/21289897solr本身对中文分词的处理不是太好，所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理

zhangliao613·2015-06-30 13:00

Lucene中文分词Paoding

Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。

tianwei7518·2015-06-23 16:00

Lucene中文分词mmseg4j

mmseg4j用Chih-HaoTsai的 MMSeg算法实现的中文分词器，并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。

tianwei7518·2015-06-23 16:00

Lucene中文分词Jcseg

Jcseg是使用Java开发的一款开源的中文分词器,基于流行的mmseg算法实现，分词准确率高达98.4%,支持中文人名识别,同义词匹配,停止词过滤等。

tianwei7518·2015-06-23 16:00

Lucene中文分词介绍

下面介绍一些常见的中文分词器。一、IKAnalyzerIKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。

tianwei7518·2015-06-23 16:00

跟益达学Solr5之使用MMSeg4J分词器

要想在Sor中使用MMSeg4J分词器，首先你需要自定义一个TokenizerFactory实现类，虽然直接配置Analyzer类也可以，但那样无法配置Analyzer构造函数的参数，不够灵活，

lxwt909·2015-06-22 17:00

跟益达学Solr5之使用MMSeg4J分词器

要想在Sor中使用MMSeg4J分词器，首先你需要自定义一个TokenizerFactory实现类，虽然直接配置Analyzer类也可以，但那样无法配置Analyzer构造函数的参数，不够灵活，

lxwt909·2015-06-22 17:00

跟益达学Solr5之使用Ansj分词器

基于上篇博客，我们知道了在Solr中配置分词器有两种方式，一种是直接配置分词器类，比如：一种是配置TokenizerFactory类，由于SolrAPI中并没有内置类似IK，Ansj这样的中文分词器的

lxwt909·2015-06-19 13:00

跟益达学Solr5之使用Ansj分词器

基于上篇博客，我们知道了在Solr中配置分词器有两种方式，一种是直接配置分词器类，比如：一种是配置TokenizerFactory类，由于SolrAPI中并没有内置类似IK，Ansj这样的中文分词器的

lxwt909·2015-06-19 13:00

elasticsearch创建索引报错

Q：安装ik分词器1.2.9后，使用head插件创建索引报错{ "error":"IndexCreationException[[email]failedtocreateindex];nested:NoClassDefFoundError

想不通的250·2015-06-18 07:00

跟益达学Solr5之使用IK分词器

在Solr中该如何使用IK分词器呢，这是小伙伴们问的频率比较高的一个问题，今晚特此更新此篇博客。其实之前我在其他博客里已经使用了IK分词器，只是我没做详细说明。

lxwt909·2015-06-17 23:00

推荐频道

分词器

中文分词器性能比较

CDH添加solr中文分词

solr配置ik中文分词

hibernate search -- 中文词法分析

Lucene自定义分词:合并IK分词+二元分词

[维护]Elasticsearch零停机时间更新索引配置或迁移索引

lucene整合中文分词器mmseg4j和高亮highlighter

elasticsearch的Mapping定义

Java项目依赖各jar包的作用和解释

Java项目依赖各jar包的作用和解释

Solr5之使用IK分词器

IK分词器使用自定义词库

跟益达学Solr5之拼音分词[改进版]

lucene4.7 分词器（三） 之自定义分词器

lucene4.7 分词器（三）

solr自定义分词

返利网面试

返利网面试

Solr 关于Analyzer、Tokenizer、和Filter，以及中文分词器

分词器之NLPIR加密文件在哪

Solr5.2.1学习笔记-3-分词配置

Elasticsearch安装中文分词插件ik

lucene分词器分词

lucene分词器分词demo

lucene分词器分词demo

为Elasticsearch添加中文分词，对比分词器效果

IK 分词器 2012 FF 版本取消了 org.wltea.analyzer.solr.IKTokenizerFactory 类【导致只能使用ik分词器来进行分词，无法使用solr自带的其它过滤方式

ElasticSearch:为中文分词器增加对英文的支持（让中文分词器可以处理中英文混合文档）

中文分词器IK和Paoding技术对比

oracle-全文索引的学习与应用

lucene自定义分词器

天亮舆情系统-架构设计-01

天亮舆情系统-架构设计-01

[置顶] solr实战-(一)

python: 中文分词器pymmseg的编译安装

compass使用的步骤

【中文分词】亲手开发一款中文分词器——源代码

Solr之SolrCloud配置mmseg4j同义词

Solr之中文分词

solr4.7中文分词器（ik-analyzer）配置

Lucene中文分词Paoding

Lucene中文分词mmseg4j

Lucene中文分词Jcseg

Lucene中文分词介绍

跟益达学Solr5之使用MMSeg4J分词器

跟益达学Solr5之使用MMSeg4J分词器

跟益达学Solr5之使用Ansj分词器

跟益达学Solr5之使用Ansj分词器

elasticsearch创建索引报错

跟益达学Solr5之使用IK分词器

lucene4.7 分词器（三）之自定义分词器