E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
分词器
中文
分词器
性能比较
摘要: 本篇是本人在Solr 的基础上,配置了中文
分词器
, 并对其进行的性能测试总结,具体包括 使用mmseg4j、IKAnalyzer、Ansj,分别从创建索引效果
·
2015-10-21 11:15
中文分词器
CDH添加solr中文分词
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文
分词器
对中文进行分词处理,ik-analyzer就是
catboy
·
2015-10-12 15:00
Solr
分词
cdh
IK
solr配置ik中文分词
我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到solrhome需要使用
分词器
的core的conf下面,和core的schema.xml文件一个目录。
fengyong7723131
·
2015-10-10 10:00
hibernate search -- 中文词法分析
hibernatesearch默认的
分词器
是org.apache.lucene.analysis.standard.StandardAnaly
开心的D哥
·
2015-09-28 15:42
Java
Java
Web
Lucene自定义分词:合并IK分词+二元分词
索引命中效果不佳,采用IK分词与二元分词的效果都不是特别好,于是设计了新的自定义
分词器
,先将句子用IK分词分开,再对长度超过3的词进行二元分词。以下是
分词器
的实现效果图。
fzu_rookie
·
2015-09-23 15:58
lucene
[维护]Elasticsearch零停机时间更新索引配置或迁移索引
:http://blog.csdn.net/dm_vincent/article/details/41643793本文介绍Elasticsearch零宕机时间更新索引配置映射内容的方法,包括字段类型、
分词器
Horsemen
·
2015-09-18 10:00
lucene整合中文
分词器
mmseg4j和高亮highlighter
最近在研究lucene,其实很简单,可以整合中文
分词器
mmseg4j时,总是会报一些异常,这主要是版本兼容问题,在此做一个记录环境:lucene:4.3.1mmseg4j:1.9.1主要jar包,如下图
grhlove123
·
2015-09-17 16:00
elasticsearch的Mapping定义
一般不需要要指定mapping都可以,因为es会自动根据数据格式定义它的类型,如果你需要对某些字段添加特殊属性(如:定义使用其它
分词器
、是否分词、是否存储等),就必须手动添加mapping。
Horsemen
·
2015-09-17 09:00
Java项目依赖各jar包的作用和解释
IKIKAnalyzer3.2.8.jar//
分词器
ant-junit4.jar//antjunitantlr-2.7.6.jar//没有此包,hibernate不会执行hql语句。
小雄哥
·
2015-09-14 16:11
java
语言基础
Java项目依赖各jar包的作用和解释
IKIKAnalyzer3.2.8.jar//
分词器
ant-junit4.jar//antjunitantlr-2.7.6.jar//没有此包,hibernate不会执行hql语句。
caisini_vc
·
2015-09-14 16:00
Solr5之使用IK
分词器
Solr5之使用IK
分词器
在Solr中该如何使用IK
分词器
呢,这是小伙伴们问的频率比较高的一个问题,今晚特此更新此篇博客。其实之前我在其他博客里已经使用了IK
分词器
,只是我没做详细说明。
华梦行
·
2015-09-11 17:00
IK
分词器
使用自定义词库
1、拷贝IKAnalyzer.cfg.xml到WEB-INF/classes下,拷贝IKAnalyzer2012FF_u1.jar到lib目录下,IKAnalyzer.cfg.xml内容如下: IKAnalyzer扩展配置 myExt.dic; stopword.dic; 2、修改加入自定义词库:myExt.dic;myExt2.dic3、myExt.dic格
Zero零_度
·
2015-09-06 10:00
Lucene
Solr
词库
IK
ik分词器
跟益达学Solr5之拼音分词[改进版]
之前一篇介绍过如何自定义实现拼音
分词器
,不过当初只考虑了全拼这种情况,且有些BUG,趁着抗日胜利70周年阅兵3天假期有时间,又把当初的代码拿起来进行了改进,改进点包括支持全拼,简拼以及全拼+简拼,
lxwt909
·
2015-09-04 23:00
Solr
Pinyin
analyzer
lucene4.7
分词器
(三) 之自定义
分词器
本来的Lucene的内置的
分词器
,差不多可以完成我们的大部分分词工作了,如果是英文文章那么可以使用StandardAnalyzer标准
分词器
,WhitespaceAnalyzer空格
分词器
,对于中文我们则可以选择
m635674608
·
2015-08-30 09:00
lucene4.7
分词器
(三)
的进阶开发了,那么首先摆在我们面前的第一个必须要解决的问题,就是关于中文分词的问题,因为Lucene毕竟是国外的大牛们开发的,显然会比较侧重英文文章,不过还好,在Lucene的下载包里同步了SmartCN的
分词器
针对中文发行的
m635674608
·
2015-08-29 00:00
solr自定义分词
工作上,有需要对纯数字的字符串做分词,好像CJK二元
分词器
对这样的数字不会做分词,所以自己写了个
分词器
,
分词器
达到以下效果:对字符串"哈哈1234呵呵456",分词后为:1121231234445456Analyzer
Zero零_度
·
2015-08-27 14:00
Solr
分词
返利网面试
3、lucene的原理,
分词器
怎么扩容的原理:建立索引,通过目录直接定位到相关的数据,所以速度快,而数据库是需要逐条去比对,所以查询速度慢。
飞翔神话
·
2015-08-25 09:00
面试
返利网
返利网面试
3、lucene的原理,
分词器
怎么扩容的 原理:建立索引,通过目录直接定位到相关的数据,所以速度快,而数据库是需要逐条去比对,所以查询速度慢。
飞翔神话
·
2015-08-25 09:00
面试
返利网
Solr 关于Analyzer、Tokenizer、和Filter,以及中文
分词器
对于文本数据(solr.TextField),solr在建立索引和搜索的时候需要拆分它们、并做一些相应的处理(比如英文要去掉介词、转成小写、单词原形化等,中文要恰当地要分词)。这些工作,一般由Analyzers、Tokenizers、和Filter来实现。这三个东东配置在fieldType中。ananlyzer:告诉solr在建立索引和搜索的时候,如何处理text类型的内容,比如要不要去掉“a”、
ClementAD
·
2015-08-19 20:00
filter
Solr
中文分词
tokenizer
analizer
分词器
之NLPIR加密文件在哪
官方网站http://ictclas.nlpir.org/newsdownloads?DocId=389既然官方承诺对个人用户永久免费,那拿来做科研还是可以的。只不过每次过期失效之后都要下载最新版本,找到其中的Data/NLPIR.user文件,这是一个加密文件,相当于软件可以用的证书。替换旧版本的Data/NLPIR.user文件,其他不变即可继续使用很长时间了。python包装之后的代码:#-
xuxiuning
·
2015-08-18 20:00
分词器
Solr5.2.1学习笔记-3-分词配置
先上官方文档:http://www.solr-start.com/info/analyzers/为啥要自定义
分词器
?Index建立时是按
分词器
的分词结果得到的词进行索引的。
xuxiuning
·
2015-08-18 13:00
Solr
Elasticsearch安装中文分词插件ik
http://blog.csdn.net/liuzhenfeng/article/details/39404435Elasticsearch默认提供的
分词器
,会把每个汉字分开,而不是我们想要的根据关键词来分词
earbao
·
2015-08-13 18:00
lucene
分词器
分词
packagecom.essearch.core.analyzer; importjava.io.IOException; importjava.io.Reader; importjava.io.StringReader; importorg.apache.lucene.analysis.Analyzer; importorg.apache.lucene.analysis.Tok
earbao
·
2015-08-13 17:00
lucene
分词器
分词demo
packagecom.jiepu.lucene_49;//lucene不同分词测试,来至:http://blog.zzzhc.com/blogs/86/importjava.io.IOException;importjava.io.StringReader;importjava.util.HashSet;importjava.util.Iterator;importnet.paoding.anal
yunshouhu
·
2015-08-13 16:25
搜索引擎
java
lucene
分词器
分词demo
packagecom.jiepu.lucene_49; //lucene不同分词测试,来至:http://blog.zzzhc.com/blogs/86/ importjava.io.IOException; importjava.io.StringReader; importjava.util.HashSet; importjava.util.Iterator; import
earbao
·
2015-08-13 16:00
为Elasticsearch添加中文分词,对比
分词器
效果
Elasticsearch中,内置了很多
分词器
(analyzers),例如standard (标准
分词器
)、english(英文分词)和chinese (中文分词)。
hong0220
·
2015-08-13 11:00
IK
分词器
2012 FF 版本取消了 org.wltea.analyzer.solr.IKTokenizerFactory 类【导致只能使用ik
分词器
来进行分词,无法使用solr自带的其它过滤方式
文章来源:http://qb.doudang.com/doc-view-910.html看到ik
分词器
支持solr4.0,于是下载了试用,结果发现IK
分词器
2012FF版本取消了org.wltea.analyzer.solr.IKTokenizerFactory
buster2014
·
2015-08-12 15:00
ElasticSearch:为中文
分词器
增加对英文的支持(让中文
分词器
可以处理中英文混合文档)
本文地址,需转载请注明出处:http://blog.csdn.net/hereiskxm/article/details/47441911当我们使用中文
分词器
的时候,其实也希望它能够支持对于英文的分词。
kexinmei
·
2015-08-12 12:00
搜索引擎
elasticsearch
IKAnalyzer
分词
中文
分词器
IK和Paoding技术对比
IK和Paoding的技术介绍 一、Ik
分词器
介绍: 优点: 缺点: 二、Paoding
分词器
介绍: 优点: 缺点: 2.
m635674608
·
2015-08-11 22:00
paoding
oracle-全文索引的学习与应用
1.sysdba用户授权grantctxapptoxmaricallplat;grantctx_ddlexecuteonxmaircallplat;2.选择分析器basic_lexer:针对英语
分词器
chinese_vgram_lexer
zcz123
·
2015-08-10 15:00
lucene自定义
分词器
工作上,有需要对纯数字的字符串做分词,好像CJK二元
分词器
对这样的数字不会做分词,所以自己写了个
分词器
,
分词器
达到以下效果:对字符串1234567,分词后为:1234567Analyzer:package
Zero零_度
·
2015-08-08 16:00
天亮舆情系统-架构设计-01
2、系统模块组成2.1采集模块:垂直采集器:天亮微博采集器,天亮电商平台采集器通用网页采集器:天亮舆情采集器2.2分析与挖掘中文
分词器
:天亮中文分词,ansj中文分词主题词提取:基于天亮分词实现的theme_extractor
周天亮
·
2015-08-02 17:22
天亮舆情系统
天亮舆情系统-架构设计-01
2、 系统模块组成 2.1采集模块:垂直采集器:天亮微博采集器,天亮电商平台采集器通用网页采集器:天亮舆情采集器 2.2分析与挖掘 中文
分词器
:
erliang20088
·
2015-08-02 17:00
java
大数据
采集器
网络舆情系统
天亮舆情系统
[置顶] solr实战-(一)
server/solr/user/conf/managed-schema中添加 3.2添加IK分词库 filed定义中使用了IKAnalyzer,需要进入相关配置引用
分词器
buyaore_wo
·
2015-07-30 16:00
python: 中文
分词器
pymmseg的编译安装
在使用libsvm的时候,缺少各种依赖,首先是libsvm.dll自带的是32位,只好找64的,在http://www.lfd.uci.edu/~gohlke/pythonlibs/#libsvm下载了64位的dll,然后又缺少了libiomp5md.dll在这个http://cn.dll-files.com/libiomp5md.dll.html下载了,在运行train.py的时候,仍然报错,又
u013652219
·
2015-07-29 17:00
python
pymmseg
compass使用的步骤
打入lucene,paoding
分词器
,compass,common-log.jar相关的jar包, 可以使用配置或者注释的方式来使用compass. 使用xml配置方式: 01.<?
jinxinwei
·
2015-07-27 23:00
Lucene
【中文分词】亲手开发一款中文
分词器
——源代码
这里提供我开发的中文
分词器
源代码。代码分为三个部分:(一)状态矩阵元素对象GNode。
mychaint
·
2015-07-09 10:23
机器学习
文本分词
Solr之SolrCloud配置mmseg4j同义词
1.修改$SOLR_HOME/collection1/conf/schema.xml在fields节点下面的mmseg4j
分词器
相关配置修改为类似于如下的内容: 2.修改$SOLR_HOME
tianwei7518
·
2015-07-02 22:00
Solr
Lucene
全文检索
Solr之中文分词
针对Solr的
分词器
比较多,其中最常用的的两个是mmseg4j和ik-analyzer,使用都很方便,关于分成器的比较参考:与Lucene4.10配合的中文分词比较,ik-analyzer最新版本IKAnalyzer2012FF_u1
tianwei7518
·
2015-07-02 21:00
Lucene
Solr
全文检索
solr4.7中文
分词器
(ik-analyzer)配置
http://blog.csdn.net/clj198606061111/article/details/21289897solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文
分词器
对中文进行分词处理
zhangliao613
·
2015-06-30 13:00
Lucene中文分词Paoding
Paoding中文分词库是一个使用Java开发的基于Lucene4.x的
分词器
,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。
tianwei7518
·
2015-06-23 16:00
Lucene
全文检索
Lucene中文分词mmseg4j
mmseg4j用Chih-HaoTsai的 MMSeg算法实现的中文
分词器
,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。
tianwei7518
·
2015-06-23 16:00
Lucene
全文检索
Lucene中文分词Jcseg
Jcseg是使用Java开发的一款开源的中文
分词器
,基于流行的mmseg算法实现,分词准确率高达98.4%,支持中文人名识别,同义词匹配,停止词过滤等。
tianwei7518
·
2015-06-23 16:00
Lucene
全文检索
Lucene中文分词介绍
下面介绍一些常见的中文
分词器
。一、IKAnalyzerIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。
tianwei7518
·
2015-06-23 16:00
Lucene
全文检索
跟益达学Solr5之使用MMSeg4J
分词器
要想在Sor中使用MMSeg4J
分词器
,首先你需要自定义一个TokenizerFactory实现类,虽然直接配置Analyzer类也可以,但那样无法配置Analyzer构造函数的参数,不够灵活,
lxwt909
·
2015-06-22 17:00
Solr
mmseg4j
跟益达学Solr5之使用MMSeg4J
分词器
要想在Sor中使用MMSeg4J
分词器
,首先你需要自定义一个TokenizerFactory实现类,虽然直接配置Analyzer类也可以,但那样无法配置Analyzer构造函数的参数,不够灵活,
lxwt909
·
2015-06-22 17:00
Solr
mmseg4j
跟益达学Solr5之使用Ansj
分词器
基于上篇博客,我们知道了在Solr中配置
分词器
有两种方式,一种是直接配置
分词器
类,比如: 一种是配置TokenizerFactory类,由于SolrAPI中并没有内置类似IK,Ansj这样的中文
分词器
的
lxwt909
·
2015-06-19 13:00
Solr
ansj
跟益达学Solr5之使用Ansj
分词器
基于上篇博客,我们知道了在Solr中配置
分词器
有两种方式,一种是直接配置
分词器
类,比如: 一种是配置TokenizerFactory类,由于SolrAPI中并没有内置类似IK,Ansj这样的中文
分词器
的
lxwt909
·
2015-06-19 13:00
Solr
ansj
elasticsearch创建索引报错
Q:安装ik
分词器
1.2.9后,使用head插件创建索引报错{ "error":"IndexCreationException[[email]failedtocreateindex];nested:NoClassDefFoundError
想不通的250
·
2015-06-18 07:00
跟益达学Solr5之使用IK
分词器
在Solr中该如何使用IK
分词器
呢,这是小伙伴们问的频率比较高的一个问题,今晚特此更新此篇博客。其实之前我在其他博客里已经使用了IK
分词器
,只是我没做详细说明。
lxwt909
·
2015-06-17 23:00
Solr
IKAnalyzer
上一页
52
53
54
55
56
57
58
59
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他