E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
IKAnalyzer
Java中文分词工具AnsjSeg使用
对于Java语言,有许多可选的分词工具,如中科院计算所的NLPIR(原ICTCLASS)、盘古分词、
IKAnalyzer
、PaodingAnalyzer,其中,试用过ICTCLASS及其后续版本,刚开始感觉不错
qq_26562641
·
2015-12-17 15:00
Solr5.3.1整合
IKAnalyzer
由于solr5.3.1本身不支持中文分词,而msseg4j的分词效果不明显。因而采用IK进行分词,然而参考http://www.superwu.cn/2015/05/08/2134/在google上下载的jar包放到solr目录下直接报如下异常。严重:Servlet.service()forservlet[default]incontextwithpath[/solr]threwexception
秋楓
·
2015-12-15 20:00
JAVA 中配置
IKAnalyzer
扩展词库和停止词库
3、词典和
IKAnalyzer
.cfg.xml配置文件的路径问题。
IKAnalyzer
Duduer
·
2015-12-12 11:00
nutch中文分词
这时,我还是用了
IKAnalyzer
,再次感谢作者的辛劳。提醒一下,这时用到的NUTCH是1.2版本。
cxshun
·
2015-12-10 15:00
apache
.net
ant
Solr
J#
Java开源分词系统
IKAnalyzer
学习(七) 词库加载分词
词库加载模块的源码:Java开源分词系统
IKAnalyzer
学习(四)词库加载源代码——Dictionary类Java开源分词系统
IKAnalyzer
学习(五)词库加载源代码——DictSegmenty
m635674608
·
2015-12-10 11:00
IKAnalyzer
如何自定义远端词库
IKAnalyzer
1.3.4要自定义我们自己的词库,而且我们可以随时新增分词,网上查了一圈没有相关资料,看来只有自己搞定了。
m635674608
·
2015-12-05 21:00
Apache Lucene 5.x 集成中文分词库
IKAnalyzer
ApacheLucene5.x集成中文分词库
IKAnalyzer
前面写过ApacheLucene5.x版本示例,为了支持中文分词,我们可以使用中文分词库
IKAnalyzer
。
isea533
·
2015-12-05 16:00
Lucene
IKAnalyzer
中文分词
中文分词elasticsearch-analysis-ik
IKAnalyzer
是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,
IKAnalyzer
已经推出了4个大版本。
OiteBody
·
2015-11-21 10:00
Assignment 1:Chinese Text Data Processing.
lilongbao.blog.163.com/blog/static/2128760512013689194583/注意点:.dic文件要以utf-8保存不过这里有一个疑惑:.doc文件如果改为GBK保存,
IKAnalyzer
.c
Deribs4
·
2015-11-19 22:00
smartcn与
IKanalyzer
开源中文分词框架分词效果对比smartcn与
IKanalyzer
项目背景: 某银行呼叫中心工单数据挖掘和分析项目,旨在利用文本计算实现热点聚焦和舆情分析。
·
2015-11-13 21:01
IKAnalyzer
IKAnalyzer
独立使用 配置扩展词典
有三点要注意(要不然扩展词典始终不生效): 后缀名.dic的词典文件,必须如使用文档里所说的 无BOM的UTF-8编码保存的文件。如果不确定什么是 无BOM的UTF-8编码,最简单的方式就是 用Notepad++编辑器打开,Encoding->选择 Encoding in UTF-8 without BOM,然后保存。 项目preferences 里 编码选择 ut
·
2015-11-13 09:31
IKAnalyzer
IKanalyzer
、ansj_seg、jcseg三种中文分词器的实战较量
选手:
IKanalyzer
、ansj_seg、jcseg 硬件:i5-3470 3.2GHz 8GB win7 x64 比赛项目:1、搜索;2、自然语言分析 选手介绍: 1,
·
2015-11-12 20:41
IKAnalyzer
IKAnalyzer
原理分析
IKAnalyzer
原理分析
IKAnalyzer
自带的 void org.wltea.analyzer.dic.Dictionary.disableWords(Collection<String
·
2015-11-12 18:32
IKAnalyzer
ElasticSearch使用IK中文分词---安装步骤记录
提示2:下载的IK如果太新,会报错 TokenStream被重载Caused by: java.lang.VerifyError: class org.wltea.analyzer.lucene.
IKAnalyzer
·
2015-11-12 15:37
elasticsearch
Ubuntu环境下Nutch1.2 二次开发(添加中文分词)
前提nutch1.2已部署到eclipse中 详见:http://www.cnblogs.com/cy163/archive/2013/02/19/2916419.html 1 部署
IKAnalyzer
3.2.8
·
2015-11-12 15:35
ubuntu
目标
details/6855805 贝叶斯算法 日志系统开发 所有的缓存技术 还有排序 功能: 自定义排序 不定项属性显示 缓存 内存缓存 缓存数据库 调度
IKAnalyzer
·
2015-11-12 13:41
目标
howto:IK分词器中添加自定义词典
将附件中的
IKAnalyzer
.cfg.xml内容更改,指向扩展自定义扩展词典的位置 <?
·
2015-11-12 11:00
ik分词
轻量级的中文分词工具包 - IK Analyzer
从2006年12月推出1.0版开始,
IKAnalyzer
已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。
·
2015-11-11 13:35
Ik Analyzer
Solr4.0+
IKAnalyzer
中文分词安装
1.依赖: JDK1.6,Tomcat 5.5,Solr 4.0.0,
IKAnalyzer
2012FF Tomcat虽然不是必须,但觉得上生产环境的话,还是得用Tomcat,便于统一管理和监控.
·
2015-11-10 21:47
IKAnalyzer
2.
IKAnalyzer
中文分词器配置和使用
一、配置
IKAnalyzer
中文分词器配置,简单,超简单。
·
2015-11-08 11:35
IKAnalyzer
ElasticSearch的ik分词插件开发
从下往上走,总共3步:一、封装IK分析器 与ElasticSearch集成,分词器的配置均从ElasticSearch的配置文件读取,因此,需要重载
IKAnalyzer
的构造方法,然后继承ElasticSearch
m635674608
·
2015-11-08 00:00
中文分词器性能比较
摘要:本篇是本人在Solr的基础上,配置了中文分词器,并对其进行的性能测试总结,具体包括使用mmseg4j、
IKAnalyzer
、Ansj,分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。
m635674608
·
2015-11-07 12:00
Solr安装ik分词
下载http://git.oschina.net/wltea/IK-Analyzer-2012FF解压之后将dist/
IKAnalyzer
2012FF_u1.jar复制到tomcat的solr的lib文件夹下将
山野道人
·
2015-11-05 22:00
Java编程实现提取文章中关键字的方法
lucene-core-3.6.2.jar,lucene-memory-3.6.2.jar,*lucene-highlighter-3.6.2.jar,lucene-analyzers-3.6.2.jar*
IKAnalyzer
2012
awj3584
·
2015-11-05 15:30
Lucene的中文分词器
IKAnalyzer
分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一,而且随着Lucene的版本更新而不断更新,目前已更新到IK Analyzer 2012版本。 IK Analyzer是一个开源的,基于j
·
2015-11-03 22:55
IKAnalyzer
Lucene4.4与
IKAnalyzer
冲突
先来看异常:"D:\ProgramFiles\Java\jdk1.7.0_67\bin\java"-ea-Didea.launcher.port=7537"-Didea.launcher.bin.path=D:\ProgramFiles\JetBrains\IntelliJIDEACommunityEdition14.1.2\bin"-Dfile.encoding=GBK-classpath"D:
liuhui_306
·
2015-11-03 18:00
IKAnalyzer
lucene4.4
Solr4+
IKAnalyzer
的安装配置
转载:http://www.cnblogs.com/madyina/p/4131751.html 一、下载Solr4.10.2 我们以Windows版本为例,solr-4.10.2.zip是目前最新版本,下载地址: http://www.apache.org/dyn/closer.cgi/lucene/solr/4.10.2 二、 Solr安
·
2015-11-01 13:52
IKAnalyzer
利用SOLR搭建企业搜索平台 之十一(中文分词之IK)
作者博客: http://linliangyi2007.javaeye.com 入正题: 1》请先去作者博客参看IK下载地址,主要就是一个
IKAnalyzer
3.1.1Stable.jar。
·
2015-11-01 10:11
Solr
Solr4+
IKAnalyzer
的安装配置
一、下载Solr4.10.2 我们以Windows版本为例,solr-4.10.2.zip是目前最新版本,下载地址: http://www.apache.org/dyn/closer.cgi/lucene/solr/4.10.2 二、 Solr安装: 1、解压solr-4.10.2.zip 2、将 solr-4.10.2/example/webapps/solr.w
·
2015-11-01 09:03
IKAnalyzer
Lucene基于
IKAnalyzer
配置的词典扩充
在web项目的src目录下创建
IKAnalyzer
.cfg.xml文件,内容如下 <?
·
2015-10-31 10:49
IKAnalyzer
转 lucene3搜索引擎,索引建立搜索排序分页高亮显示,
IKAnalyzer
分词
直接上代码: 1 public class UserIndexService { 2 3 private final Log lo
·
2015-10-31 10:26
IKAnalyzer
paip.禁用
IKAnalyzer
的默认词库.仅仅使用自定义词库.
paip.禁用
IKAnalyzer
的默认词库.仅仅使用自定义词库.作者Attilax 艾龙, EMAIL:
[email protected]
来源:attilax的专栏地址
·
2015-10-31 10:17
IKAnalyzer
lucene集成IK实现中文分词检索
IKAnalyzer
2012_u5.zip下载地址:http://code.google.com/p/ik-analyzer/downloads/detail
·
2015-10-31 10:23
Lucene
Lucene使用
IKAnalyzer
分词实例 及
IKAnalyzer
扩展词库
方案一: 基于配置的词典扩充 项目结构图如下:IK分词器还支持通过配置
IKAnalyzer
.cfg.xml文件来扩充您的专有词典。
·
2015-10-31 08:11
IKAnalyzer
Lucene的中文分词器
IKAnalyzer
分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一,而且随着Lucene的版本更新而不断更新,目前已更新到IK Analyzer 2012版本。 IK An
·
2015-10-28 09:25
IKAnalyzer
搜索引擎(lucene及周边) 涉及的一些算法总结
一)分词 1)正向/逆向最大匹配算法 典型:
IKAnalyzer
采用的是正向迭代最细粒度切分算法
IKAnalyzer
源码简单分析: http://www.cnblogs.com/huangfox
·
2015-10-27 12:19
Lucene
IKAnalyzer
源码走读
首先摘抄一段关于IK的特性介绍: 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。 优化的词典存储,更小的内存占用。支持用户词典扩展定义。 针对Lucene全文检索优化的查询分析器IKQueryPar
·
2015-10-27 12:15
IKAnalyzer
ubuntu 12.04 LTS下安装solr4.1 和
IKanalyzer
2012
1 准备工作: 下载安装java6 ,请参考http://www.docin.com/p-421265924.html Tomcat7 sudo apt-get install tomcat7 下载Solr4.1 http://lucene.apache.org/solr/ &n
·
2015-10-21 11:03
ubuntu 12.04
中文分词器性能比较
摘要: 本篇是本人在Solr 的基础上,配置了中文分词器, 并对其进行的性能测试总结,具体包括 使用mmseg4j、
IKAnalyzer
、Ansj,分别从创建索引效果
·
2015-10-21 11:15
中文分词器
在Solr4.10配置
IKAnalyzer
同义词、扩展词库、停顿词详解
在Solr4.10配置
IKAnalyzer
同义词、扩展词库、停顿词详解在配置
IKAnalyzer
同义词,扩展词,停顿词时,出现了很麻烦的事情,搞了一段时间,因为现在直接从官网上下载下来的
IKAnalyzer
ystyaoshengting
·
2015-10-12 14:00
使用
IKAnalyzer
分词计算文章关键字
http://www.oschina.net/p/
ikanalyzer
今天仅仅使用到了IK的分词功能。所以代码很简单,我就直接贴上来了。
J7A4V5A2W2E8B9e4e6
·
2015-10-10 16:00
ik分词
solr配置ik中文分词
下载压缩解压后得到如下目录结构的文件夹:我们把
IKAnalyzer
2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。
fengyong7723131
·
2015-10-10 10:00
hibernate search -- 中文词法分析
hibernatesearch底层使用Lucene,所以Lucene可以使用的中文分词,hibernatesearch都可以用来支持中文词法分析,比较常用的词法分析器包括paoding,
IKAnalyzer
开心的D哥
·
2015-09-28 15:42
Java
Java
Web
Solr4+
IKAnalyzer
的安装配置
一、下载Solr4.10.2 我们以Windows版本为例,solr-4.10.2.zip是目前最新版本,下载地址: http://www.apache.org/dyn/closer.cgi/lucene/solr/4.10.2 二、 Solr安装:1、解压solr-4.10.2.zip2、将solr-4.10.2/example/webapps/solr.war拷贝到Tomcat的webapp
Truong
·
2015-09-26 22:00
Windows下使用Java调用ElasticSearch提供的相关API进行数据搜索完整实例演示
安装包elasticsearch-rtf下载elasticsearch中文发行版,针对中文集成了相关插件(包含
ikanalyzer
),并带有Demo,方便新手学习,或者在生产环境中直接使用redis下载
凯文加内特
·
2015-09-16 11:00
ikanalyzer
词频计算
packagecom.test; importjava.io.IOException; importjava.io.Reader; importjava.io.StringReader; importjava.util.Arrays; importjava.util.HashMap; importjava.util.LinkedHashMap; importjava.util.L
m635674608
·
2015-09-11 00:00
IK分词器使用自定义词库
1、拷贝
IKAnalyzer
.cfg.xml到WEB-INF/classes下,拷贝
IKAnalyzer
2012FF_u1.jar到lib目录下,
IKAnalyzer
.cfg.xml内容如下:
Zero零_度
·
2015-09-06 10:00
Lucene
Solr
词库
IK
ik分词器
solr 本地搭建
4.7.2\example-->java-jarstart.jar2.添加插件IKD:\solr-4.7.2\example\solr-webapp\webapp\WEB-INF\classes-->
IKAnalyzer
.cfg.xml
知识铺
·
2015-08-28 09:00
IKAnalyzer
扩展词典(强制分词)【solr里添加扩展词典,扩展词典的格式必须是 utf-8 的无BOM格式编码。jav开发中
IKAnalyzer
.cfg.xml必须在类路径根下】
文章来源:http://blog.csdn.net/longxia1987/article/details/8179665前面说到solr+
IKAnalyzer
来配置中文分词;在实际中我们有些需求是需要将特定的词作为一个分词来处理
buster2014
·
2015-08-12 14:00
ElasticSearch:为中文分词器增加对英文的支持(让中文分词器可以处理中英文混合文档)
我们的项目中使用
IKAnalyzer
作为中文分词器,它在处理文档过程中遇到英文时,利用空格和标点将英文单词取出来,同时也会对其转全小写处理。其实这
kexinmei
·
2015-08-12 12:00
搜索引擎
elasticsearch
IKAnalyzer
分词
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他