E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
paoding中文分词器
elasticsearch 集群、
中文分词器
、head、单机双实例
服务器:192.168.10.246192.168.10.253软件需求:Elasticsearch版本:elasticsearch-5.1.1.zip
中文分词器
:elasticsearch-analysis-ik-master.zip
绝世懒人
·
2017-03-03 10:19
自制基于HMM的python
中文分词器
不像英文那样单词之间有空格作为天然的分界线,中文词语之间没有明显界限。必须采用一些方法将中文语句划分为单词序列才能进一步处理,这一划分步骤即是所谓的中文分词。主流中文分词方法包括基于规则的分词,基于大规模语料库的统计学习方法以及在实践中应用最多的规则与统计综合方法。隐马尔科夫模型(HMM)是中文分词中一类常用的统计模型,本文将使用该模型构造分词器。关于HMM模型的介绍可以参见隐式马尔科夫模型.方法
-Finley-
·
2017-01-30 14:00
Lucene5中编写自定义同义词分词器(基于IK
中文分词器
)
编写一个专门获取同义词的引擎:packagecom.daelly.sample.lucene.analyzer.custom;importjava.io.IOException;publicinterfaceSynonymEngine{String[]getSynonyms(Strings)throwsIOException;}packagecom.daelly.sample.lucene.ana
daelly
·
2017-01-08 10:24
Java进阶
solr服务中集成IKAnalyzer
中文分词器
、集成dataimportHandler插件
在solr服务中集成IKAnalyzer
中文分词器
的步骤:1、下载IKAnalyzer分词器的压缩包并解压;2、将IKAnalyzer压缩包中的jar包复制到Tomcat容器中已经部署的solr项目中的
禁心尽力
·
2017-01-05 10:00
solr6.2从环境部署到与mysql整合到
中文分词器
到solrJ的使用
阅读更多solr就不多介绍了。是用于搜索功能的开源工具,很强大一、solr环境部署solr本身能够用jetty启动,但是还是用tomcat启动比较适合我自己。学习solr有两个星期了,到现在(2016.11.27)solr最新版已经是6.3.0了,不过没关系,基本的东西都是一样的。1、solr官网:http://lucene.apache.org/solr/下载后解压,是这样的目录结构:2、sol
莫欺少年穷Java
·
2016-11-27 11:00
solr
mysql
分词
solrJ
solr6.2从环境部署到与mysql整合到
中文分词器
到solrJ的使用
阅读更多solr就不多介绍了。是用于搜索功能的开源工具,很强大一、solr环境部署solr本身能够用jetty启动,但是还是用tomcat启动比较适合我自己。学习solr有两个星期了,到现在(2016.11.27)solr最新版已经是6.3.0了,不过没关系,基本的东西都是一样的。1、solr官网:http://lucene.apache.org/solr/下载后解压,是这样的目录结构:2、sol
莫欺少年穷Java
·
2016-11-27 11:00
solr
mysql
分词
solrJ
solr6.2从环境部署到与mysql整合到
中文分词器
到solrJ的使用
solr就不多介绍了。是用于搜索功能的开源工具,很强大 一、solr环境部署solr本身能够用jetty启动,但是还是用tomcat启动比较适合我自己。学习solr有两个星期了,到现在(2016.11.27)solr最新版已经是6.3.0了,不过没关系,基本的东西都是一样的。1、solr官网: http://lucene.apache.org/solr/下载后解压,是这样的目录结构:2、solr当
莫欺少年穷Java
·
2016-11-27 11:00
mysql
Solr
分词
solrj
【HanLP】资料链接汇总
配置HanLP自然语言处理包开源官方文档了解HanLP的全部自然语言处理HanLP开源自由的汉语言处理包主页GitHub源码基于hanLP的中文分词详解-MapReduce实现&自定义词典文件hanlp
中文分词器
解读
伏草惟存
·
2016-11-24 22:00
Elasticsearch
中文分词器
IK 配置和使用
Elasticsearch内置的分词器对中文不友好,会把中文分成单个字来进行全文检索,不能达到想要的结果看一个例子curl-XGET'http://localhost:9200/_analyze?pretty&analyzer=standard'-d'第二更新'#返回{"tokens":[{"token":"第","start_offset":1,"end_offset":2,"type":"",
果酱很好吃
·
2016-10-31 15:20
elasticsearch
ik
中文搜索
linux
Elasticsearch
Java开源
中文分词器
的使用方法和分词效果对比
本文的目标有两个:1、学会使用11大Java开源
中文分词器
2、对比分析11大Java开源
中文分词器
的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断
qq_33797186
·
2016-09-05 10:59
搜索相关-ELS
solr
Ansj中文分词Java开发小记
1、ansj
中文分词器
:https://github.com/NLPchina/ansj_seg基于n-Gram+CRF+HMM的中文分词的java实现.分词速度达到每秒钟大约200万字左右(macair
fjssharpsword
·
2016-08-29 14:55
Java
solr 的安装配置 及
中文分词器
的配置
介绍Solr是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。Solr是一个全文检索服务器,只需要进行配置就可以实现全文检索服务1.1Solr的安装及配置在虚拟机下配置需要把solr服务器安装到linux环境:第一步:安装linux、jdk、tomcat
刘备invoke
·
2016-08-19 12:53
在Solr中配置
中文分词器
word
Solr是在schema.xml(managed-schema)中配置Analyzer。注意:在Solr6.1.0的conf文件夹下没有schema.xml这个文件,只有managed-schema,如果把managed-schema删掉,然后放schema.xml,那么运行时候会根据schema.xml生成managed-schema,如果这两个文件同时存在,则会只根据managed-schem
尚亦汐
·
2016-08-10 13:26
搜索引擎搭建第一步--分词
一、背景说明关于现在流行的分词算法有很多,具体了解请查看:http://www.tuicool.com/articles/uYfy2q2–10大Java开源
中文分词器
的使用方法和分词效果对比该片文章主要针对庖丁解牛分词算法进行剖析
danlei824
·
2016-08-08 16:54
搜索引擎
搜索引擎搭建第一步--分词
一、背景说明关于现在流行的分词算法有很多,具体了解请查看:http://www.tuicool.com/articles/uYfy2q2–10大Java开源
中文分词器
的使用方法和分词效果对比该片文章主要针对庖丁解牛分词算法进行剖析
danlei824
·
2016-08-08 16:54
搜索引擎
Lucene全文搜索之分词器:使用IK Analyzer
中文分词器
(修改IK Analyzer源码使其支持lucene5.5.x)
注意:基于lucene5.5.x版本一、简单介绍下IKAnalyzerIKAnalyzer是linliangyi2007的作品,再此表示感谢,他的博客地址:http://linliangyi2007.iteye.com/IKAnalyzer支持两种分词,一种是最细粒度分词(推荐使用,Ik默认采用最细粒度),还有一种的智能分词(测试了一下智能分词还没有lucene自带的分词准确,呵呵了)。二、IKA
eguid_1
·
2016-07-14 14:00
Lucene
【Lucene】Apache Lucene全文检索引擎架构之中文分词和高亮显示
前面总结的都是使用Lucene的标准分词器,这是针对英文的,但是中文的话就不顶用了,因为中文的语汇与英文是不同的,所以一般我们开发的时候,有中文的话肯定要使用中文分词了,这一篇博文主要介绍一下如何使用smartcn
中文分词器
以及对结果的高亮显示
eson_15
·
2016-07-12 18:00
apache
Lucene
全文检索
中文分词
高亮显示
HBase 高性能获取数据 - 多线程批量式解决办法
Solr和HBase专辑1、“关于Solr的使用总结的心得体会”(http://www.cnblogs.com/wgp13x/p/3742653.html)2、“
中文分词器
性能比较”(http://www.cnblogs.com
爱人间
·
2016-07-08 10:47
hbase
maven向本地仓库导入官方仓库没有的jar包
maven向本地仓库导入官方仓库没有的jar包一概述使用疱丁分词器,发现中央仓库中没有
paoding
-analysis这个jar包,而且如果只是单纯的将从其他处获取的jar包拷贝到本地仓库时不行的,pom
bestlove13141516
·
2016-06-30 13:08
MAVEN
maven向本地仓库导入官方仓库没有的jar包
maven向本地仓库导入官方仓库没有的jar包一概述 使用疱丁分词器,发现中央仓库中没有
paoding
-analysis这个jar包,而且如果只是单纯的将从其他处获取的jar包拷贝到本地仓库时不行的
bestlove12345
·
2016-06-30 13:00
elasticsearch2.3.3 java client demo
本文包含的内容1.安装elasticsearch2.3.32.配置ik
中文分词器
3.使用javaapi对document进行CRUD1.安装建议在linux下(如果是windows直接去https://
郎志刚
·
2016-06-13 18:28
elasticsearch
你不知道的全文检索---solr索引库的维护(一)
你不知道的全文检索---solr索引库的维护(一) 在前面的几篇文章中笔者已经简单的介绍了solr是什么,以及solr的安装和业务字段的配置,并且也安装好了
中文分词器
。
Senior_lee
·
2016-06-06 20:00
你不知道的全文检索---solr安装
中文分词器
及配置业务字段
你不知道的全文检索---solr安装
中文分词器
及配置业务字段 在solr中默认的使用的是英文分词,所以需要手工配置
中文分词器
,需要我们配置一个FieldType,在FieldType中指定
中文分词器
Senior_lee
·
2016-06-05 21:00
CRF分词的java实现
本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的
中文分词器
。
shenxiaoming77
·
2016-05-26 23:00
solr
中文分词器
IK-analyzer安装
solr本身对中文是不支持的,所以需要下载
中文分词器
IK-analyzer下载地址https://code.google.com/archive/p/ik-analyzer/downloads。
YU文武貝
·
2016-05-17 15:03
solr
ik-analyzer
linux操作系统
全文索引----
中文分词器
mmseg4j
通常情况下,我们根据整个字段来索引数据,字段最长时,也不过十个字;但是还有一种情况,如果我们索引的是一篇文章呢?这时候如何处理这个字段,分词器很好的解决了这个问题。 solr服务器默认为我们提供了分词组件,但是ApacheSolr提供的分词器对中文不太友好,举例如下: 它把整个句子的每个字都给分开了,这样如果索引一篇文章的话,体验相当的不友好。能够和solr完美集成的中文
u010942465
·
2016-05-10 20:00
Solr
mmseg4j
solr中文分词器
[Nutch]指定LUKE的分词器
在上一篇博文我们有介绍给Solr配置
中文分词器
mmseg4j,那么我们在LUKE工具中如何配置对应的
中文分词器
进行查看呢?本篇博文将详细进行解释。
Kandy_Ye
·
2016-05-08 13:00
Solr
Nutch
分词器
luke
mmseg4j
[Nutch]指定LUKE的分词器
在上一篇博文我们有介绍给Solr配置
中文分词器
mmseg4j,那么我们在LUKE工具中如何配置对应的
中文分词器
进行查看呢?本篇博文将详细进行解释。
Kandy_Ye
·
2016-05-08 13:00
Solr
Nutch
分词器
luke
mmseg4j
[Nutch]Solr配置自定义的
中文分词器
mmseg4j
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j
中文分词器
。
Kandy_Ye
·
2016-05-07 19:00
索引
Nutch
Solr
mmseg4j
luke
[Nutch]Solr配置自定义的
中文分词器
mmseg4j
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j
中文分词器
。
Kandy_Ye
·
2016-05-07 19:00
索引
Nutch
Solr
mmseg4j
luke
java中文筛选分词对比
中文分词器
分词效果评估对比捐赠致谢使用说明:如何建立开发环境?
qq_32364027
·
2016-05-04 16:00
筛选分词
solr系列2——solr集成IK Analyzer
中文分词器
solr
中文分词器
IKAnalyzer整合下载IKAnalyzer2012ff_hf1.zip分词包解压将IKAnalyzer2012FF_u1.jar拷贝到/usr/local/tomcat/webapps
逐暗者
·
2016-04-26 16:12
solr4.5配置
中文分词器
mmseg4j
solr4.x虽然提供了分词器,但不太适合对中文的分词,给大家推荐一个
中文分词器
mmseg4jmmseg4j的下载地址:https://code.google.com/p/mmseg4j/通过以下几步就可以把
liuhuanchao
·
2016-04-07 11:00
贝叶斯公式与mahout贝叶斯分类器
当前几个主要的Lucene
中文分词器
的比较h
q383700092
·
2016-04-07 08:00
Mahout
贝叶斯
贝叶斯分类器
Solr配置
中文分词器
IKAnalyzer及增删改查调用
一、配置IKAnalyzer
中文分词器
Solr版本5.2.1IKAnalyzer2012_u6.jar报错,用IKAnalyzer2012_FF_hf1.jar替换可解决解决lucene4.0与IKAnalyzer
jethai
·
2016-03-20 17:30
中文
分词器
R/Hbase/Solr
Solr配置
中文分词器
IKAnalyzer及增删改查调用
一、配置IKAnalyzer
中文分词器
Solr版本5.2.1IKAnalyzer2012_u6.jar报错,用IKAnalyzer2012_FF_hf1.jar替换可解决解决lucene4.0与IKAnalyzer
jethai
·
2016-03-20 17:30
中文分词器
[置顶] Lucene的
中文分词器
IKAnalyzer
项目中需要优化关键字搜索,最近在看Lucene,总结了一下:IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。到现在,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。1.需要在项目中引入:IKAnalyzer.c
lu_wei_wei
·
2016-03-17 15:00
Lucene
Python与机器学习(五)朴素贝叶斯分类
1.安装
中文分词器
由于本文是对中文文本进行分类,故需要用到
中文分词器
,而结巴分词则是Python支持较好的一款分词器。
monkey131499
·
2016-03-08 17:31
NLP
Python与机器学习(五)朴素贝叶斯分类
1.安装
中文分词器
由于本文是对中文文本进行分类,故需要用到
中文分词器
,而结巴分词则是Python支持较好的一款分词器。
monkey131499
·
2016-03-08 17:00
python
机器学习
朴素贝叶斯
solr 实现 中文分词,IK Analyzer
solr默认是不支持中文分词的,这样就需要我们手工配置
中文分词器
,在这里我们选用IKAnalyzer
中文分词器
。
u013378306
·
2016-02-28 21:00
文本分类算法之--贝叶斯分类算法的实现Java版本
package com.vista;import java.io.IOException; import jeasy.analysis.MMAnalyzer;/***
中文分词器
*/public
u011955252
·
2016-02-28 18:00
java
Bayes
贝叶斯文本分类算法实现
Elasticsearch 2.2.0 分词篇:中文分词
所以需要单独安装插件来支持,比较常用的是中科院ICTCLAS的smartcn和IKAnanlyzer效果还是不错的,但是目前IKAnanlyzer还不支持最新的Elasticsearch2.2.0版本,但是smartcn
中文分词器
默认官方支持
zhulinu
·
2016-02-20 08:43
日志分析
Elasticsearch
赛克蓝德
Elasticsearch 2.2.0 分词篇:中文分词
所以需要单独安装插件来支持,比较常用的是中科院ICTCLAS的smartcn和IKAnanlyzer效果还是不错的,但是目前IKAnanlyzer还不支持最新的Elasticsearch2.2.0版本,但是smartcn
中文分词器
默认官方支持
zhulinu
·
2016-02-20 08:43
elasticsearch
日志分析
赛克蓝德
Elasticsearch 2.2.0 分词篇:中文分词
所以需要单独安装插件来支持,比较常用的是中科院ICTCLAS的smartcn和IKAnanlyzer效果还是不错的,但是目前IKAnanlyzer还不支持最新的Elasticsearch2.2.0版本,但是smartcn
中文分词器
默认官方支持
赛克蓝德
·
2016-02-19 18:00
elasticsearch
日志分析
赛克蓝德
secilog
11大Java开源
中文分词器
的使用方法和分词效果对比
本文的目标有两个:1、学会使用11大Java开源
中文分词器
2、对比分析11大Java开源
中文分词器
的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断
·
2016-01-31 13:46
Lucene 5.2.1 + jcseg 1.9.6中文分词索引(Lucene 学习序列2)
Lucene5.2.1+jcseg1.9.6中文分词索引(Lucene学习序列2) jcseg是使用Java开发的一个开源的
中文分词器
,使用流行的mmseg算法实现。
qiuzhping
·
2016-01-30 10:00
solr-4.10.0、tomcat7、IKAnalyzer2012FF_u1
中文分词器
相整合以及相关配置
=============solr-4.10.0跟tomcat7整合以及相关配置=============1、将solr文件中的example文件下的solr目录中所有文件拷贝到自己在磁盘中创建的文件夹中(最好创建成盘符:\solr\home文件下)2、将solr文件中的example文件下的webapps目录中solr.war文件拷贝到自己在磁盘中创建的盘符:\solr\server文件下(可以
semial
·
2016-01-25 12:00
Solr
ik中文分词器
爬坑 solr-4.10 配置
中文分词器
ik-analyzer
solr4.10 配置
中文分词器
,对应版本 IKAnalyzer2012FF_hf1试过高版本,报错!坑了一把。
zhaoweitco
·
2016-01-19 14:00
庖丁解牛分词之自定义词库[自定义词典]
1、到http://code.google.com/p/
paoding
/downloads/list下载
paoding
-analysis-2.0.4-alpha2.zip2、然后解压缩,找到dic文件夹
lovewen_2004
·
2016-01-08 09:00
Solr与tomcat整合,并添加
中文分词器
1.将solr中的example中的solr拷贝到要作为服务器的位置(我当前创建的目录为D:\lucene\solr\home)2.将相应的solr的web程序也拷贝出来放在相应的目录(我当前创建的目录为D:\lucene\solr\server)注意将solr\example\webapps\solr.war拷贝到D:\lucene\solr\server后要将solr.war解压 3.修改so
shubingzhuoxue
·
2016-01-04 15:00
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他