E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MMSeg
solr服务器配置与tomcat整合
最近找了视频学习lucene和solr,记一下怎么配置solrJDK使用的为1.7,如果用1.6貌似会提示版本低先下载solr3.5和
mmseg
4j1.8.5的压缩包,下载链接在底部解压solr3.5,
风吹屁屁凉
·
2015-03-26 21:00
mmseg
自定义分词词库
下面给大家介绍一下如何打造自己的coreseek分词词库。coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果。要想搜索结果准确打造一个专门的分词词库必不可少。i.首先到搜狗http://pinyin#sogou#com/dict/下载你要的词库ii.因为下载回来的词库不是文本文件我们不能直接使用,所以要先转换成文本文件。网上找一个搜狗转google的小工具,用它把你下载的全
haibo600
·
2015-03-18 11:27
自定义
分词
mmseg
mmseg
自定义分词词库
下面给大家介绍一下如何打造自己的coreseek分词词库。coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果。要想搜索结果准确打造一个专门的分词词库必不可少。i.首先到搜狗http://pinyin#sogou#com/dict/下载你要的词库ii.因为下载回来的词库不是文本文件我们不能直接使用,所以要先转换成文本文件。网上找一个搜狗转google的小工具,用它把你下载的全
haibo600
·
2015-03-18 11:27
自定义
分词
mmseg
mmseg
自定义分词词库
下面给大家介绍一下如何打造自己的coreseek分词词库。coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果。要想搜索结果准确打造一个专门的分词词库必不可少。i.首先到搜狗http://pinyin#sogou#com/dict/下载你要的词库ii.因为下载回来的词库不是文本文件我们不能直接使用,所以要先转换成文本文件。网上找一个搜狗转google的小工具,用它把你下载的全
haibo600
·
2015-03-18 11:27
自定义
分词
mmseg
mmseg
4j-solr 集成到 Solr4.10.4
1:项目地址: https://github.com/chenlb/
mmseg
4j-solr https://github.com/chenlb/
mmseg
4j-solr/wiki
rayoo
·
2015-03-05 18:00
mmseg4j
spseg-基于词库的高召回索引型分词器
通常进行索引的分词器都是基于词库的,目前主流的分词器ik,ansj,
mmseg
,jieba等等都是。这些分词器都提供了智能分词效果,是把句子切成不产生交集的词与字,也就是消除了歧义。
lgnlgn
·
2015-02-25 00:00
分词
spseg
分词一致性
MMSEG
分词算法
最近在研究文本挖掘相关工具和知识,在对文档(文本文件、Word文件、网页等)能够进行全文检索或数据挖掘前,需要首先进行预处理,使之能够成为相对标准的基础数据,“分词”(WordSegmentation)是进行文档预处理过程中的一项重要工作,特别是对中文,由于中文与英文不同,中文只是字、句和段能通过明显的分界符来简单划界,但是词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不
starshine
·
2015-02-22 22:00
分词
mmseg
最大匹配
Lucene4.10使用教程(五):lucene的分词器
所有要在项目中Lucene,需要添加另外的中分词器,比如IK、
mmseg
4j、paoding等。关于中文分词器的比较和适用情况,可以Google,文章很多,不是我们这里讨论的重点。
codemosi
·
2015-02-16 15:12
lucene
Solr 在
mmseg
4j中使用中文停止词(的、地、得)
1. 从附件中下载中文停止词,如果有需要,你也可以下载英文停止词,操作步骤一样。 2. 可以在Tomcat的Solr 中的某个位置创建一个文件,比如叫stopwords.txt,此处我直接将stopwords.txt放在core目录下,即和schema.xml在同一个目录中。 3.将上面下载的中英文停止词加入到stopwords.txt中 4.
Josh_Persistence
·
2015-02-13 20:00
sphinx+coreseek+php 安装配置过程及其坑
安装
mmseg
$cd
mmseg
$.
gzcxl123
·
2015-01-29 22:20
include
Files
cannot
sphinx+coreseek+php 安装配置过程及其坑
安装
mmseg
$cd
mmseg
$.
gzcxl123
·
2015-01-29 22:20
include
Files
cannot
solr配置中文分词器
可能需要连接上篇《Solr与tomcat整合》1.从http://code.google.com/p/
mmseg
4j/ 下载
mmseg
4j2.从下载的文件中把
mmseg
4j-all-1.8.4.jar
purisuit_knowledge
·
2015-01-28 17:00
tomcat
Solr
solr中
mmseg
4j基本配置
参考网址:http://blog.csdn.net/hidevirus/article/details/34440175
cdh1213
·
2015-01-19 14:00
ES1.4 中文分词插件ik
所以为了这个需求,找一个第三方的中文分词插件.看了一下,国内有几款中分分词插件:ik、ansj和
mmseg
。最后我选择使用了ik。 ES1.4下安装ik,碰到了不少坑。最后终于搞定,所以分享一下i
david_bj
·
2015-01-15 15:00
IK
es
ES1.4 中文分词插件ik
所以为了这个需求,找一个第三方的中文分词插件.看了一下,国内有几款中分分词插件:ik、ansj和
mmseg
。最后我选择使用了ik。ES1.4下安装ik,碰到了不少坑。
david_bj
·
2015-01-15 15:00
ES
IK
Elasticsearch
ES1.4 中文分词插件ik
所以为了这个需求,找一个第三方的中文分词插件.看了一下,国内有几款中分分词插件:ik、ansj和
mmseg
。最后我选择使用了ik。 ES1.4下安装ik,碰到了不少坑。最后终于搞定,所以分享一下i
david_bj
·
2015-01-15 15:00
IK
es
Lucene4.10使用教程(五):lucene的分词器
所有要在项目中Lucene,需要添加另外的中分词器,比如IK、
mmseg
4j、paoding等。关于中文分词器的比较和适用情况,可以Google,文章很多,不是我们这里讨论的重点。
seven_zhao
·
2015-01-14 11:00
solr 中文分词
mmseg
4j 使用例子
solr中文分词
mmseg
4j使用例子原文出处:http://blog.chenlb.com/2009/04/solr-chinese-segment-
mmseg
4j-use-demo.html
mmseg
4j
nysyxxg
·
2015-01-08 22:00
Jcseg java中文分词器
关于jcseg: jcseg是使用Java开发的一个开源中文分词器,使用流行的
mmseg
算法实现,并且提供了最高版本的lucene, solr, elas
wdmsyf
·
2015-01-03 21:00
Java中文分词
Jcseg java中文分词器
帮助文档,词库管理工具,jar文件)下载: http://sourceforge.net/projects/jcseg 一.关于jcseg:jcseg是使用Java开发的一个开源中文分词器,使用流行的
mmseg
wdmsyf
·
2015-01-03 13:00
java
中文分词
jcseg
Solr整合中文分词
mmseg
4j
Solr整合中文分词
mmseg
4j1.Summary本次使用的是Solr-4.7.0整合
mmseg
4j-1.9.1,下载
mmseg
4j-1.9.1.zip,把dist下面的jar文件拷贝到${solr-
p2p2500
·
2014-12-30 18:00
mmseg4j
lucene常用分词器对比
1.基本介绍:paoding :Lucene中文分词“庖丁解牛”PaodingAnalysisimdict :imdict智能词典所采用的智能中文分词程序
mmseg
4j :用Chih-HaoTsai的
明舞
·
2014-12-28 09:00
Sphinx中文分词在discuz 中的应用
相比而言,以某某论坛几千万数据环境来看,比Coreseek封装的sphinx中文分词+
mmseg
3组合要好一点1.准备环境cd /var/tmp/ wget http://www.sphinx-search.com
coralzd
·
2014-12-23 16:20
sphinx
discuz
中文分词
Sphinx中文分词在discuz 中的应用
相比而言,以某某论坛几千万数据环境来看,比Coreseek封装的sphinx中文分词+
mmseg
3组合要好一点1.准备环境cd /var/tmp/wget http://www.sphinx-search.com
coralzd
·
2014-12-23 16:20
discuz
sphinx
中文分词
database
Sphinx中文分词在discuz 中的应用
相比而言,以某某论坛几千万数据环境来看,比Coreseek封装的sphinx中文分词+
mmseg
3组合要好一点1.准备环境cd /var/tmp/ wget http://www.sphinx-search.com
coralzd
·
2014-12-23 16:20
sphinx
discuz
中文分词
java分词器大全
git.oschina.net/lionsoul/jcsegIKAnalyzerhttp://www.oschina.net/p/ikanalyzer庖丁中文分词库http://www.oschina.net/p/paoding
mmseg
4j
earbao
·
2014-12-12 10:00
solr集成
mmseg
4j分词
solr集成
mmseg
4j分词
mmseg
4j https://code.google.com/p/
mmseg
4j/ https://github.com/chenlb/
mmseg
4j-solr
·
2014-11-20 15:00
mmseg4j
Sphinx 安装
由于开发要求Sphinx中文分词,安装环境,就做下笔记[root@localhost
mmseg
-3.2.14]# yum -y install make gcc g++ gcc-c++ libtool
kingtigerhu
·
2014-11-20 14:02
Sphinx
linux服务
Sphinx 安装
由于开发要求Sphinx中文分词,安装环境,就做下笔记[root@localhost
mmseg
-3.2.14]# yum -y install make gcc g++ gcc-c++ libtool
kingtigerhu
·
2014-11-20 14:02
sphinx
MMSeg
4J改造,使之支持中英文数字连词
packagecom.qfang.util; importjava.io.BufferedReader; importjava.io.IOException; importjava.io.PushbackReader; importjava.io.Reader; importjava.util.LinkedList; importjava.util.Queue; importcom.chenl
Yoara
·
2014-11-20 11:00
Lucene
分词
mmseg4j
中英文
mmseg
4j分词
mmseg
4j分词,所需jar:
mmseg
4j-analysis-1.9.1.jar,
mmseg
4j-core-1.9.1.jar。
itace
·
2014-10-08 10:00
mmseg4j
转载:浅谈
MMSEG
分词算法
转载自:http://blog.csdn.net/pwlazy/article/details/17562927最近看了下
MMSEG
分词算法,觉得这个算法简单高效,而且还非常准确作者声称这个规则达到了99.69%
樂天
·
2014-10-01 21:00
Solr笔记三之Solr加入中文分词
Solr与中文分词的整合以
mmseg
为例: 第一步: 将我们下载的分词器中
mmseg
-solr.jar、
mmseg
-core.jar
mmseg
-analyzer.jar(或者
mmseg
-all.jar
猪刚烈
·
2014-09-24 13:00
Solr中添加中文分词
lucene 中文分词器
mmseg
4j用Chih-Hao Tsai 的
MMSeg
算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。
hbiao68
·
2014-09-07 17:00
Lucene
lucene 中文分词器
mmseg
4j用Chih-Hao Tsai 的
MMSeg
算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。
hbiao68
·
2014-09-07 17:00
Lucene
lucene 中文分词器
mmseg
4j用Chih-Hao Tsai 的
MMSeg
算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。
hbiao68
·
2014-09-07 17:00
Lucene
lucene 中文分词器
mmseg
4j用Chih-Hao Tsai 的
MMSeg
算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。
hbiao68
·
2014-09-07 17:00
Lucene
全文检索引擎Solr系列——整合中文分词组件IKAnalyzer
,支持用户词典扩展定义,支持细粒度和智能切分,比如:张三说的确实在理 智能分词的结果是:张三|说的|确实|在理 最细粒度分词结果:张三|三|说的|的确|的|确实|实在|在理 整合IKAnalyzer比
mmseg
4j
刘志军
·
2014-09-03 00:00
Solr
教程
基础技术
Java开源项目cws_evaluation:中文分词器分词效果评估
cws_evaluation是通过对前文《word分词器、ansj分词器、
mmseg
4j分词器、ik-analyzer分词器分词效果评估》中写的评估程序进行重构改进后形成的。
杨尚川
·
2014-08-30 23:00
java
开源
中文分词
效果评估
cws_evaluation
Coreseek/Sphinx 学习笔记 (三)
1.测试 cd testpack cat var/test/test.xml #此时应该正确显示中文 /usr/local/
mmseg
3/bin/
mmseg
star891
·
2014-08-26 11:00
Coreseek/Sphinx
sqlite3自定义分词器
这里我们利用
mmseg
来构造自定义的中文分词器。
xak
·
2014-08-22 11:49
Android开发
mmseg
4j下载地址
http://code.google.com/p/
mmseg
4j/downloads/detail?
chushiyang1989
·
2014-08-14 16:08
mmseg4j
[python]将搜狗(sogou)的细胞词库转换为
mmseg
的词库
From:https://github.com/aboutstudy/scel2
mmseg
--------------------------------------------------------
flynetcn
·
2014-08-11 15:58
search
[python]将搜狗(sogou)的细胞词库转换为
mmseg
的词库
From:https://github.com/aboutstudy/scel2
mmseg
--------------------------------------------------------
flynetcn
·
2014-08-11 15:00
sphinx
scel
mmseg
当前几个主要的Lucene中文分词器的比较
基本介绍: paoding :Lucene中文分词“庖丁解牛” Paoding Analysisimdict :imdict智能词典所采用的智能中文分词程序
mmseg
4j : 用 Chih-Hao Tsai
崇尚昆仲
·
2014-07-25 19:00
Lucene
solr4.9+
mmseg
4j
1.solr4.9
mmseg
4j-solr-2.2.0 tomcat6 jdk1.7 2.步骤:
lu_tan
·
2014-07-18 09:00
Solr
关于
MMSEG
分词算法
原文转载于: http://www.360doc.com/content/14/0716/10/18582958_394733004.shtml关于
MMSEG
分词算法
MMSEG
是中文分词中一个常见的、基于词典的分词算法
weixingstudio
·
2014-07-16 10:00
Mac OS X 10.9.4 安装全文索引 Coreseek-3.2.14稳定版 问题及解决
根据coreseek官方文档安装:http://www.coreseek.cn/products-install/install_on_macosx/(1)在安装
mmseg
过程中,进行make操作的时候
金三胖
·
2014-07-15 15:00
osx
mac
coreseek
文索引
MMSEG
: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum M
MMSEG
:AWordIdentificationSystemforMandarinChineseTextBasedonTwoVariantsoftheMaximumMatchingAlgorithm原文转载于
weixingstudio
·
2014-07-15 10:00
中文分词(
mmseg
4j)
import java.io.IOException; import java.io.Reader; import java.io.StringReader; import com.chenlb.
mmseg
4j.ComplexSeg
日拱一卒
·
2014-07-12 16:00
中文分词
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他