E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MMSeg
[Nutch]指定LUKE的分词器
在上一篇博文我们有介绍给Solr配置中文分词器
mmseg
4j,那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢?本篇博文将详细进行解释。
Kandy_Ye
·
2016-05-08 13:00
Solr
Nutch
分词器
luke
mmseg4j
[Nutch]Solr配置自定义的中文分词器
mmseg
4j
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用
mmseg
4j中文分词器。
Kandy_Ye
·
2016-05-07 19:00
索引
Nutch
Solr
mmseg4j
luke
[Nutch]Solr配置自定义的中文分词器
mmseg
4j
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用
mmseg
4j中文分词器。
Kandy_Ye
·
2016-05-07 19:00
索引
Nutch
Solr
mmseg4j
luke
solr-5.4.1 和
mmseg
4j-2.3.0版本的配置
配置solr服务器 1.登录solr的官方网站下载最新版本,目前是5.5.0。http://lucene.apache.org/solr/downloads.html 2.linux下载tgz类型,windows系统下载solr-5.5.0.zip 3.解压之后打开文件夹,在此目录下打开cmd命令窗口 bin\solrstart 默认是8983端口,使用jetty此时,打开浏览器访问http://
xiaodaiye
·
2016-05-07 14:00
Solr
solr入门之solr5x源码在eclipse中运行及添加
mmseg
分词器
1.下载ant,解压后设置环境变量链接:http://pan.baidu.com/s/1eRZJIuQ 密码:9452 Ant环境变量配置: ANT_HOME:E:\ProgramFiles\apache-ant-1.9.0 Path:%ANT_HOME%\bin设置完成后 打开命令行输入 ant -version 显示版本信息则配置成功2.下载solr-5.1.0的jar和源码
sqh201030412
·
2016-04-11 15:00
Solr
solr添加mmseg分词器
solr4.5配置中文分词器
mmseg
4j
solr4.x虽然提供了分词器,但不太适合对中文的分词,给大家推荐一个中文分词器
mmseg
4j
mmseg
4j的下载地址:https://code.google.com/p/
mmseg
4j/通过以下几步就可以把
liuhuanchao
·
2016-04-07 11:00
全文搜索引擎coreseek安装配置(sphinx)
及以上版本安装开始: cd/data/softwore wget http://www.coreseek.cn/uploads/csft/4.0/coreseek-4.1-beta.tar.gz(只安装中文分词
mmseg
3
yxz1025
·
2016-04-05 14:00
mysql
搜索引擎
sphinx
安装coreseek可能遇见的问题
##前提:需提前安装操作系统基础开发库及mysql依赖库以支持mysql数据源和xml数据源##安装
mmseg
$cd
mmseg
-3.2.14$.
扬子
·
2016-03-29 16:23
sphinx
Ubuntu 14.04 安装coreseek-3.2.14的那些坑
/configure--prefix=/usr/local/
mmseg
3 执行后会报错 error: cannot find input file: src/Makefile.in这个是需要安装automake
unfindable
·
2016-03-22 22:00
Jetty加载solr-5.1.0 并且添加
mmseg
4j分词器
1.下载solr-5.1.0后进入到solr-5.1.0\server目录下新建一个start.bat文件用来启动jetty内容如下 echo "begin start the jetty......"java -jar %cd%/start.jar这里我下载的放在了百度云中链接:http://pan.baidu.com/s/1nuv31Sd密码:bkhf2.点击start.bat启动solr默认
sqh201030412
·
2016-03-21 18:00
Solr
jetty
MMSeg4j分词器
运行入门
全文检索引擎Solr系列——整合中文分词组件IKAnalyzer
,支持用户词典扩展定义,支持细粒度和智能切分,比如:张三说的确实在理 智能分词的结果是:张三|说的|确实|在理 最细粒度分词结果:张三|三|说的|的确|的|确实|实在|在理 整合IKAnalyzer比
mmseg
4j
makang110
·
2016-03-18 17:00
Solr
全文检索引擎Solr系列——整合中文分词组件
mmseg
4j
能够和Solr集成的中文分词组件有很多,比如:
mmseg
4j、IkAnalyzer、ICTCLAS等等。各有各的特点。这篇文章讲述如何整合S
makang110
·
2016-03-18 17:00
Solr
solr同义词的配置
格式编码为UTF-8schema.xml配置和同义词词库的配置中文,这里采用
mmseg
4j作为分词器,同义词一般只要进行查询的配置就可以了,同义词的配置一般位于分词器的后面下面是中文的同义词和分词的配置
yiduwangkai
·
2016-03-16 14:00
Solr
solr4.7.2+
mmseg
2.0+pinyinAnalyzer实现拼音、简拼检索
生产环境:solr4.7.2jdk1.6lucene4.7.2
mmseg
4j-core-1.10(https://github.com/chenlb/
mmseg
4j-core.git)
mmseg
-solr
冰糖葫芦
·
2016-03-15 11:53
Solr
mmseg
拼音检索
pinyinAnalyzer
安装
mmseg
出错 config.status: error: cannot find input file: src/Makefile.in
aclocallibtoolize--forceautomake--add-missingautoconfautoheadermakeclean
张扬个性,敢为天下先
·
2016-03-14 17:00
solr4.7.2+
mmseg
2.0+pinyinAnalyzer实现拼音、简拼检索
阅读更多生产环境:solr4.7.2jdk1.6lucene4.7.2
mmseg
4j-core-1.10(https://github.com/chenlb/
mmseg
4j-core.git)
mmseg
-solr
冰糖葫芦
·
2016-03-14 13:00
solr
mmseg
pinyinAnalyzer
拼音检索
Linux安装ElasticSearch-2.2.0-分词器插件(
Mmseg
)
1、在gitpub上搜索elasticsearch-analysis,能够看到所有elasticsearch的分词器: 2、安装
Mmseg
分词器:https://github.com/medcl/elasticsearch-analysis-
mmseg
cd
企业宝
·
2016-03-09 13:00
Windows ElasticSearch中文分词配置
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是
mmseg
的,下面分别介绍
企业宝
·
2016-03-08 15:00
jieba.NET与Lucene.Net的集成
看到了两个中文分词与Lucene.Net的集成项目:Lucene.Net.Analysis.PanGu和Lucene.Net.Analysis.
MMSeg
,参考其中的代码实现了最简单的集成:jiebaForLuceneNet
Anders Cui
·
2016-02-20 14:55
Coreseek安装小记
coreseek安装:http://219.232.239.243/uploads/csft/4.0/coreseek-4.1-beta.tar.gzcd
mmseg
-3.2.14.
wjbws
·
2016-02-18 15:39
coreseek
mmseg
csft
CentOS7.0 下sphinx搭建
wgetyum-yinstallmysql-devel下载coreseek wgethttp://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.14.tar.gz##
mmseg
3
xtyz08gu
·
2016-02-16 14:43
中文
local
CentOS7.0 下sphinx搭建
wgetyum-yinstallmysql-devel下载coreseekwgethttp://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.14.tar.gz##
mmseg
3
xtyz08gu
·
2016-02-16 14:43
中文
local
Lucene 5.2.1 + jcseg 1.9.6中文分词索引(Lucene 学习序列2)
Lucene5.2.1+jcseg1.9.6中文分词索引(Lucene学习序列2) jcseg是使用Java开发的一个开源的中文分词器,使用流行的
mmseg
算法实现。
qiuzhping
·
2016-01-30 10:00
中文分词
mmseg
nginx 模块开发
一、nginx模块开发Nginx是一款高性能web服务器,因此,工作业务中需要借助nginx强大的网络服务功能,往往需要开发和定制相应的Nginx模块满足业务需求。基本上作为第三方开发者最可能开发的就是三种类型的模块,即handler,filter和load-balancer。Handler模块就是接受来自客户端的请求并产生输出的模块,也是我们使用最多的一个模块。有关nginx模块开发的入门资料,
DanielWang_
·
2016-01-17 13:12
Nginx
c/c++/cpp11
tcp/ip
ML/NLP
mmseg
分词算法及实现
一、分词方法关于中文分词参考之前写的jieba分词源码分析jieba中文分词。中文分词算法大概分为两大类:一是基于字符串匹配,即扫描字符串,使用如正向/逆向最大匹配,最小切分等策略(俗称基于词典的)基于词典的分词算法比较常见,比如正向/逆向最大匹配,最小切分(使一句话中的词语数量最少)等。具体使用的时候,通常是多种算法合用,或者一种为主、多种为辅,同时还会加入词性、词频等属性来辅助处理(运用某些简
DanielWang_
·
2016-01-10 20:59
ML/NLP
中文分词
mmseg
4j+solr 5.3.1配置
阅读更多基础环境:solr5.3.1
mmseg
4j-solr-2.3.0.jar
mmseg
4j-core-1.10.0.jarCentOSrelease6.2(Final)javaversion"1.7.0
yiduwangkai
·
2016-01-10 14:00
solr
mmseg4j
中文分词
中文分词
mmseg
4j+solr 5.3.1配置
基础环境:solr5.3.1
mmseg
4j-solr-2.3.0.jar
mmseg
4j-core-1.10.0.jarCentOSrelease6.2(Final)javaversion"1.7.0_71
yiduwangkai
·
2016-01-10 14:00
Solr
中文分词
mmseg4j
中文分词
mmseg
4j+solr 5.3.1配置
阅读更多基础环境:solr5.3.1
mmseg
4j-solr-2.3.0.jar
mmseg
4j-core-1.10.0.jarCentOSrelease6.2(Final)javaversion"1.7.0
yiduwangkai
·
2016-01-10 14:00
solr
mmseg4j
中文分词
solr5.3.1 添加中文分词之
mmseg
4j
1,下载对应jar包,并拷贝到sorl服务器的lib目录底下2,添加配置文件(在Solr的安装部署及简单使用已经有过介绍) 其中 dicPath="d:\solr\my_dic" 是我们指定的词库路径,词库文件都在这个文件夹底下,并且名字要以words开头,以dic做后缀,例如 words_my.dic。作为演示,在词库里添加爱他美 高富帅值得强调的是:这个词典文
Fraud
·
2016-01-06 16:00
solr中文分词器
1、
mmseg
4j把jar包放到webapp\WEB-INF\lib目录下schema加入
yntmdr
·
2015-12-26 19:44
分词
开源 Java 中文分词器 Ansj 作者孙健专访
Ansj是一个开源的Java中文分词工具,基于中科院的ictclas中文分词算法,比其他常用的开源分词工具(如
mmseg
4j)的分词准确率更高。
qq_26562641
·
2015-12-17 13:00
偷梁换柱:
MMSeg
4j借用庖丁解牛的词库
“……他不回答,对柜里说,“温两碗酒,要一碟茴香豆。”便排出九文大钱。他们又故意的高声嚷道,“你一定又偷了人家的东西了!”孔乙己睁大眼睛说,“你怎么这样凭空污人清白……”“什么清白?我前天亲眼见你偷了何家的书,吊着打。”孔乙己便涨红了脸,额上的青筋条条绽出,争辩道,“窃书不能算偷……窃书!……读书人的事,能算偷么?”接连便是难懂的话,什么“君子固穷”,什么“者乎”之类,引得众人都哄笑起来;店内外充
qq_26562641
·
2015-12-16 14:00
Solr 5.x集成中文分词word,
mmseg
4j
使用标准分词器,如图:使用word分词器下载word-1.3.jar,注意solr的版本和word分词的版本将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0\webapps\solr\WEB-INF\lib\下修改如下文件C:\workspace\solr_home\solr\mysolr\conf\schema.xml 在schema节点下添加如下节点
refactor
·
2015-12-15 22:00
常用中文分词器
分词器:1、word分词器2、ansj分词器3、
mmseg
4j分词器4、ik-analyzer分词器5、jcseg分词器6、fudannlp分词器7、smartcn分词器8、jieba分词器9、stanford
itace
·
2015-12-11 17:00
search auto complete
8import_envfromos.pathimportjoinfromtokyo.dystopiaimportJDB,JDBOREADER,JDBONOLCKfromconfigimportSEARCH_DB_PATHfrom
mmseg
.searchimportseg_txt2fromhashlibimportmd5defquery_key_md5
·
2015-12-09 10:31
search
mmseg
同义词分析器 SolrSynonymParser
packagesynonym; importjava.io.File; importjava.io.FileInputStream; importjava.io.FileReader; importjava.io.IOException; importjava.io.InputStreamReader; importjava.io.Reader; importjava.io.St
m635674608
·
2015-12-06 12:00
与Lucene 4.10配合的中文分词比较
mmseg
4j:最新版已从https://code.googl
duanfei
·
2015-12-05 10:00
分词
与Lucene 4.10配合的中文分词比较
mmseg
4j:最新版已从https://code.googl
duanfei
·
2015-12-05 10:00
分词
与Lucene 4.10配合的中文分词比较
mmseg
4j:最新版已从 https://code.google
duanfei
·
2015-12-05 10:00
分词
MMSeg
分词算法简述
MMSeg
只是实现了Chih-HaoTsai的
MMSEG
算法,这是一个来源于网络的分词算法。
m635674608
·
2015-12-03 15:00
mmseg
分词器 同义词总结
mmseg
分词器最多大分词是2个词这意味着使用
mmseg
分词器,同义词分词,最大匹配只能匹配2个词的同义词。 如果使用mmesg分词器,需要把一些大于3个的词,加入扩展词库。
m635674608
·
2015-12-02 22:00
MMSeg
Analyzer 自定义 同义词分词器
packagesynonym; importjava.io.File; importjava.io.IOException; importjava.io.Reader; importjava.io.StringReader; importorg.apache.lucene.analysis.Analyzer; importorg.apache.lucene.analysis.T
m635674608
·
2015-12-02 20:00
lucene版本升级到4.6.0以上之后使用
mmseg
4j分词器遇到的问题
使用
mmseg
4j1.9.1使用的是 lucene4.3 没问题。
m635674608
·
2015-11-27 21:00
solr解决访问安全
Tomcat7,solr3.6,
mmseg
1.81:环境的搭建1:解压tomcat,solr,
mmseg
4j2:复制dist文件夹下apache-solr.war到tomcat的webapp文件夹下,修改文件名为
fengyong7723131
·
2015-11-27 11:00
lucene4.x搜索高亮显示
指引我们向前进"; try{ //创建查询的query org.apache.lucene.search.Queryquery=newQueryParser(Version.LUCENE_45,"f",new
MMSeg
Analyzer
吕兵阳
·
2015-11-26 18:00
Lucene
高亮
Solr企业搜索引擎搭建
一、SOLR搭建企业搜索平台运行环境:运行容器:Tomcat6.0.20Solr版本:apache-solr-1.4.0分词器:
mmseg
4j-1.6.2词库:sogou-dic准备工作:下载tomcat6.0.20
dm_ml
·
2015-11-24 11:00
sphinx
39316743http://www.cnblogs.com/yjf512/p/3581869.htmlhttp://www.coreseek.cn/products-install/coreseek_
mmseg
sanbingyutuoniao123
·
2015-11-22 20:00
coreseek-4.1-beta 安装
mmseg
sphinx
$tar-zxvf coreseek-4.1-beta.tar.gz 1.安装
mmseg
$cd
mmseg
-3.2.14$.
sanbingyutuoniao123
·
2015-11-21 21:00
mmseg
4j 中文分词 for .net版本
1、
mmseg
4j 用 Chih-Hao Tsai 的
MMSeg
算法(http://technology.chtsai.org/
mmseg
/ )实现的中文分词器,并实现 lucene 的
·
2015-11-13 20:40
mmseg4j
pychseg - A Python Chinese Segment Project - Google Project Hosting
第一个版本实现了基于的
MMSEG
中文分词算法Python实现。
MMSEG
实际上是一个正向最大匹配+多个规则的分词算法。链接给出的几个网站写的很清楚了。
·
2015-11-13 19:13
project
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他