E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
mmseg
NLP: 中文分词算法--正向最大匹配 Forward Maximum Matching
某些情况下,我们在服务器端进行中文文本分词可以使用完整的基于
mmseg
算法的分词模块,例如nodejieba,node-segment,盘古分词等等, 但是在客户端环境下,
weixingstudio
·
2014-07-11 16:00
中文分词
NLP
正向匹配
最大正向匹配
FMM
Sphinx+MySQL5.1x+SphinxSE+
mmseg
中文分词
什么是SphinxSphinx是一个全文检索引擎,一般而言,Sphinx是一个独立的搜索引擎,意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL数据库数据源的支持,也支持从标准输入读取特定格式的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS的原生支持
tjcyjd
·
2014-07-08 16:00
sphinx
Solr4.8.1+
mmseg
4j1.9.1 集成
大家好,我是一网菜鸟网(http://www.sklll.com)站长,网站目前正在维护中,今天在这里做一下Solr4.x和
mmseg
41.9.1集成的详细文章说明,包括
mmseg
4j1.9.1
HideVirus
·
2014-06-25 16:00
关于中文分词
换用StandardAnalyzer,有34%的提高,比较下使用的KAnalyzer,
mmseg
4j1.9.2-snapshot,standardanalyzer,性能分别在1.7M/s,10M/s,20M
jollyjumper
·
2014-06-21 23:00
索引
性能优化
分词
solr4.4 +
mmseg
4j-1.9.1中文分词
1、solr配置请参考solr4.4.0配置笔记.txt 2、
mmseg
4j-1.9.1下载地址 http://
mmseg
4j.googlecode.com/files/
mmseg
4j-1.9.1
tiankong6622
·
2014-06-18 14:00
Lucene
solr 4.4
solr 中文分词
mmseg
4j 使用例子
原文出处:http://blog.chenlb.com/2009/04/solr-chinese-segment-
mmseg
4j-use-demo.html
mmseg
4j第一个版本就可以方便地与solr
qq1013712290
·
2014-06-18 10:00
mmseg4j
Mahout: Integerate jcseg with mahout seq2parse
sites url https://github.com/justjavac/Google-IPs JCSEG http://www.oschina.net/p/jcseg
MMSEG
ylzhj02
·
2014-06-16 18:00
Integer
Mahoout: CWSS
jcseg http://www.oschina.net/p/jcseg http://technology.chtsai.org/
mmseg
/ scws
ylzhj02
·
2014-06-13 14:00
out
linux下面安装coreseek与
mmseg
1tarxzvfcoreseek-3.2.14.tar.gz2cd
mmseg
-3.2.14/.
yun007
·
2014-06-07 14:00
当前几个主要的Lucene中文分词器的比较
基本介绍:paoding :Lucene中文分词“庖丁解牛”Paoding Analysisimdict:imdict智能词典所采用的智能中文分词程序
mmseg
4j :用Chih-HaoTsai的
MMSeg
haomad
·
2014-05-23 17:56
Google
开发者
版本号
处理器
活跃度
python 分词工具
在python这py
mmseg
-cpp 还是十分方便的!
cooler1217
·
2014-05-21 12:00
python
【文本分类】Friso分词系统中
MMSeg
算法说明
首先来理解一下chunk,它是
MMSeg
分词算法中一个关键的概念。
jiayanhui2877
·
2014-05-09 15:00
mahout 0.9 + hadoop 1.0.2 实现中文文本聚类
我们需要添加自己的分词工具,这里使用
mmseg
4j,它可支持lucene4.6.1。首先,修改mahout源码中examples目录下的po
doc_peter
·
2014-05-09 13:50
Mahout
&
Maven
friso官方网站下载及官方信息
friso中文分词器Friso是使用c语言开发的一款高性能中文分词器,使用流行的
mmseg
算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。
hzhsan
·
2014-05-08 07:00
中文分词
friso官方下载
c语言中文分词
【编译打包】coreseek-3.2.14-2.el6.src.rpm
coreseek号称是sphinx中文版,特色是lib
mmseg
中文分词支持,目前稳定版是3.2.14,对应的sphinx版本是0.9.9,(sphinx最新版为2.1.7)。
紫色葡萄
·
2014-05-04 17:24
centos
coreseek
mmseg
SRPM
word分词器、ansj分词器、
mmseg
4j分词器、ik-analyzer分词器分词效果评估
转自:http://yangshangchuan.iteye.com/blog/2056537(有代码可下载)word分词器、ansj分词器、
mmseg
4j分词器、ik-analyzer分词器分词效果评估博客分类
xinklabi
·
2014-05-04 17:00
word分词器
Java开源项目cws_evaluation:中文分词器分词效果评估
cws_evaluation 是通过对前文《word分词器、ansj分词器、
mmseg
4j分词器、ik-analyzer分词器分词效果评估》中写的评估程序进行重构改进后形成的。
yangshangchuan
·
2014-05-01 02:00
java
开源
中文分词
效果评估
cws_evaluation
Java开源项目cws_evaluation:中文分词器分词效果评估
cws_evaluation 是通过对前文《word分词器、ansj分词器、
mmseg
4j分词器、ik-analyzer分词器分词效果评估》中写的评估程序进行重构改进后形成的。
yangshangchuan
·
2014-05-01 02:00
java
开源
中文分词
cws_evaluation
效果评估
Java开源项目cws_evaluation:中文分词器分词效果评估
cws_evaluation 是通过对前文《word分词器、ansj分词器、
mmseg
4j分词器、ik-analyzer分词器分词效果评估》中写的评估程序进行重构改进后形成的。
yangshangchuan
·
2014-05-01 02:00
java
开源
中文分词
效果评估
cws_evaluation
Java开源项目cws_evaluation:中文分词器分词效果评估
cws_evaluation 是通过对前文《word分词器、ansj分词器、
mmseg
4j分词器、ik-analyzer分词器分词效果评估》中写的评估程序进行重构改进后形成的。
yangshangchuan
·
2014-05-01 02:00
java
开源
中文分词
效果评估
cws_evaluation
word分词器、ansj分词器、
mmseg
4j分词器、ik-analyzer分词器分词效果评估
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。 word分词器分词效果评估主要评估下面7种分词算法: 正向最大匹配算法:MaximumMatching逆向最大匹配算法:ReverseMa
杨尚川
·
2014-04-29 19:00
word分词
word分词器
中文分词
word分词组件
Java中文分词
word分词库
开源中文分词
当前几个主要的Lucene中文分词器的比较
1.基本介绍:paoding :Lucene中文分词“庖丁解牛”PaodingAnalysisimdict :imdict智能词典所采用的智能中文分词程序
mmseg
4j :用Chih-HaoTsai的
july_2
·
2014-04-29 17:00
word分词器、ansj分词器、
mmseg
4j分词器、ik-analyzer分词器分词效果评估
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。 word分词器分词效果评估主要评估下面7种分词算法: 正向最大匹配算法:MaximumMatchi
yangshangchuan
·
2014-04-29 09:00
word分词器
word分词
中文分词
word分词组件
Java中文分词
开源中文分词
word分词库
word分词器、ansj分词器、
mmseg
4j分词器、ik-analyzer分词器分词效果评估
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。 word分词器分词效果评估主要评估下面7种分词算法: 正向最大匹配算法:MaximumMatchi
yangshangchuan
·
2014-04-29 09:00
word分词器
word分词
中文分词
开源中文分词
Java中文分词
word分词组件
word分词库
word分词器、ansj分词器、
mmseg
4j分词器、ik-analyzer分词器分词效果评估
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。 word分词器分词效果评估主要评估下面7种分词算法: 正向最大匹配算法:MaximumMatchi
yangshangchuan
·
2014-04-29 09:00
word分词
word分词器
中文分词
Java中文分词
开源中文分词
word分词库
word分词组件
word分词器、ansj分词器、
mmseg
4j分词器、ik-analyzer分词器分词效果评估
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。 word分词器分词效果评估主要评估下面7种分词算法: 正向最大匹配算法:MaximumMatchi
yangshangchuan
·
2014-04-29 09:00
word分词
word分词器
中文分词
word分词组件
word分词库
开源中文分词
Java中文分词
coreseek安装笔记
www.coreseek.cn/uploads/csft/4.0/coreseek-4.1-beta.tar.gztarzxvfcoreseek-4.1-beta.tar.gz安装词库cdcoreseek-4.1-betacd
mmseg
AstrayLinux
·
2014-04-27 17:56
笔记
coreseek安装笔记
www.coreseek.cn/uploads/csft/4.0/coreseek-4.1-beta.tar.gztarzxvfcoreseek-4.1-beta.tar.gz安装词库cdcoreseek-4.1-betacd
mmseg
AstrayLinux
·
2014-04-27 17:00
linux
search
sphinx
coreseek
elasticsearch中文分词集成
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是
mmseg
的,下面分别介绍下两者的用法
july_2
·
2014-04-25 13:00
编译安装
mmseg
提示cannot find input file: src/Makefile.in错误
今天安装中文词检索功能模块coreseek,其中一个分词模块
mmseg
,编译安装到最后,出现annotfindinputfile:src/Makefile.inaclocal //是一个perl脚本程序
renwd
·
2014-04-23 21:13
mmseg
Solr4.7.0中整合中文分词
mmseg
4j-1.9.1
几年过去了,Lucene和Solr都发展到了4.7.x版本,重拾中文分词,发现庖丁中文分词不再是首选,
mmseg
4j是更
Josh_Persistence
·
2014-04-20 02:00
exception
中文分词
solr4.x
mmseg4j
庖丁分词
Nutch+solr+
mmseg
4j集成
第一章安装配置solr4.2#下载solr4.2.0版本[root@nutchnutch2]#wgethttp://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz#解压solr4.2.0文件[root@nutchnutch2]#tar-xzvfsolr-4.2.0.tgz#把nutch/conf/schema.xml复制到solr/
hiqj
·
2014-04-18 17:00
配置solr的schema.xml加入中文分词器
这里使用
mmseg
. 在
mmseg
文件中, 打开readme.txt, 可以看到: [color=blue]5、在 com.chenlb.
mmseg
4j.
alleni123
·
2014-04-16 21:00
Solr
solr中文分词(
mmseg
4j) 编辑
1、从http://code.google.com/p/
mmseg
4j/ 下载
mmseg
4j 2、在$SOLR_HOME下建立lib和dic两个目录,讲
mmseg
4j-all-1.8.4.jar拷贝到
phantome
·
2014-04-15 13:00
sphinx分布式配置
单机配置请参考搭建coreseek(sphinx+
mmseg
3)详细安装配置+php之sphinx扩展安装+php调用示例 分布式配置很简单,只需要将局域网内的机器连接即可。
e421083458
·
2014-04-13 21:00
Solr4.3整合到Tomcat中并添加
MMSeg
4j中文分词器
Solr4.3整合到Tomcat中并添加
MMSeg
4j中文分词器1、新建一个文件夹命名为Solr并在里面建两个文件夹分别命名为home和server。
Big-Data
·
2014-04-10 15:00
mmseg
4j分词器导致的java.lang.AbstractMethodError
java.lang.AbstractMethodError: org.apache.lucene.analysis.Analyzer.tokenStream(Ljava/lang/String;Ljava/io/Reader;)Lorg/apache/lucene/analysis/TokenStream; at org.apache.lucene.analysis.Analyzer.reus
alleni123
·
2014-04-07 17:00
jar
Lucene
非sqlite和nigix的开源c项目
friso中文分词器 Friso是使用c语言开发的一款高性能中文分词器,使用流行的
mmseg
算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。
·
2014-04-06 21:00
sqlite
mmseg
4j-1.9 solr4 bug 处理
目前中文分词
mmseg
4j 在solr4下是不能正常工作的。解决方法可简单了,只是solr4接口有点变化。中文分词
mmseg
4插件的作者没及时的跟上"solr4接口"变化。
token01
·
2014-04-01 10:00
搭建coreseek(sphinx+
mmseg
3)详细安装配置+php之sphinx扩展安装+php调用示例
搭建coreseek(sphinx+
mmseg
3)安装[第一步]先安装
mmseg
3cd/var/installwgethttp://www.coreseek.cn/uploads/csft/4.0/coreseek
e421083458
·
2014-03-19 14:46
PHP
Linux
压力+性能测试
搭建coreseek(sphinx+
mmseg
3)详细安装配置+php之sphinx扩展安装+php调用示例
搭建coreseek(sphinx+
mmseg
3)安装[第一步]先安装
mmseg
3cd/var/install wgethttp://www.coreseek.cn/uploads/csft/4.0/coreseek
e421083458
·
2014-03-19 14:00
mmseg
4j 1.9.1 + Solr 4.7.0 报错
TokenStreamcontractviolation:reset()/close()callmissing,reset()calledmultipletimes,orsubclassdoesnotcallsuper.reset().PleaseseeJavadocsofTokenStreamclassformoreinformationaboutthecorrectconsumingworkf
wonder4
·
2014-03-14 09:00
solr学习-分词
solr的环境搭建:solr4.3.1+tomcat7.0.29+jdk1.7+
mmseg
4j-1.9.1.zip 通过查找
mmseg
4j的官
jeff_han
·
2014-03-04 14:00
Solr
编译安装CoreSeek-4.1
www.coreseek.cn/uploads/csft/4.0/coreseek-4.1-beta.tar.gztarzxvfcoreseek-4.1-beta.tar.gzcdcoreseek-4.1-betacd
mmseg
jicki
·
2014-03-04 01:01
coreseek
How to generate a new dictionary file of
mmseg
How to generate a new dictionary file of
mmseg
0.Usage about
mmseg
-node memtioned in github : var
mmseg
·
2014-02-18 11:00
File
solr在tomcat下集成
mmseg
mmseg
最新版本为1.9.1 http://code.google.com/p/
mmseg
4j/,最高仅支持solr4.5.1所以这里solr用的是4.5.1版本(已经出到4.6.0版本了)http
bird_wang
·
2014-02-13 14:30
tomcat
Solr
mmseg
solr在tomcat下集成
mmseg
mmseg
最新版本为1.9.1http://code.google.com/p/
mmseg
4j/,最高仅支持solr4.5.1所以这里solr用的是4.5.1版本(已经出到4.6.0版本了)http:/
bird_wang
·
2014-02-13 14:30
tomcat
solr
mmseg
【文本分类】friso中文分词器介绍(c 开源)
一、friso中文分词器Friso是使用c语言开发的一款高性能中文分词器,使用流行的
mmseg
算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。
jiayanhui2877
·
2014-02-12 17:00
分布式搜索elasticsearch 中文分词集成
对于索引可能最关系的就是分词了一般对于es来说默认的smartcn 但效果不是很好 一个是ik的,一个是
mmseg
的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:安装ik插件plugin-installmedcl
token01
·
2014-01-23 16:00
IKAnalyzer,
mmseg
4j
7、 往服务中添加索引 String url = "http://localhost:8080/solr-4.4.0"; SolrServer server = new HttpSolrServer(url); &n
linshow26
·
2014-01-19 21:00
IKAnalyzer
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他