E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MMSeg
Java中文分词器Ansj
Java中文分词器AnsjAnsj是一个开源的Java中文分词工具,基于中科院的ictclas中文分词算法,比其他常用的开源分词工具(如
mmseg
4j)的分词准确率更高。介绍一下Ansj!
howareyoutodaysoft
·
2012-11-10 11:00
ansj
中文分词器
不了了之
不了了之之了之
开源搜索引擎solr4.0+tomcat7实现中文分词
solr4.0正式版发布,由于其新功能比较给力(特别是关于分布式的新特性,关联zookeeper等),所以准备替换掉老版本官网下载solr4.0:http://lucene.apache.org/solr/
mmseg
4j
zhouyuqin3510
·
2012-11-06 16:24
搜索
引擎
lucene
开源搜索引擎solr4.0+tomcat7实现中文分词
solr4.0正式版发布,由于其新功能比较给力(特别是关于分布式的新特性,关联zookeeper等),所以准备替换掉老版本官网下载solr4.0:http://lucene.apache.org/solr/
mmseg
4j
zhouyuqin3510
·
2012-11-06 16:24
搜索
Solr
Lucene
分词
引擎
lucene的使用
使用luncene3.6下载地址 http://www.apache.org/dyn/closer.cgi/lucene/java/3.6.1分词器使用
mmseg
4j下载地址 http://code.google.com
eat_suger
·
2012-11-05 15:00
开源 Java 中文分词器 Ansj 作者孙健专访
Ansj是一个开源的Java中文分词工具,基于中科院的ictclas中文分词算法,比其他常用的开源分词工具(如
mmseg
4j)的分词准确率更高。
nanjingjiangbiao_T
·
2012-11-05 13:00
中文分词器
开源 Java 中文分词器 Ansj 作者孙健专访
Ansj是一个开源的Java中文分词工具,基于中科院的ictclas中文分词算法,比其他常用的开源分词工具(如
mmseg
4j)的分词准确率更高。
blogdevteam
·
2012-11-05 13:00
专访
MMSEG
:一个基于最大匹配算法的两种变体的中文单词识别系统
发表日期:1996-04-29更新日期:1998-03-06文档更新:2000-03-12许可:非商业使用情况下免费Copyright1996-2006Chih-HaoTsai(Email:
[email protected]
)摘要中文文本在计算分析中一个问题是中文文本在印刷时缺少单词的边界,由于单词是一个基本的语义单元,因此有必要识别中文文本的单词以让进一步的处理可以进行。这份论文的目的是开发一个基
wuwuwuwuwuwuwuwu
·
2012-10-26 11:00
关于
MMSEG
分词算法
MMSEG
是中文分词中一个常见的、基于词典的分词算法(作者主页:http://chtsai.org/index_tw.html),简单、效果相对较好。
wuwuwuwuwuwuwuwu
·
2012-10-26 10:00
solr中文分词(
mmseg
4j)
1、从http://code.google.com/p/
mmseg
4j/ 下载
mmseg
4j 2、在$SOLR_HOME下建立lib和dic两个目录,讲
mmseg
4j-all-1.8.4.jar拷贝到
·
2012-10-24 11:00
mmseg4j
solr和tomcat整合
solr和tomcat整合先下载lucene和solr,及中文分词器
mmseg
4jlucene和solr我用的3.6.1版http://www.apache.org/dyn/closer.cgi/lucene
chrischen214
·
2012-10-23 14:00
Linux下安装使用Solr
1、首先下载Solr、
mmseg
4j分词包、tomcat并解压,这用google、百度都可以搜索得到下载地址。
dengsilinming
·
2012-10-17 11:45
Solr
Linux下安装使用Solr
1、首先下载Solr、
mmseg
4j分词包、tomcat并解压,这用google、百度都可以搜索得到下载地址。
dengsilinming
·
2012-10-17 11:00
tomcat
linux
filter
Solr
Class
regex
python
MMSEG
分词 实现
实现参见http://blog.csdn.net/acceptedxukai/article/details/7390300修改了其中的几个问题1.取自由语素度最大的chunk这个是要取chunk中单个字的词频取对数后的和),而不是直接把sumchunk中每词的词频和2.确定唯一的chunk后应该取这个剩下的chunk的第一个词为分出的第一个词然后对除去第一个词的剩下部分继续重复以上步骤,直至分完
liukeforever
·
2012-10-11 09:00
Linux下安装使用Solr
1、首先下载Solr、
mmseg
4j分词包、tomcat并解压,这用google、百度都可以搜索得到下载地址。
eat_suger
·
2012-10-09 17:00
安装coreseek启动searchd时出现libmysqlclient错误解决
/configure--prefix=/usr/local/coreseek--without-unixodbc--with-
mmseg
--with-
mmseg
-includes=/usr/loca
fafa211
·
2012-09-28 17:00
linux
object
测试
File
文档
64bit
MMSeg
中文分词算法
Java中有一些开源的分词项目,比如:IK、Paoding、
MMSEG
4J等等。这里主要说的是
MMSEG
4J中使用的
MMSeg
算法。
suwei19870312
·
2012-09-27 17:00
java
算法
语言
2010
Solr学习总结
一、 SOLR搭建企业搜索平台 运行环境: 运行容器:Tomcat6.0.20 Solr版本:apache-solr-1.4.0 分词器:
mmseg
4j-1.6.2&
a52071453
·
2012-09-20 10:00
apache
tomcat
搜索引擎
Solr
Lucene
Solr学习总结
一、 SOLR搭建企业搜索平台 运行环境: 运行容器:Tomcat6.0.20 Solr版本:apache-solr-1.4.0 分词器:
mmseg
4j-1.6.2&
a52071453
·
2012-09-20 10:00
apache
tomcat
搜索引擎
Lucene
Solr
分布式搜索elasticsearch中文分词集成 .
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是
mmseg
的,下面分别介绍下两者的用法
lxl900512
·
2012-09-18 11:22
搜索引擎
分布式搜索
ES
分布式搜索elasticsearch中文分词集成 .
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是
mmseg
的,下面分别介绍下两者的用法
lxl900512
·
2012-09-18 11:22
搜索引擎
分布式搜索
coreseek无法索引中文
但是执行下面的命令时, /usr/local/coreseek/bin/search -c /usr/local/coreseek/etc/csft_moban.conf 小鱼 检索出来的分词(是
mmseg
phpseyo
·
2012-08-27 17:00
coreseek
Centos+Mysql+sphinx+
mmseg
(rhel4)
一、所需文件列表
mmseg
-0.7.3.tar.gz 中文分词 mysql-5.1.26-rc.tar.gz
·
2012-08-15 22:00
centos
伍哥原创之用搜狗细胞词库制作
mmseg
词典
【伍哥原创】1,了解
mmseg
和lib
mmseg
MMSeg
是一个基于最大匹配算法的两种变体的中文单词识别系统。简单来说就是算法。
alex.wu
·
2012-08-06 18:00
搜索引擎技术
分布式搜索elasticsearch中文分词集成
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是
mmseg
的,下面分别介绍下两者的用法
laigood12345
·
2012-07-27 12:00
java
properties
String
apache-solr-4.0.0-ALPHA中文分析器IKAnalyzer4.0
最近看solr出了4.0ALPHA版本,管理界面比3.x漂亮,而且在和
mmseg
和lucene的SmartChineseAnalyzer、StandardAnalyzer、CJKAnalyzer比较之后
·
2012-07-22 11:00
Lucene
Solr
IKAnalyzer
apache-solr-4.0.0-ALPHA中文分析器IKAnalyzer4.0
最近看solr出了4.0ALPHA版本,管理界面比3.x漂亮,而且在和
mmseg
和lucene的SmartChineseAnalyzer、StandardAnalyzer、CJKAnalyzer比较之后
·
2012-07-22 02:00
IKAnalyzer
Solr 3.5 + Tomcat7 +
mmseg
4j + 搜狗词库 -配置并运行
这是我看到过的写的较好的一篇入门文章,个人觉得相对有些文章来说靠谱些,呵呵。机器上已安装:Tomcat7 jdk1.7 mysql5.0访问http://www.apache.org/dyn/closer.cgi/lucene/solr,在这个网址里选择一个路径,下载solr3.5的版本solr3.5在本机解压缩以后,把apache-solr-3.5.0\example\webapps 目
huanglz19871030
·
2012-07-11 11:00
tomcat7
基于sphinx的中文搜索
coreseek其实是sphinx的升级版,说白了,就是sphinx 加上
mmseg
,
mmseg
就
pz9042
·
2012-06-26 11:00
sphinx 中文分词
MMSEG
中文分词算法
由于学习需要,我尝试翻译
MMSEG
算法,目前处于初稿状态,很许多地方的翻译仍不尽准确,在以下几天会加以修改。
sunlylorn
·
2012-06-11 15:00
Algorithm
c
算法
测试
processing
classification
关于
MMSEG
分词算法
MMSEG
是中文分词中一个常见的、基于词典的分词算法(作者主页:http://chtsai.org/index_tw.html),简单、效果相对较好。
sunlylorn
·
2012-06-11 15:00
Algorithm
算法
生活
tree
Google
Random
Lucene案例
Indexer
Mmseg
4j.java代码如下: import java.io.ByteArrayOutputStream; import java.io.File; import java.io.FileInputStream
shihuan830619
·
2012-06-10 15:00
Lucene
Lucene案例
阅读更多Indexer
Mmseg
4j.java代码如下:importjava.io.ByteArrayOutputStream;importjava.io.File;importjava.io.FileInputStream
shihuan830619
·
2012-06-10 15:00
mmseg
同义词/复合词自定义
Linux
mmseg
同义词/复合分词处理:其基本使用状况为:词库包含:南京西路、南京、西路索引时:文本中的“南京西路”会被同时索引为以上三者查询时:输入南京西路,可以直接匹配南京西路,而不匹配南京或者西路
黑小子
·
2012-06-06 13:00
debian6安装coreseek
/configure--prefix=/usr/local/
mmseg
3make&&makein
白衬衫
·
2012-06-04 15:56
Debian
coreseek
sphinx全文搜索
tarzxvfcoreseek-4.1-beta.tar.gz【
mmseg
】cdcoreseek-4.1-beta/
mmseg
-3.2.14.
jay1412008
·
2012-05-31 20:46
搜索
sphinx
应用
sphinx全文搜索
tarzxvfcoreseek-4.1-beta.tar.gz【
mmseg
】cdcoreseek-4.1-beta/
mmseg
-3.2.14.
jay1412008
·
2012-05-31 20:46
搜索
sphinx
利用
mmSeg
4j分词实现网页文本倾向性分析
利用
mmSeg
4j分词实现网页文本倾向性分析 最近一直在做网页情感倾向性分析的工作,找了一些论文,发现基于机器学习的算法在项目中不太合适,于是自己鼓捣了一套基于中文分词和正负面词库的分析算法
william_xu
·
2012-05-14 16:13
网页
情感分析
文本倾向性
倾向性分析
文本情感
利用
mmSeg
4j分词实现网页文本倾向性分析
利用
mmSeg
4j分词实现网页文本倾向性分析最近一直在做网页情感倾向性分析的工作,找了一些论文,发现基于机器学习的算法在项目中不太合适,于是自己鼓捣了一套基于中文分词和正负面词库的分析算法。
william_xu
·
2012-05-14 16:13
网页
情感分析
倾向性分析
搜索技术
solr入门学习
Tomcat7,solr3.6,
mmseg
1.8 1:环境的搭建 1:解压tomcat,solr,
mmseg
4j 2:复制dist文件夹下apache-solr.war到tomcat的webapp
zhchx0827
·
2012-05-10 21:00
Solr
MMSEG
系统:中文分词入门之最大匹配法扩展
事实上,很多学者都基于简单的中文分词匹配法做了扩展,其中比较有名的就是台湾蔡志浩老师1996年写的“
MMSEG
:AWordIdentificationSystemforMandarinChineseTextBasedonTwoVariantsoftheMaximumMatchin
Deit_Aaron
·
2012-05-10 17:00
Solr 获取分词
我用
mmseg
4j为例。在solr.root/example/solr/conf/schema.xml的types元素内加:
a280606790
·
2012-05-07 18:00
【转】主流分词器对比
基本介绍: paoding :Lucene中文分词“庖丁解牛” Paoding Analysisimdict :imdict智能词典所采用的智能中文分词程序
mmseg
4j 
iamzhongyong
·
2012-05-06 15:00
分词器
【转】主流分词器对比
基本介绍: paoding :Lucene中文分词“庖丁解牛” Paoding Analysisimdict :imdict智能词典所采用的智能中文分词程序
mmseg
4j 
iamzhongyong
·
2012-05-06 15:00
分词器
python 中文分词 (windows) py
mmseg
py
mmseg
windows下中文分词, 下载附件, 直接 import 目录就行了。
ipython
·
2012-05-05 18:00
pypmmseg
paoding分词工具的字典如何构建
在调研了
mmseg
4j,ictclas4j(imdict和ictclas4j属于一类,只不过其为了效率去掉了ictclas4j的命名实体识别部分),IKAnalyzer
单眼皮大娘
·
2012-05-02 16:00
分词
paoding
词典结构
SOLR企业搜索平台 二 (分词安装)
中文分词器安装1)下载分词器,下载地址:http://code.google.com/p/
mmseg
4j/downloads/list(版本自己选择吧,我用的是1.8.5)2)解压
mmseg
4j-1.8.5
JasonLeemz
·
2012-04-13 18:23
linux
lucene
分词
solr
SOLR企业搜索平台 二 (分词安装)
中文分词器安装1)下载分词器,下载地址: http://code.google.com/p/
mmseg
4j/downloads/list(版本自己选择吧,我用的是1.8.5)2)解压
mmseg
4j-1.8.5
JasonLeemz
·
2012-04-13 18:23
linux
Lucene
Solr
全文检索
分词
mmseg
4j的字典数据结构(版本1.8.5)
最近在做分词,在网上发现了
MMSEG
,论文简单入理。在code.google.com上搜到了java的实现版本,非常感谢chenlb开源自己的代码。
单眼皮大娘
·
2012-04-12 18:00
分词
mmseg4j
字典结构
Python实现
mmseg
分词算法和吐嘈
前两天一直在写爬虫,也是一直有心写个简单的搜索引擎吧,写出来肯定是没有Web界面的,本人不知道怎么地,对Web的代码一直有抵触心理。搜索引擎嘛,我想要写出来必须要懂五个部分:1、基础的多线程爬虫2、分词算法,对用户输入的查找文本进行切割3、MapReduce,用来统计词语出现的次数,这个直接关系到URL在队列中的等级4、PageRank,用来给网页排名5、Web界面上述的五个部分,打算全部用自己的
Acceptedxukai
·
2012-03-24 16:00
算法
python
Microsoft
token
import
float
mmseg
1.2.5 : Python Package Index
mmseg
1.2.5:PythonPackageIndex
mmseg
1.2.5
MMseg
中文分词ChineseSegmentOn
MMSeg
AlgorithmDownloads↓
MMseg
中文分词ChineseSegmentOn
MMSeg
Algorithm
·
2012-03-21 09:00
package
上一页
12
13
14
15
16
17
18
19
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他