E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
分词算法
KTDictSeg 分词组件1.3版本 部分算法讨论 -- 分词粒度
在KTDictSeg 分词组件1.3版本的开发过程中,得到了很多朋友的关注和支持,特别是一些分词方面的专家提出了很多很好的意见,也对我的
分词算法
给出了很多中肯的建议,在此向他们表示由衷的感谢。1.
·
2015-10-21 12:10
算法
KTDictSeg 一个C#.net做的简单快速准确的开源中文分词组件
作者:肖波 个人博客:http://blog.csdn.net/eaglet 2007/5 南京 这段时间通过研究目前在互联网上可以搜索到的中文
分词算法
,感觉很难找到既快又准的分词方法
·
2015-10-21 12:10
开源中文分词
数据检索---
分词算法
在Lucene索引的时候已经引出了分词(Analyser)这个慨念,分词也是信息检索的时候重要的一步。我们知道英文一个单词就是一个词,两者直接使用空格天然的隔开,分词就变得很容易了,而汉语的一个句子里面有很多个汉字组成,里面有基本意义的就是词语,单个汉字往往没有对句子有足够的信息,而词语可以说是最小的语义单位。在检索的时候我们一般都是根据词语来匹配的,词语在整片文字中扮演着重要的角色。1、基于字符
李元乐
·
2015-10-20 12:08
数据检索
MMSEG中文分词
文章目标本文旨在描述MMSEG中文
分词算法
核心设计概念,简要介绍中文分词实现方式(基于语法,基于词典,基于统计)。适用于对中文分词感兴趣的入门读者。
lzzy_alex
·
2015-10-06 18:00
几种中文分词工具
word分词word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
秦朝老亖
·
2015-09-24 18:14
[中文分词]
Java中文分词组件 - word分词
Java分布式中文分词组件-word分词word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
m635674608
·
2015-09-12 00:00
word v1.3 发布,Java 分布式中文分词组件
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
杨尚川
·
2015-08-29 09:00
word
分词
中文分词
分词算法
NLP
word v1.3 发布,Java 分布式中文分词组件
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
yangshangchuan
·
2015-08-29 09:00
word
分词
中文分词
分词算法
NLP
word v1.3 发布,Java 分布式中文分词组件
阅读更多word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
yangshangchuan
·
2015-08-29 09:00
中文分词
分词
分词算法
word
NLP
word v1.3 发布,Java 分布式中文分词组件
阅读更多word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
yangshangchuan
·
2015-08-29 09:00
中文分词
分词
分词算法
word
NLP
计蒜之道 初赛 第一场 题解 dp 高效 网络流 最小割 最大流 ISAP 模板
搜狗输入法的
分词算法
搜狗输入法最近的用户输入中出现了一种新的输入模式,形如“0k1234567”,搜狗的工程师发现这一模式后了解到,这是一种新被提出的对于十五进制数字的标记模式,其中“0k”是标记进制为
u010422038
·
2015-07-19 21:00
计蒜客 第一场 搜狗输入法
在发现这一标记模式后,搜狗的工程师开始尝试在已有的
分词算法
上进一步加入对于十五进制数字串的处理,把网页上的这种形式的 15 进制数正确地
u012349696
·
2015-07-18 15:00
Lucene中文分词mmseg4j
mmseg4j已经实现了这两种
分词算法
。项目地址
tianwei7518
·
2015-06-23 16:00
Lucene
全文检索
搜索精确度优化
如果问大家做搜索核心的环节是什么,估计很多人会答分词;好的分词的确可以让内容构建索引和搜索变得更精细;到底有了一个好的
分词算法
是不是就能使搜索变得更精准可靠呢?
泥水佬
·
2015-05-28 11:00
中文
分词算法
总结
什么是中文分词众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子Iamastudent,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:
鸭脖
·
2015-05-21 19:22
自然语言处理
中文
分词算法
之 基于词典的全切分算法(有点儿柱搜索的味道)
在使用 基于词典 的分词方法的时候,如果我们解决了下面4个问题:1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。2、如何利用1中找出来的词组合成完整的句子?组合成的句子要和原句一样。3、如何保证2中组合而成的句子包含了所有可能的词序?4、如何从所有可能的词序中选择最完美的一种作为最终的分词结果?那么我们的分词方法称之为:基于词典的全切分算法。 下面我们以一个实例来说明,比如句子:中
·
2015-05-18 10:00
中文
分词算法
之 基于词典的全切分算法
在使用 基于词典 的分词方法的时候,如果我们解决了下面4个问题: 1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。 2、如何利用1中找出来的词组合成完整的句子?组合成的句子要和原句一样。 3、如何保证2中组合而成的句子包含了所有可能的词序? 4、如何从所有可能的词序中选择最完美的一种作为最终的分词结果? 那么我们的分词方法称之为:基于
yangshangchuan
·
2015-05-09 19:00
word
中文分词
分词算法
全切分算法
ngram
中文
分词算法
之 基于词典的全切分算法
在使用 基于词典 的分词方法的时候,如果我们解决了下面4个问题: 1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。 2、如何利用1中找出来的词组合成完整的句子?组合成的句子要和原句一样。 3、如何保证2中组合而成的句子包含了所有可能的词序? 4、如何从所有可能的词序中选择最完美的一种作为最终的分词结果? 那么我们的分词方法称之为:基于
yangshangchuan
·
2015-05-09 19:00
word
中文分词
分词算法
全切分算法
ngram
中文
分词算法
之 基于词典的全切分算法
在使用 基于词典 的分词方法的时候,如果我们解决了下面4个问题: 1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。 2、如何利用1中找出来的词组合成完整的句子?组合成的句子要和原句一样。 3、如何保证2中组合而成的句子包含了所有可能的词序? 4、如何从所有可能的词序中选择最完美的一种作为最终的分词结果? 那么我们的分词方法称之为:基于
yangshangchuan
·
2015-05-09 19:00
word
中文分词
分词算法
ngram
全切分算法
中文
分词算法
之 基于词典的全切分算法
在使用 基于词典 的分词方法的时候,如果我们解决了下面4个问题: 1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。 2、如何利用1中找出来的词组合成完整的句子?组合成的句子要和原句一样。 3、如何保证2中组合而成的句子包含了所有可能的词序? 4、如何从所有可能的词序中选择最完美的一种作为最终的分词结果? 那么我们的分词方法称之为:基于
yangshangchuan
·
2015-05-09 19:00
word
中文分词
全切分算法
ngram
分词算法
中文
分词算法
之 基于词典的全切分算法
在使用 基于词典 的分词方法的时候,如果我们解决了下面4个问题:1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。2、如何利用1中找出来的词组合成完整的句子?组合成的句子要和原句一样。3、如何保证2中组合而成的句子包含了所有可能的词序?4、如何从所有可能的词序中选择最完美的一种作为最终的分词结果?那么我们的分词方法称之为:基于词典的全切分算法。下面我们以一个实例来说明,比如句子:中华
杨尚川
·
2015-05-09 18:00
word
中文分词
分词算法
全切分算法
ngram
elasticsearch 笔记
中指定某个字段为空必须用missing \"must_not\":[{\"missing\":{\"field\":\"gongqiu.tags\"}}] 配置: 默认搜索和创建索引的
分词算法
zhangcaiyanbeyond
·
2015-04-27 22:00
elasticsearch
elasticsearch 笔记
plugin/head/es中指定某个字段为空必须用missing\"must_not\":[{\"missing\":{\"field\":\"gongqiu.tags\"}}]配置:默认搜索和创建索引的
分词算法
zhangcaiyanbeyond
·
2015-04-27 22:00
elasticsearch
Java分布式中文分词组件word分词v1.2发布
阅读更多word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
jsczxy2
·
2015-04-20 12:00
java
分词
Java分布式中文分词组件word分词v1.2发布
阅读更多word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
jsczxy2
·
2015-04-20 12:00
java
分词
Java分布式中文分词组件word分词v1.2发布
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
jsczxy2
·
2015-04-20 12:00
java
分词
Java分布式中文分词组件word分词v1.2发布
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
yangshangchuan
·
2015-04-16 00:00
elasticsearch
Lucene
Solr
word分词
中文分词
Java分布式中文分词组件word分词v1.2发布
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
yangshangchuan
·
2015-04-16 00:00
elasticsearch
Lucene
Solr
word分词
中文分词
Java分布式中文分词组件word分词v1.2发布
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
yangshangchuan
·
2015-04-16 00:00
elasticsearch
Solr
Lucene
word分词
中文分词
Java分布式中文分词组件word分词v1.2发布
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
yangshangchuan
·
2015-04-16 00:00
elasticsearch
Solr
Lucene
word分词
中文分词
Java分布式中文分词组件word分词v1.2发布
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
杨尚川
·
2015-04-15 23:00
elasticsearch
Solr
Lucene
word分词
中文分词
正向最大匹配中文
分词算法
中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。在这里我想介绍一下中文分词的一个最基础算法:最大匹配算法(MaximumMatching,以下简称MM算法)。MM算法有两种:一种正向最大匹配,一种逆向最大匹
Missueverday
·
2015-03-31 11:00
中文分词
MMSEG
分词算法
最近在研究文本挖掘相关工具和知识,在对文档(文本文件、Word文件、网页等)能够进行全文检索或数据挖掘前,需要首先进行预处理,使之能够成为相对标准的基础数据,“分词”(WordSegmentation)是进行文档预处理过程中的一项重要工作,特别是对中文,由于中文与英文不同,中文只是字、句和段能通过明显的分界符来简单划界,但是词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不
starshine
·
2015-02-22 22:00
分词
mmseg
最大匹配
Lucene:基于Java的全文检索引擎简介
基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基于词库和自动切
分词算法
的比较 具体的安装和使用简介
zzc1684
·
2015-01-29 15:00
常用
分词算法
笔记
常用统计语言模型,包括了N元文法统计模型(N-gramModel)、隐马尔科夫模型(HiddenMarkovModel,简称HMM)、最大熵模型(MaximumEntropyModel)。N-Gram这是一种依赖于上下文环境的词的概率分布的统计计算语言模型。假定,在一个语句中第i个词出现的概率,条件依赖于它前面的N-1个词,即将一个词的上下文定义为该词前面出现的N-1个词,这样的语言模型叫做N-g
earbao
·
2015-01-23 10:00
搜索引擎资源
jKM8FV11ZpP7K6SFKCIJUpfrOnzpjOqiJwYqWXBo9hCF0fOsz09RDviYB_89l0xyNefjMeSjnzi2kdnD355qj1PXiMe0AC7pMlKb_6Wz5_G中文最大搜索引擎百度搜索排名
分词算法
分析
cnmqw
·
2014-11-20 11:54
专题-搜索引擎
搜索引擎资源
jKM8FV11ZpP7K6SFKCIJUpfrOnzpjOqiJwYqWXBo9hCF0fOsz09RDviYB_89l0xyNefjMeSjnzi2kdnD355qj1PXiMe0AC7pMlKb_6Wz5_G 中文最大搜索引擎百度搜索排名
分词算法
分析
cnmqw
·
2014-11-20 11:00
搜索引擎
搜索引擎资源
jKM8FV11ZpP7K6SFKCIJUpfrOnzpjOqiJwYqWXBo9hCF0fOsz09RDviYB_89l0xyNefjMeSjnzi2kdnD355qj1PXiMe0AC7pMlKb_6Wz5_G 中文最大搜索引擎百度搜索排名
分词算法
分析
cnmqw
·
2014-11-20 11:00
搜索引擎
搜索引擎资源
jKM8FV11ZpP7K6SFKCIJUpfrOnzpjOqiJwYqWXBo9hCF0fOsz09RDviYB_89l0xyNefjMeSjnzi2kdnD355qj1PXiMe0AC7pMlKb_6Wz5_G中文最大搜索引擎百度搜索排名
分词算法
分析
cnmqw
·
2014-11-20 11:00
中文自动
分词算法
【中文自动
分词算法
】 当在搜索引擎中搜索“软件使用技巧”时,搜索引擎通常会帮你找出同时含有”软件“、”使用“、”技巧“的网页。
·
2014-11-10 10:00
算法
【NLP】中文分词:原理及
分词算法
二、中文分词技术分类我们讨论的
分词算法
可分为三大类:1.基
DianaCody
·
2014-11-09 15:41
Search
Engine
NLP
【NLP】中文分词:原理及
分词算法
二、中文分词技术分类我们讨论的
分词算法
可分为三大类:1.基
DianaCody
·
2014-11-09 15:41
Search
Engine
NLP
【NLP】中文分词:原理及
分词算法
一、中文分词 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。二、 中文分词技术分类 我们讨论的分
DianaCody
·
2014-11-09 15:00
机器学习
自然语言处理
中文分词
NLP
hmm
转载:浅谈MMSEG
分词算法
转载自:http://blog.csdn.net/pwlazy/article/details/17562927最近看了下MMSEG
分词算法
,觉得这个算法简单高效,而且还非常准确作者声称这个规则达到了99.69%
樂天
·
2014-10-01 21:00
电商分词浅谈一
电商系统的分词,不同于百度这种通用搜索引擎,它有自己一套独立的词典和业务逻辑,它所处理的语料以及
分词算法
都是需要定制的。
修真0
·
2014-09-25 09:00
电商
分词
IK
hmm
数据挖掘入门——分词程序的入门程序
早上起来的时候看到CSDN上的【问底】严澜:数据挖掘入门——分词感觉这个专题很不错哦,里面讲到了一些简单的
分词算法
,看完了后用C++将代码重写了一遍,比较简单,但是很有用下面是博文中提及的一些概念:数据挖掘的目的
xietingcandice
·
2014-09-17 10:00
数据挖掘
分词
情感识别
lucene 中文分词器
mmseg4j已经实现了这两种
分词算法
。
hbiao68
·
2014-09-07 17:00
Lucene
lucene 中文分词器
mmseg4j已经实现了这两种
分词算法
。
hbiao68
·
2014-09-07 17:00
Lucene
lucene 中文分词器
mmseg4j已经实现了这两种
分词算法
。
hbiao68
·
2014-09-07 17:00
Lucene
lucene 中文分词器
mmseg4j已经实现了这两种
分词算法
。
hbiao68
·
2014-09-07 17:00
Lucene
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他