E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
分词算法
中文
分词算法
之 词典机制性能优化与测试
在之前的两篇博文中文
分词算法
之基于词典的正向最大匹配算法和中文
分词算法
之基于词典的逆向最大匹配算法中,我们对分词实现和词典实现都做了优化,本文对词典实现做进一步优化,并和之前的多个实现做一个对比,使用的词典下载地址
yangshangchuan
·
2014-03-23 08:00
性能优化
性能测试
中文分词
trie
前缀树
中文
分词算法
之 基于词典的逆向最大匹配算法
在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,最后使用前缀树来实现词典查找算法,并做了3次优化。 下面我们看看基于词典的逆向最大匹配算法的实现,实验表明,对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效,如下代码所示: public static List segReverse(String text){
杨尚川
·
2014-03-21 17:00
中文分词
逆向最大匹配
基于词典
中文
分词算法
之 基于词典的逆向最大匹配算法
中文
分词算法
之基于词典的逆向最大匹配算法博客分类: 人工智能中文分词逆向最大匹配基于词典 在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,
xinklabi
·
2014-03-20 16:00
中文分词
中文
分词算法
之 基于词典的逆向最大匹配算法
在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,最后使用前缀树来实现词典查找算法,并做了3次优化。 下面我们看看基于词典的逆向最大匹配算法的实现,实验表明,对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效,如下代码所示: publicstaticListsegReverse(Stringtext){ Stackresult
yangshangchuan
·
2014-03-20 02:00
中文分词
基于词典
逆向最大匹配
中文
分词算法
之 基于词典的逆向最大匹配算法
在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,最后使用前缀树来实现词典查找算法,并做了3次优化。 下面我们看看基于词典的逆向最大匹配算法的实现,实验表明,对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效,如下代码所示: publicstaticListsegReverse(Stringtext){ Stackresult
yangshangchuan
·
2014-03-20 02:00
中文分词
逆向最大匹配
基于词典
中文
分词算法
之 基于词典的逆向最大匹配算法
在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,最后使用前缀树来实现词典查找算法,并做了3次优化。 下面我们看看基于词典的逆向最大匹配算法的实现,实验表明,对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效,如下代码所示: publicstaticListsegReverse(Stringtext){ Stackresult
yangshangchuan
·
2014-03-20 02:00
中文分词
逆向最大匹配
基于词典
中文
分词算法
之 基于词典的逆向最大匹配算法
在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,最后使用前缀树来实现词典查找算法,并做了3次优化。 下面我们看看基于词典的逆向最大匹配算法的实现,实验表明,对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效,如下代码所示: publicstaticListsegReverse(Stringtext){ Stackresult
yangshangchuan
·
2014-03-20 02:00
中文分词
逆向最大匹配
基于词典
中文
分词算法
之 基于词典的逆向最大匹配算法
在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,最后使用前缀树来实现词典查找算法并做了3次优化。 下面我们看看基于词典的逆向最大匹配算法的实现,如下代码所示: publicstaticList
segReverse(Stringtext){ Stack
result=newStack<>(); while(
·
2014-03-19 18:00
算法
中文分词
词典
中文
分词算法
之 基于词典的正向最大匹配算法
基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。 算法流程图如下: Java实现代码如下: /** * 基于词典的正向最大匹配算法 * @author 杨尚川 */ public class WordSeg { private static final List DIC = new ArrayList lines = Fil
杨尚川
·
2014-03-18 11:00
中文分词
trie
最长词优先匹配
正向最大匹配
基于词典
prefixtrie
中文
分词算法
——基于统计的分词
1.基于统计的分词(无字典分词)主要思想:上下文中,相邻的字同时出现的次数越多,就越可能构成一个词。因此字与字相邻出现的概率或频率能较好的反映词的可信度。主要统计模型为:N元文法模型(N-gram)、隐马尔科夫模型(HiddenMarkovModel,HMM)1.1N-gram模型思想模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的
坚持到底cw
·
2014-03-17 13:04
中文分词
中文
分词算法
—— 基于词典的方法
1、基于词典的方法(字符串匹配,机械分词方法)定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配按照长度的不同:最大匹配和最小匹配1.1正向最大匹配思想MM1》从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。2》查找大机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个
坚持到底cw
·
2014-03-17 13:10
中文分词
中文
分词算法
之 基于词典的正向最大匹配算法
基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。 算法流程图如下: Java实现代码如下: /** *基于词典的正向最大匹配算法 *@author杨尚川 */ publicclassWordSeg{ privatestaticfinalListDIC=newArrayListlines=Files.readAllLines(Pa
yangshangchuan
·
2014-03-17 00:00
中文分词
最长词优先匹配
正向最大匹配
基于词典
中文
分词算法
之 基于词典的正向最大匹配算法
基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。 算法流程图如下: Java实现代码如下: /** *基于词典的正向最大匹配算法 *@author杨尚川 */ publicclassWordSeg{ privatestaticfinalListDIC=newArrayListlines=Files.readAllLines(Pa
yangshangchuan
·
2014-03-17 00:00
中文分词
正向最大匹配
基于词典
最长词优先匹配
中文
分词算法
之 基于词典的正向最大匹配算法
基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。 算法流程图如下: Java实现代码如下: /** *基于词典的正向最大匹配算法 *@author杨尚川 */ publicclassWordSeg{ privatestaticfinalListDIC=newArrayListlines=Files.readAllLines(Pa
yangshangchuan
·
2014-03-17 00:00
中文分词
基于词典
正向最大匹配
最长词优先匹配
中文
分词算法
之 基于词典的正向最大匹配算法
基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。 算法流程图如下: Java实现代码如下: /** *基于词典的正向最大匹配算法 *@author杨尚川 */ publicclassWordSeg{ privatestaticfinalListDIC=newArrayListlines=Files.readAllLines(Pa
yangshangchuan
·
2014-03-17 00:00
中文分词
正向最大匹配
基于词典
最长词优先匹配
2014-1-19_自己动手写中文分词并编写solr接口
分词算法
是最简单的最大逆向匹配。词典用DATrie来存储。分词的基础知识都比较基础了。这里侧重于分词器与lucene/solr的集成。在solr4.2中实现分词接口还是比较简单的。
sbp810050504
·
2014-01-19 16:43
lucene
solr
中文分词
搜索引擎
2014-1-19_自己动手写中文分词并编写solr接口
分词算法
是最简单的最大逆向匹配。词典用DATrie来存储。分词的基础知识都比较基础了。这里侧重于分词器与lucene/solr的集成。在solr4.2中实现分词接口还是比较简单的。
sbp810050504
·
2014-01-19 16:43
Lucene
Solr
中文分词
DATrie
DoubleArrayTrie
自己动手写分词引擎——逆向最大、正向最大、双向最大
分词算法
的实现
但不管怎么样,对于一个NLPer还是要能够手写最简单的
分词算法
的,这也是面试必备基本功。一,基于字典的逆向最大
分词算法
从后向前读入待分词字符串,读入字符串的长度由分词字典中最长单词决定。之后测试
worldwindjp
·
2014-01-10 15:00
java
算法
面试题
NLP
浅谈MMSEG
分词算法
最近看了下MMSEG
分词算法
,觉得这个算法简单高效,而且还非常准确作者声称这个规则达到了99.69%的准确率并且93.21%的歧义能被这个规则消除。
pwlazy
·
2013-12-25 20:00
Lucene:基于Java的全文检索引擎简介
基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史全文检索的实现:Luene全文索引和数据库索引的比较中文切分词机制简介:基于词库和自动切
分词算法
的比较具体的安装和使用简介:系统结构介绍和演示
wangzhun0129
·
2013-12-20 11:00
Lucene
全文检索
[转]关于MMSEG
分词算法
转自:http://hi.baidu.com/catro/item/5c76247c0ff6a9376f29f6edMMSEG是中文分词中一个常见的、基于词典的
分词算法
(作者主页:http://chtsai.org
bjzhkuang
·
2013-12-11 14:00
mmseg
分词
算法
[转]关于MMSEG
分词算法
转自:http://hi.baidu.com/catro/item/5c76247c0ff6a9376f29f6ed MMSEG是中文分词中一个常见的、基于词典的
分词算法
(作者主页:http://
bjzhkuang
·
2013-12-11 14:00
msseg 分词 算法
切分歧义字段的综合性分级处理方法
北京大学计算语言学研究所讨论班, 99.4.13 孙 斌 北京大学计算语言学研究所 (*)在这次讨论班要报告的内容: 一、 汉语自动分词的必要性、困难、分词系统的指标 二、 自动
分词算法
的分类
bjzhkuang
·
2013-12-03 10:00
分词 歧义切分
三种中文
分词算法
优劣比较【转】
=============================================================================== 转自: 作者:刀剑笑(Blog:http://blog.csdn.net/jyz3051) Email:jyz3051 at yahoo dot com dot cn('at'请替换成'@','dot'请替换成'.' ) =====
bjzhkuang
·
2013-11-29 13:00
分词算法
2014.12.21nlpir ictclas中文分词系统发布
我们拟于2013年12月20日,在北京理工大学召开ICTCLAS的分词用户大会,发布最新版本,ICTCLAS的作者张华平博士将莅临宣讲
分词算法
的原理,并集中培训分词在Windows,Linux下C/C#
灵玖lingjoin
·
2013-11-27 16:00
用户
Data
中文分词
博士
新版本
试着写 搜索算法-- 最大逆向匹配
分词算法
最近想试着自己实现一些搜索算法,受到http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation这位大湿的一点启发,准备用JAVA把算法实现了一遍,代码写的有些简单,请各位大神指正, 正向最大匹配法算法思想如下所示:(注:以上最大匹配算法图来自于詹老师讲义)逆向匹配法思想与正向一样,只是从右向左切分,这里举
songjinbin
·
2013-11-09 21:00
java
搜索
分词
中文分词
search-engine.pdf二,mmseg,一个中文分词实现,转自:http://leeing.org/2009/11/01/mmseg-chinese-segmentation-algorithm/MMSEG中文
分词算法
dong976209075
·
2013-10-30 16:00
浅析常用
分词算法
的比较与设想
与基于理解的
分词算法
和基于统计的
分词算法
相比,基于文本匹配的算法更加通用。
·
2013-10-26 17:35
一周所学习的知识
分词算法
设计的基本原则:1:颗粒度越大越好2:切分结果中非词典词越少越好,单字字典词数越少越好3:总体词数越少越好几种方法:正向最大匹配法、逆向最大匹配法、双向最大匹配法(选取正向和逆向的最优的那一个)
fudum
·
2013-10-14 14:00
对Python中文分词模块结巴
分词算法
过程的理解和分析
结巴分词是国内程序员用python开发的一个中文分词模块,源码已托管在github,地址在:https://github.com/fxsjy/jieba作者的文档写的不是很全,只写了怎么用,有一些细节的文档没有写.以下是作者说明文件中提到的结巴分词用到的算法:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径,找出基于词频
rav009
·
2013-09-30 15:00
C#
分词算法
:正向、逆向、双向最大匹配算法
分词算法
的正向和逆向非常简单,设计思路可以参考这里:中文分词入门之最大匹配法我爱自然语言处理http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation
butaixianran
·
2013-09-25 11:00
C#
分词
分词算法
最大匹配
C#汉字转拼音,自动识别多音字,带声调,提供正向、逆向、双向
分词算法
的小程序
用C#写了个汉字转拼音的小工具,和网上大部分工具不同,这个能通过
分词算法
,自动识别多音字,并且提供声调,可开可关。比如,用"银行行不行行家说了算"举例,如果转拼音却不能识别多音字,就惨了。
butaixianran
·
2013-09-25 01:00
C#
分词
词库
汉字转拼音
声调
正向最大匹配中文
分词算法
中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。 在这里我想介绍一下中文分词的一个最基础算法:最大匹配算法 (MaximumMatching,以下简称MM算法) 。MM算法有两种:一种正向最大匹配,一种逆向
songjinbin
·
2013-09-20 22:00
中文
分词算法
之最大正向匹配算法(Python版)
最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法,分为正向和逆向,原理都是一样的。正向最大匹配算法,故名思意,从左向右扫描寻找词的最大匹配。首先我们可以规定一个词的最大长度,每次扫描的时候寻找当前开始的这个长度的词来和字典中的词匹配,如果没有找到,就缩短长度继续寻找,直到找到或者成为单字。实例:S1="计算语言学课程是三个课时",设定最大词长MaxLen=5,S2=""字典中含有三个词:[
niuox
·
2013-09-06 17:18
Python
自然语言处理
中文
分词算法
之最大正向匹配算法(Python版)
最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法,分为正向和逆向,原理都是一样的。正向最大匹配算法,故名思意,从左向右扫描寻找词的最大匹配。首先我们可以规定一个词的最大长度,每次扫描的时候寻找当前开始的这个长度的词来和字典中的词匹配,如果没有找到,就缩短长度继续寻找,直到找到或者成为单字。实例:S1="计算语言学课程是三个课时",设定最大词长MaxLen=5 ,S2=""字典中含有三个词:
niuox
·
2013-09-06 17:00
最大正向逆向
分词算法
以下内容转载自新浪博客 http://blog.sina.com.cn/s/blog_53daccf401011t74.html
分词算法
设计中的几个基本原则: 1、颗粒度越大越好:用于进行语义分析的文本分词
zy3381
·
2013-09-06 11:00
算法
关于字典树的一些常用知识
一、基本构造Trie树是搜索树的一种,来自英文单词"Retrieval"的简写,可以建立有效的数据检索组织结构,是中文匹配
分词算法
中词典的一种常见实现。
wangyang1354
·
2013-08-04 15:00
数据结构
算法
性能优化
发布一个敏感词过滤的小项目
实现原理采用红黑树来存储敏感词汇列表,采用全
分词算法
来检测敏感词。
不必在乎朕是谁
·
2013-07-29 17:00
python
敏感词
使用织梦开源的
分词算法
库编写的YII获取分词扩展
在编辑文章中,很多时候都需要自动根据文章内容获取关键字的功能,因此,本文主要是说明如何在yii中使用织梦开源的
分词算法
编写一个独立的扩展,可以在不同的模块中使用,步骤如下:1到这里下载其他朋友整理的织梦
分词算法
库
泉眼无声溪细流
·
2013-07-21 16:00
double-array
Double-Array详解2011-09-2815:22 1044人阅读 评论(7) 收藏 举报badge算法数据结构c工具存储Trie结构是模式匹配中经常用到的经典结构,在字符串处理中发挥着重要的作用,比如
分词算法
pi9nc
·
2013-06-18 22:00
php实现自动获取生成文章主题关键词功能的深入分析
要实现自动获取关键词的功能,大概可以分成三步1,通过
分词算法
将标题和内容分别进行分割,提取出关键词和频度。当前主要的两个算法是中科院的ICTCLAS和隐马尔可夫模型。但这两个
·
2013-06-03 14:22
IK的整个分词处理过程
首先,我们要实例化一个IKAnalyzer,它有一个构造方法接收一个参数isMaxWordLength,这个参数是标识IK是否采用最大词长分词,还是采用最细粒度切分两种
分词算法
。
fengbin2005
·
2013-06-01 16:00
ik分词
MMSEG
分词算法
MMSEG是中文分词中一个常见的、基于词典的
分词算法
(作者主页:http://chtsai.org/index_tw.html),简单、效果相对较好。
stormbjm
·
2013-05-30 17:00
漫话中文自动分词和语义识别 - 中文
分词算法
记得第一次了解中文
分词算法
是在Google黑板报上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。
guixunlong
·
2013-05-23 22:00
中文
分词算法
介绍
另一个从右向左切分,这里拿逆向匹配法举例子:输入例句:S1=”计算语言学课程有意思”;定义:最大词长MaxLen=5;S2=”“;分隔符=“/”;假设存在词表:…,计算语言学,课程,意思,…;最大逆向匹配
分词算法
过程如下
guixunlong
·
2013-05-23 21:00
中文分词
中文
分词算法
代码大全
做中文搜索,关键词提取,文档分类都离不开中文分词,能用的代码包有如下单字切分sphinx只要把min_word_len设置为1,并配置charset_table,默认就是单字切分,lucene用StandardAnalyzerCJKAnalyzerlucene自带,两两分词,就是把ABCD分成AB,BC,CD3段PaodingAnalyzer开源,可以用于lucenehttp://code.goo
[email protected] (鲁塔弗)
·
2013-05-07 00:00
中文分词
算法
代码大全
中文
分词算法
代码大全
做中文搜索,关键词提取,文档分类都离不开中文分词,能用的代码包有如下单字切分sphinx只要把min_word_len设置为1,并配置charset_table,默认就是单字切分,lucene用StandardAnalyzerCJKAnalyzerlucene自带,两两分词,就是把ABCD分成AB,BC,CD3段PaodingAnalyzer开源,可以用于lucenehttp://code.goo
[email protected]
(鲁塔弗)
·
2013-05-06 16:00
算法
代码
中文分词
php实现自动获取生成文章主题关键词功能-简易分词
要实现自动获取关键词的功能,大概可以分成三步 1,通过
分词算法
将标题和内容分别进行分割,提取出关键词和频度。当前主要的两个算法是中科院的ICTCLAS和隐马尔可夫
yuxianhua
·
2013-04-26 16:00
PHP
基于Java的全文索引引擎Lucene简介
基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基于词库和自动切
分词算法
的比
lyacct
·
2013-04-11 14:00
apache
Lucene
全文检索
漫话中文自动分词和语义识别
阅读更多记得第一次了解中文
分词算法
是在Google黑板报上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。
yucang52555
·
2013-01-29 12:00
分词
中文分词
语义识别
人名
歧义
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他