E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
ictclas
Sharp
ICTCLAS
1.0 发布!
Sharp
ICTCLAS
1.0发布!(转)Sharp
ICTCLAS
1.0发布(感谢工控网发现了一个问题,问题出在字符串比较上,目前已经修正,请重新下载。
刀剑笑
·
2007-12-28 20:00
Sharp
ICTCLAS
分词系统简介(9)词库扩充
Sharp
ICTCLAS
分词系统简介(9)词库扩充(转)1、Sharp
ICTCLAS
中词库的扩充如果对Sharp
ICTCLAS
目前词库不满意的化,可以考虑扩充现有词库。
刀剑笑
·
2007-12-28 20:00
Sharp
ICTCLAS
分词系统简介(8)其它
Sharp
ICTCLAS
分词系统简介(8)其它(转)前文对Sharp
ICTCLAS
中的一些主要内容做了介绍,本文介绍一下Sharp
ICTCLAS
中一些其它考虑,包括事件机制以及如何使用Sharp
ICTCLAS
刀剑笑
·
2007-12-28 20:00
Sharp
ICTCLAS
分词系统简介(7)OptimumSegment
Sharp
ICTCLAS
分词系统简介(7)OptimumSegment(转)上一篇文章说到经过NShortPath计算后,我们得到了数个候选分词方案,那么这么多个候选分词方案是如何最终成为一个分词结果的呢
刀剑笑
·
2007-12-28 20:00
Sharp
ICTCLAS
分词系统简介(6)Segment
Sharp
ICTCLAS
分词系统简介(6)Segment(转)DynamicArray与NShortPath是
ICTCLAS
中的基础类,本人在完成了基础改造工作后,就着手开始对Segment分词进行移植与改造
刀剑笑
·
2007-12-28 20:00
Sharp
ICTCLAS
分词系统简介(5)NShortPath-2
Sharp
ICTCLAS
分词系统简介(5)NShortPath-2(转)在了解了1-最短路径的计算方式后,我们看看N-最短路径的计算。
刀剑笑
·
2007-12-28 20:00
Sharp
ICTCLAS
分词系统简介(4)NShortPath-1
Sharp
ICTCLAS
分词系统简介(4)NShortPath-1(转)N-最短路径中文词语粗分是分词过程中非常重要的一步,而原有
ICTCLAS
中该部分代码也是我认为最难读懂的部分,到现在还有一些方法没有弄明白
刀剑笑
·
2007-12-28 19:00
Sharp
ICTCLAS
分词系统简介(3)DynamicArray
Sharp
ICTCLAS
分词系统简介(3)DynamicArray(转)从前文可以看出,
ICTCLAS
中DynamicArray类在初步分词过程中起到了至关重要的所用,而
ICTCLAS
中DynamicArray
刀剑笑
·
2007-12-28 19:00
Sharp
ICTCLAS
分词系统简介(2)初步分词
Sharp
ICTCLAS
分词系统简介(2)初步分词(转)
ICTCLAS
初步分词包括:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。例如:“他说的确实在理”这句话。
刀剑笑
·
2007-12-28 19:00
Sharp
ICTCLAS
分词系统简介(1)读取词典库
Sharp
ICTCLAS
分词系统简介(1)读取词典库(转)
ICTCLAS
分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。
刀剑笑
·
2007-12-28 19:00
实现
ICTCLAS
到C#平台的移植
实现
ICTCLAS
到C#平台的移植(转)在研究了一段时间中科院计算所张华平、刘群所开发的
ICTCLAS
分词系统(Free版)代码后,阅读了大量的相关资料,我开始着手将C++的
ICTCLAS
分词系统移植到
刀剑笑
·
2007-12-28 19:00
天书般的
ICTCLAS
分词系统代码-2
天书般的
ICTCLAS
分词系统代码-2(转)上篇文章《天书般的
ICTCLAS
分词系统代码(一)》说了说
ICTCLAS
分词系统有些代码让人无所适从,需要好一番努力才能弄明白究竟是怎么回事。
刀剑笑
·
2007-12-28 19:00
天书般的
ICTCLAS
分词系统代码-1
天书般的
ICTCLAS
分词系统代码-1(转)
ICTCLAS
分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,该版的Free版开放了源代码,为初学者提供了宝贵的学习材料。
刀剑笑
·
2007-12-28 18:00
Analysis包分析
算法:基于机械分词1-gram,2-gram,HMM(如果使用
ICTCLAS
接口的话)数据结构:部分源码用到了Set,HashTable,HashMap认真理解TokenLucene中的Analysis
fuyangchang
·
2007-06-21 16:00
apache
数据结构
算法
Lucene
ICTCLAS
分词系统研究(十)--后记
Free
ICTCLAS
中文分词系统从2006年3月就开始接触,之后通过研读相关论文和源代码,写了一系列的学习笔记,给很多同样的中文分词爱好者提供了一个可参考的文档资料。
sinboy
·
2007-06-04 14:00
java
数据结构
工作
优化
Blog
测试
ICTCLAS
分词系统研究(九)--对最终结果做优化调整
在研究(八)中,我们得到了最终的分词结果了,好兴奋呀。不过,还有临门一脚不能忘了,对一些特殊情况做处理。主要是对叠词(相邻的两个字或词一样)及个别词性进行合并处理。比如,以“一片片的白云很好看”,他的最终分词结果是: 经过优化后的分词结果:序号分词结果0一/m片/q片/q的/uj白云/n很/d好看/a很显然,“一片片”应该为一个整体,没有拆分的必要,看源代码的调整过程://Adjust the r
sinboy
·
2007-06-04 14:00
优化
ICTCLAS
分词系统研究(八)--生成最终分词结果
经过人名、地名等未登陆词的识别之后,再次生成二叉分词图表,求取N-最短路径。为何再次执行这样的循环,是因为在得到初分结果后又增加了新的节点(比如:人名或地名)到结果链表中,需要再次求取最短路径:经过优化后的二叉分词图表: 12345678910110始##始@张始##始@未##人 1 张@华张@未##人 2 未##人@说 3 华@平 4
sinboy
·
2007-06-04 14:00
优化
ICTCLAS
分词系统研究(七)--未登陆词识别
在研究(六)中,我们经过种种努力,终于得到了梦寐以求的分词结果,我得意的笑得意的笑。。。别急,好戏还在后头呢。我们冷静想一想,前面初分的结果主要都是基于词典库的词条得到的,象人名、地名之类的未登录词(即指该词条不在词典库中)该如何识别呢?典型的象人名,全国上下、古今中外得有多少人名呀,不可能全部做到词库中,必须依照一定的规则和算法对其进行识别,大家可以张华平、刘群的论文《参考基于角色标注的中国人名
sinboy
·
2007-06-04 13:00
c
算法
360
ICTCLAS
分词系统研究(六)--得到初分结果
仍然以“他说的确实在理”为例,经过NshortPath的处理后,我们可以得到N条最短二叉分词路径,如下:初次生成的分词图表: 1234567890始##始 1 他 2 说 3 的的确 4 确确实 5 实实在 6 在在理 7 理 8 末##末初次生成的二叉分词图表: 123456789101112
sinboy
·
2007-06-04 11:00
中科院中文分词系统
ICTCLAS
之人名识别词典分析
前言、请在阅读本文前,先确认已阅读过论文《张华平,刘群.基于角色标注的中国人名自动识别研究》。论文把与人名相关的词分为了15个角色,通过词典查询,可以判断某些文字、词所属角色,然后根据模式匹配找到匹配上的名字。当我分析nr.dct的时候,却发现nr.dct并非完全按照论文所描述的进行的角色划分。以下是我对tag统计后的nr.dct的内容,能够在论文中找到含义的,我标注上了含义。Tag Count:
DanceFire
·
2007-05-13 06:00
c
华为
照片
中科院中文分词系统
ICTCLAS
之CSegment的GenerateWord()详细分析
一、简介这次分析的是
ICTCLAS
中的//Generate Word according the segmentation routebool CSegment::GenerateWord(int **
DanceFire
·
2007-05-13 05:00
优化
算法
工作
正则表达式
代码分析
一个文本检索系统的开发
在开发过程中用到了 网页正文提取,中文分词等技术.我阅读了中科院
ictclas
中文分词系统的源码并参考了实验室的部分程序.下面是其设计实现方面的内容:设计实现Hash散列算法使用的散列方法为ELFHash
caohao2008
·
2007-05-12 19:00
算法
struct
vector
String
搜索引擎
Module
分词系统
ICTClAS
分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。
isiqi
·
2007-04-21 16:00
C++
c
框架
C#
vb
分词系统
ICTClAS
分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。
isiqi
·
2007-04-21 16:00
C++
c
框架
C#
vb
Sharp
ICTCLAS
1.0 发布!
Sharp
ICTCLAS
1.0发布(感谢工控网发现了一个问题,问题出在字符串比较上,目前已经修正,请重新下载。
吕震宇
·
2007-04-18 15:00
中科院中文分词系统
ICTCLAS
之NShortPath代码的详细分析
这两天我开始看
ICTCLAS
的实现代码了,和吕震宇的感觉完全一样,代码真的是糟糕透顶,呵呵,非常同情吕震宇和Sinboy能够那么认真地把那些代码读完。
DanceFire
·
2007-04-17 15:00
数据结构
C++
算法
iterator
output
functor
单源点最短路径Dijkstra算法的JAVA实现
在城市智能交通中,经常会用到最短路径的问题,比如找最佳的行车路线等,Dijkstra算法做为最经典的求解方法,为我们指明了方向.不过真正想让我了解该算法的原因是在学习
ICTCLAS
的N-最短路径算法,虽然和我们常用的案例有一点区别
sinboy
·
2007-04-06 14:00
java
数据结构
算法
null
Integer
Class
我开发的中文分词程序,开源发布
最近吕震宇老师发布了
ICTCLAS
的C#版Sharp
ICTCLAS
。很优秀的中文分词程序。我的这个和它根本不是一个级别的。不过在自己的应用中,估计还是不能直
kwklover
·
2007-03-19 06:00
我开发的中文分词程序,开源发布
最近吕震宇老师发布了
ICTCLAS
的C#版Sharp
ICTCLAS
。很优秀的中文分词程序。我的这个和它根本不是一个级别的。不过在自己的应用中,估计还是不能直接
kwklover
·
2007-03-19 06:00
重拾
ICTCLAS
,继续学习
从去年3月份开始,经过一段时间的认真研究学习
ICTCLAS
,把学习的心得发表在我的BLOG上,引起我很多爱好者的关注,也不断有朋友和我联系,希望共同探讨。
sinboy
·
2007-03-15 14:00
Sharp
ICTCLAS
(测试版)发布了
Sharp
ICTCLAS
(测试版)发布了!下载Sharp
ICTCLAS
(测试版)本版本尚未经过大规模分词测试,存在问题在所难免,如果有什么问题可以将出现问题的句子贴出来,我会尽快改进并发布新的版本。
吕震宇
·
2007-03-15 12:00
Sharp
ICTCLAS
分词系统简介(7)(8)
具体内容请访问我的文章:《Sharp
ICTCLAS
分词系统简介(7)OptimumSegment》《Sharp
ICTCLAS
分词系统简介(8)其它》===全文完===非常高兴在这最后一篇文章写完之时得到了张华平老师的授权
吕震宇
·
2007-03-14 23:00
分词:提高分词准确性的考虑
中科院的
ICTCLAS
的分词流程为:一、分词"张/华/平/欢迎/您"二、posTagging"张/q华/j平/j欢迎/v您/r"三、NE识别:人名识别,音译名识别,地名识别"张/q华/j平/j欢迎/v您
dbigbear
·
2007-01-25 17:00
Lucene-Analysis包分析
算法:基于机械分词1-gram,2-gram,HMM(如果使用
ICTCLAS
接口的话)数据结构:部分源码用到了Set,HashTa
dbigbear
·
2007-01-19 21:00
算法
String
Lucene
Class
input
token
关于在基于Struts构架的Java Web项目中加入
ICTCLAS
分词两点说明
关于在基于Struts构架的JavaWeb项目中加入
ICTCLAS
分词两点说明最近网友看了"在基于Struts构架的JavaWeb项目中加入
ICTCLAS
分词"一文,在实践中出现两个主要问题,根据笔者的试验
cloneiq
·
2006-08-31 17:00
struts
java
web
servlet
exception
开源项目
在基于Struts构架的Java Web项目中加入
ICTCLAS
分词
在基于Struts构架的JavaWeb项目中加入
ICTCLAS
分词在基于Web的搜索引擎中,对文本分词是不可缺少的,本文介绍如何将中科院的
ICTCLAS
分词模块加入到Web项目中,项目结构为JSP+Tomcat
cloneiq
·
2006-08-09 19:00
搜索引擎
开源项目
ICTCLAS
4J源代码示例(-)
题记:经过几个月断断续续的学习,终于把
ICTCLAS
的源代码搞清楚了一部分,关试着用JAVA按原作者的意图实现了一个,目前已经可以实现分词的第一步,但人名、地名和未登录词的处理以及词性标记还没有彻底搞清楚
sinboy
·
2006-07-21 14:00
java
工作
String
Class
import
ICTCLAS
分词系统Java调用接口在Eclipse中的安装
ICTCLAS
分词系统Java调用接口在Eclipse中的安装实验环境:JDK1.5、Eclipse3.1、XP操作系统分词系统Java接口解压包:d:/fenci(http://www.nlp.org.cn
cloneiq
·
2006-07-20 09:00
自然语言理解
分词终于有点进展啦
ICTCLAS
研究了几个月,加了N个晚班之后,现在终于有点眉目啦,
ICTCLAS
4J有也一定的雏形了。 用Java实现分词的第一大步,断句和分词,下一步就是词性标记了。
sinboy
·
2006-06-27 22:00
java
测试
ICTCLAS
分词系统研究(五)--N最短路径
ICTCLAS
和别的分司系统不一样的地方就是于--N最短路径分词算法。所谓N最短路径其实就是最短路径和最大路径的折中,保留前N个最优路径。
sinboy
·
2006-05-19 13:00
数据结构
算法
Blog
ICTCLAS
.dll做网页内容分词的问题
我在使用
ICTCLAS
.dll做网页内容分词的时候,出现一下异常AnunexpectedexceptionhasbeendetectedinnativecodeoutsidetheVM.UnexpectedSignal
我不是张嘎-小兵
·
2006-05-11 13:00
ICTCLAS
分词系统研究(四)--初次切分
经过原子分词后,源字符串成了一个个独立的最小语素单位。下面的初次切分,就是把原子之间所有可能的组合都先找出来。算法是用两个循环来实现,第一层遍历整个原子单位,第二层是当找到一个原子时,不断把后面相邻的原子和该原子组合到一起,访问词典库看它能否构成一个有意义有词组。用数学方法可以做如下描述:有一个原子序列:A(n)(00)//Wordcountisgreaterthan0 m_npWordP
sinboy
·
2006-04-14 11:00
数据结构
String
table
null
delete
buffer
ICTCLAS
分词系统研究(三)--原子切分
ICTCLAS
分词的第一步就是原子分词。但在进行原子切分之前,首先要进行断句处理。
sinboy
·
2006-03-15 11:00
数据结构
手机
三星
ICTCLAS
分词系统研究(二)--词典结构
ICTCLAS
的词典结构是理解分词的重要依据,通过这么一个数据结构设计合理访问速度高效的词典才能达到快速准备的分词的目的。
sinboy
·
2006-03-15 11:00
数据结构
File
table
null
delete
FP
ICTCLAS
分词系统研究(一)
ICTClAS
分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。
sinboy
·
2006-03-12 21:00
java
框架
文档
processing
语言
output
Python学习(三)
继续DiveIntoPython.20、定义类 以FileInfo类的定义为例fromUserDictimportUserD
ictclas
sFileInfo(UserDict):"storefilemetadata"def
任我行
·
2005-10-11 17:00
基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )
自从 小叮咚分词程序发布后,很多软件行业的朋友们都来信索取,因为定位的问题,所以小叮咚的分词程序和
ICTCLAS
的算法完全不同的。 小叮咚的分词程序的定位是为搜索引擎服务的。
lovnet
·
2005-07-13 18:00
算法
工作
搜索引擎
Lucene
基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )
自从 小叮咚分词程序发布后,很多软件行业的朋友们都来信索取,因为定位的问题,所以小叮咚的分词程序和
ICTCLAS
的算法完全不同的。 小叮咚的分词程序的定位是为搜索引擎服务的。
txf2004
·
2005-07-13 18:00
工作
算法
搜索引擎
Lucene
基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )
自从 小叮咚分词程序发布后,很多软件行业的朋友们都来信索取,因为定位的问题,所以小叮咚的分词程序和
ICTCLAS
的算法完全不同的。 小叮咚的分词程序的定位是为搜索引擎服务的。
ihuashao
·
2005-07-13 18:00
算法
工作
搜索引擎
Lucene
基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )
自从小叮咚分词程序发布后,很多软件行业的朋友们都来信索取,因为定位的问题,所以小叮咚的分词程序和
ICTCLAS
的算法完全不同的。 小叮咚的分词程序的定位是为搜索引擎服务的。
accesine960
·
2005-07-13 18:00
算法
工作
搜索引擎
Lucene
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他