E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
ictclas
中科院
ICTCLAS
中文分词工具C++源码
[
ICTCLAS
]中科院
ICTCLAS
中文分词工具C++源码[复制链接] jink2005jink2005当前离线积分19873精华0帖子2521UID3管理员贡献60448金钱18588爱思威望12
suirosu
·
2012-02-02 10:00
ictclas
4j调整
Ictclas
4j在处理一些文档片段时候,会报如下异常: Exception in thread "main" java.lang.NullPointerException
summerbell
·
2012-01-17 17:00
Tcl
ICTCLAS
.NET——给C/C++程序写.NET wrapper
很多时候想通过.NET调用一些C/C++写的库,但是一直都不知道怎么弄。去网上找了一些资料,大多数是教如何通过托管C++和非托管C++的混合编程来完成C/C++的的类库的.NETWrapper。 有的时候用C#来实现一个功能的时候,可能要调用windowsapi,往往都是到网上现查代码,然后粘过来使用,没有细研究到底是怎么做到的。最近一个朋友用到分词,所以就研究了一些中科院提供的中文分词软件,详情
小橋流水
·
2012-01-06 01:00
ICTCLAS
50添加注释
package
ICTCLAS
.I3S.AC; public class
ICTCLAS
50 { /****************************************
jyjsjd
·
2011-12-16 14:00
Tcl
Ictclas
的一个bug
SegTag tag=new SegTag(4); String str="在最新的研究中,美国威斯康星大学麦迪逊分校的Brad Singer和加州州立工业大学的Kenneth Hoffman分析了来自塔希提岛(位于南太平洋)和德国西部的古代熔岩流(lava flow),以研究地球磁场过去的模式。"; System.out.println(str); SegR
summerbell
·
2011-12-15 17:00
Tcl
ICTCLAS
2011免费发布
请注意,最新版本的下载地址为【注意,需要点击该链接打开页面之后,再行下载】:http://cid-51de2738d3ea0fdd.office.live.com/self.aspx/.Public/
ictclas
2011
·
2011-11-15 11:00
Tcl
Ubuntu下
ICTCLAS
JNI的使用
首先下载
ICTCLAS
2011_Linux_32_jni ,解压后是
ICTCLAS
50_Linux_RHAS_32_JNI文件夹。
summerbell
·
2011-11-14 17:00
ubuntu
OneMain
import org.
ictclas
4j.bean.SegResult; import org.
ictclas
4j.segment.SegTag; public class OneMain
summerbell
·
2011-10-24 17:00
main
ICTCLAS
2011_JNI学习笔记-
ICTCLAS
_ImportUserDictFile及
ICTCLAS
_SaveTheUsrDic接口
1、int
ICTCLAS
_ImportUserDictFile(byte[] sPath, int eCodeType)接口: * Method:&
andyliuxs
·
2011-09-30 09:00
import
ICTCLAS
2011_JNI学习笔记-
ICTCLAS
_FileProcess接口
boolean
ICTCLAS
_FileProcess(byte[] sSrcFilename, int eCodeType, int bPOSTagged, byte[]sDestFilename
andyliuxs
·
2011-09-29 22:00
process
ICTCLAS
2011_JNI学习笔记-
ICTCLAS
_SetPOSmap及
ICTCLAS
_ParagraphProcess接口
1、int
ICTCLAS
_SetPOSmap(int nPOSmap) * Method:
andyliuxs
·
2011-09-29 21:00
process
ICTCLAS
2011_JNI学习笔记-
ICTCLAS
_Init及
ICTCLAS
_Exit接口
ICTCLAS
_Init及
ICTCLAS
_Exit接口之所以放在一块是因为,无论在什么程序下,这两个接口都应该被调用。
andyliuxs
·
2011-09-29 21:00
学习笔记
ICTCLAS
2011_JNI学习笔记-eclipse部署
这里首先将
ICTCLAS
的提供的JNI版本导入Eclipse工程下以便以后的开发,部署很简单:1)新建一个Java工程,将
ICTCLAS
提供的最重要的4个文件一并拷贝到工程目录下:Data目录:主要存放系统自带的各个词典文件
andyliuxs
·
2011-09-29 21:00
eclipse
ICTCLAS
2011_JNI接口之学习笔记-整体介绍
最近因为实验需要中文分词工具,所以就学习了下中科院的分词工具
ICTCLAS
(Institute of Computing Technology,Chinese Lexical Analysis System
andyliuxs
·
2011-09-29 20:00
学习笔记
双数组trie
找了好几个分词系统,比如张华平老师的
ICTCLAS
、吕震宇老师用c#改写的
ICTCLAS
版本、KTDictSeg分词系统V1.3.01和清华王小飞写的双数组trie树中文分词程序。
lhf1985314
·
2011-09-15 10:46
trie
算法
string
encoding
c
优化
ICTCLAS
5
搬出好久不用的程序,3.0的版本已经更新到5.0了,加了个eCodeType和带返回值的方法,更标准了。还有一个user.lic授权文件。
QIBAOYUAN
·
2011-09-07 10:00
黄聪:
ICTCLAS
学习文档
接口文档
ICTCLAS
2011接口文档
ICTCLAS
2009接口文档 ICTPOS3.0 词性标注集
·
2011-08-29 21:00
Tcl
ictclas
4j for lucene analyzer,
原文出处:http://blog.chenlb.com/2009/01/
ictclas
4j-for-lucene-analyzer.html 在 lucene 的中文分词域里,有好几个分词选择
mr_lonely_hp
·
2011-08-29 17:00
Lucene
PHP中文分词的简单实现代码分享
我使用的分词工具是中科院计算所的开源版本的
ICTCLAS
。另外还有开源的Bamboo,我随后也会对该工具进行调研。
·
2011-07-17 12:38
(转)Lucene与搜索引擎技术(Analysis包详解)
算法:基于机械分词1-gram,2-gram,HMM(如果使用
ICTCLAS
接口的话)数据结构:部分源码用到了Set,HashTable,HashMap认真理解TokenLucene中的Analysis
lwm_1985
·
2011-07-13 16:00
关于中科院
ICTCLAS
4J的一点小改动
关于中科院
ICTCLAS
4J的一点小改动
ICTCLAS
是中科院计算所出品的中文分词程序包,在国内一直有着良好的口碑和很高的使用率。
nothing的学习记录
·
2011-06-23 12:00
Paoding, Ik, Jeasy,
Ictclas
4j分词工具
引:http://blog.sina.com.cn/s/blog_52471a510100m7s8.html 1.Paoding 版本: 2.0.4 实现类: PaodingAnalyzer 依赖包: lucene 2.4 使用方法: 主要通过lucene的接口实现, Analyser#tokenStream方法 切
bluepeer
·
2011-06-21 14:00
eclipse
Blog
F#
Lucene
ICTCLAS
备忘
把时间修改为2009年,也就是让程序进入正确的流程,直接用f9往后跳,通过与错误流程对比,一下就找到了关键跳转所在100015930F87B10F0000JA1000254A。先把时间修改为2010,进入错误的流程,找到关键跳,把0F87B10F0000全部用nop填充,也就是改为909090909090哈哈,果然程序自动进入正确的流程。阿弥陀佛!接下来更简单了,用ultraedit打开ICTCL
exterminator
·
2011-06-05 14:00
2010
调用
ICTCLAS
5 分词的一点问题
下午用
ICTCLAS
5.0分词的时候,发现了以前没注意过的问题。
ICTCLAS
5.0的库函数比以前的版本少了,参数也发生了一些变化。
liuintermilan
·
2011-04-28 19:00
ios
String
user
File
null
存储
ICTCLAS
的java接口的Bug
ICTCLAS
的java接口中有这个方法: /** 对一串中文文本进行分词 */ public synchronized native String paragraphProcess(String
fushengfei
·
2011-03-29 15:00
java
jvm
windows
jsp
虚拟机
smartcn优化方案
smartcn,基于HMM模型的一套智能分词器,是
ictclas
的java简化版,原理网上已经能找到,也可以看我前面写的http://blog.csdn.net/lgnlgn/archive/2010/
lgnlgn
·
2011-03-26 16:00
分词
smartcn
使用
ICTCLAS
JAVA版(
ictclas
4j)进行中文分词(附
ictclas
,停用词表,commons-lang-2.4.jar下载地址)
一、
ICTCLAS
的介绍 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统
ICTCLAS
(Institute of Computing Technology
fhqllt
·
2011-03-09 16:00
java
apache
eclipse
bean
asp
ICTCLAS
汉语词性标注集
ICTCLAS
汉语词性标注集 汉语文本词性标注标记集Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。a 形容词 取英语形容词adjective的第1个字母。
fhqllt
·
2011-03-09 11:00
C++
c
C#
F#
J#
ICTCLAS
中科院分词系统
中科院分词系统概述 这几天看完了中科院分词程序的代码,现在来做一个概述,并对一些关键的数据结构作出解释 〇、总体流程 考虑输入的一句话,sSentence="张华平欢迎您" 总体流程: 一、分词 "张/华/平/欢迎/您" 二、posTagging "张/q 华/j 平/j 欢迎/v 您/r" 三、NE识别:人名识别,音译名识
fhqllt
·
2011-03-09 11:00
C++
c
算法
C#
J#
ictclas
相关的中文分词介绍
转载自:http://percyboy.cnblogs.com/中文切词领域,中科院开发的
ICTCLAS
占有重要一席,号称是世界上最好的中文分词系统。
fhqllt
·
2011-03-09 10:00
C++
c
算法
C#
Lucene
Visual Studio 2010 编译C及一个完整的c程序(可在windows与linux(用gcc编译)平台下使用)
中科院分词linux版破解过程 中科院分词linux版破解过程 1,ar -x lib
ictclas
30.a 拆分成对象文件 2,将生成的
ictclas
30.o用ida打开 3, 4,上面的地方是关键
sealbird
·
2011-01-25 13:00
C++
c
windows
linux
C#
单源点最短路径Dijkstra算法的JAVA实现
在城市智能交通中,经常会用到最短路径的问题,比如找最佳的行车路线等,Dijkstra算法做为最经典的求解方法,为我们指明了方向.不过真正想让我了解该算法的原因是在学习
ICTCLAS
的N-最短路径算法,虽然和我们常用的案例有一点区别
yueshuang001
·
2011-01-07 14:00
java
算法
Flash
J#
交通
CLucene加入
ICTCLAS
中文分词
最近,我在开发桌面搜索软件,其中桌面搜索最核心的部分就是全文检索。之前已经完成了一个初始版本。全文检索是使用的中科院计算所郭博士的Firtex,后来有位老师说Firtex最近没人在维护,建议使用CLucene,于是我老板就提议再开发另一个版本——CLucene版的桌面搜索。 CLucene是C++版的Lucene,提供全文检索的功能。在网上找了部分资料,主要都是
sealbird
·
2010-12-08 14:00
linux
windows
SVN
Lucene
全文检索
ICTCLAS
中科院分词系统 代码 注释 中文分词 词性标注
ICTCLAS
中科院分词系统 代码 注释 中文分词 词性标注 http://hi.baidu.com/hupoo/blog/item/a8898044b434514c500ffee3.html2006
liuxinglanyue
·
2010-11-13 09:00
C++
c
算法
C#
J#
ICTCLAS
分词系统Java调用接口在Eclipse中的安装- Java编程
实验环境:JDK1.5、Eclipse3.1、XP操作系统分词系统Java接口解压包:d:/fenci(http://www.nlp.org.cn中查找下载)导入步骤:在Eclipse中新建Java项目,名称为:WordSpli,目录结构如下所示: 右击WordSplit项目,选择“导入”,将弹出导入窗口,选择列表中的“文件系统”,弹出“文件系统”导入窗口,选择相关文件(如下图所示):(注:“选
lengyuhong
·
2010-11-05 14:00
java
eclipse
jdk
thread
exception
Class
【转】开源中文分词软件分析
(商业的有海量、猎兔等,就不放在这里了)名称:计算所汉语词法分析系统
ICTCLAS
这可是最早的中文开源分词项目之一,很多后来的分词项目都参考了他,有中科院计算所开发,网站上有很多相关资源可供研究参考,不过好像
lengyuhong
·
2010-11-05 11:00
java
apache
url
自然语言处理
全文检索
语言
paoding, ik, jeasy,
ictclas
4j 四种切词工具的使用小结
最近因项目需要,对尝试了Paoding, Ik, Jeasy,
Ictclas
4j四种切词工具,现把使用经验小结一下: 测试的字符串是:“在传统意义上的几何学是研究图形的形状大小等性质
bosshida
·
2010-09-30 15:00
apache
eclipse
F#
Google
Lucene
使用
ICTCLAS
JAVA版(
ictclas
4j)过程中的错误及其解决
1.在Dictionary.java里面的getMaxMatch()函数里要注意加上对wis的判断语句 if(wis != null) 否则有时会报出越界错误。 2.在PosTagger.java里面的computePossibility()函数里要注意将对i的判断语句 i < startPos + length 改为 i < startPos
emily2ly
·
2010-08-20 18:00
java
使用
ictclas
4j过程中产生的内存不足问题及其解决方法
在读取中文pdf文档的内容并对用
ictclas
4j对其进行分词过程中,在读取pdf这一步上面没有问题(即没有报错,可以正确运行,但是会出现一些乱码,这可能是由于pdfbox包的不够完善,可以通过用xpdf
emily2ly
·
2010-08-20 17:00
java
thread
使用
ICTCLAS
JAVA版(
ictclas
4j)进行中文分词(附
ictclas
,停用词表,commons-lang-2.4.jar下载地址)
一、
ICTCLAS
的介绍 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统
ICTCLAS
(Institute of Computing Technology
emily2ly
·
2010-08-20 11:00
java
apache
eclipse
qq
MyEclipse
Python 通过ctypes调用
ICTCLAS
3.0.DLL
调用,封装
ICTCLAS
的部分尽量是写成模块的形式,不要封装成函数,否则容易出 access volation 0xx000,或者是 bSuccess = dll.
ICTCLAS
_ParagraphProcess
·
2010-08-09 13:00
python
60天工作总结
SWT工具(仅仅给自己使用,后来发现不如excel),写ICM模型调优报告 0607-0611 参加网易有道研发工程师笔试,请假三天 0614-0618 请假一周 0621-0625 WEKA+
ICTCLAS
dtxbcsy
·
2010-07-21 11:00
多线程
编程
工作
算法
Excel
有关Lucene的问题(1):为什么能搜的到“中华 AND 共和国”却搜不到“中华共和国”?
回答:我下载了http://
ictclas
.org/Download.html中科院的词做了简单的分析,如果索引的时候“中华人民共和国”被分成了“中华”“人民”“共和国”,而搜索的时候,搜“
pangliyewanmei
·
2010-07-14 14:00
object
api
Lucene
query
文档
单源点最短路径Dijkstra算法的JAVA实现
【IT168 技术文档】在城市智能交通中,经常会用到最短路径的问题,比如找最佳的行车路线等,Dijkstra算法做为最经典的求解方法,为我们指明了方向.不过真正想让我了解该算法的原因是在学习
ICTCLAS
zscomehuyue
·
2010-06-24 13:00
java
算法
Flash
J#
交通
10分钟开始使用
ICTCLAS
Java版——却花了我快一个小时
ICTCLAS
是中科院计算所出品的中文分词程序包,在国内一直有着良好的口碑和很高的使用率。之前一直只有C++的版本提供,而现在C#,Delphi和Java版本已经纷纷出炉。
zzljlu
·
2010-06-17 17:00
java
eclipse
exception
import
Delphi
compilation
lucene smartcn原理
Smartcn分词器是
ictclas
简化功能的java版Smartcn分词三步:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。例如:“他说的确实在理”这句话。
lgnlgn
·
2010-06-13 20:00
ICTCLAS
中科院分词系统 代码 注释 中文分词 词性标注
中科院分词系统概述 这几天看完了中科院分词程序的代码,现在来做一个概述,并对一些关键的数据结构作出解释 〇、总体流程 考虑输入的一句话,sSentence="张华平欢迎您" 总体流程: 一、分词 "张/华/平/欢迎/您" 二、posTagging "张/q 华/j 平/j 欢迎/v 您/r" 三、NE识别:人名识别,音译名识
lzj0470
·
2010-04-30 14:00
C++
c
算法
C#
J#
ICTCLAS
中科院分词系统 代码 注释 中文分词 词性标注
中科院分词系统概述 这几天看完了中科院分词程序的代码,现在来做一个概述,并对一些关键的数据结构作出解释 〇、总体流程 考虑输入的一句话,sSentence="张华平欢迎您" 总体流程: 一、分词 "张/华/平/欢迎/您" 二、posTagging "张/q 华/j 平/j 欢迎/v 您/r" 三、NE识别:人名识别,音译名识
zfsn
·
2010-04-16 15:00
C++
c
算法
C#
J#
ICTCLAS
2010分词工具
计算所汉语词法分析系统
ICTCLAS
中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统
ICTCLAS
(Institute of Computing Technology
tlovet1314
·
2010-04-15 21:00
关于lucene的分词(一)
算法:基于机械分词 1-gram,2-gram,HMM(如果使用
ICTCLAS
接口的话) 数据结构:部分源码用到了Set ,HashTable,HashMap 认真理解Token Lucene
ld_hust
·
2010-04-02 16:00
java
apache
数据结构
算法
Lucene
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他