E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
ictclas
ICTCLAS
2011_JNI接口-整体介绍
中科院的分词工具
ICTCLAS
(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)2011版,汉语词法分析系统
ICTCLAS
主要功能包括中文分词
jazywoo123
·
2013-04-18 11:00
中科院分词
ICTCLAS
汉语分词系统简单配置
汉语分词一直来说都是进行文本分析的瓶颈,这里介绍一个汉语分词系统
ICTCLAS
,全球很受欢迎的汉语分词开源系统,曾获得首界国际分词大赛综合排名第一,国家973评测第一名;支持词典,多级词性标注,支持人名
jazywoo123
·
2013-04-18 11:00
[置顶]
ICTCLAS
2013 的使用方法
先看看他的官方介绍吧:NLPIR汉语分词系统(又名
ICTCLAS
2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。
hellonlp
·
2013-04-12 13:00
使用继续完善前人写的文章:使用
ICTCLAS
JAVA版(
ictclas
4j)进行中文分词
一、
ICTCLAS
的介绍中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统
ICTCLAS
(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem
luojinping
·
2013-04-11 15:00
java
技术
关于使用中文分词工具
ICTCLAS
2013 Java版本乱码的问题
中文分词工具
ICTCLAS
2013Java版本的使用什么的我就不罗嗦了,不知道怎么使用的点这里点击打开链接。我的eclispe的textfileencoding是GBK的。这个也就不废话了。
hellonlp
·
2013-04-08 10:00
ICTCLAS
2013 Java版本的使用方法
先看看他的官方介绍吧:NLPIR汉语分词系统(又名
ICTCLAS
2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。
warrioR_wx
·
2013-04-07 17:12
NLP
java
[置顶]
ICTCLAS
2013 Java版本的使用方法
先看看他的官方介绍吧:NLPIR汉语分词系统(又名
ICTCLAS
2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。
hellonlp
·
2013-04-07 17:00
基于
ICTCLAS
分词器实现自己的Lucene Analyzer
首先要说明了是,本文采用的
ICTCLAS
分词器为:2011版本的windows32位JNI,Lucene版本为3.6.1.
sbp810050504
·
2013-03-30 11:25
Lucene
analyzer
ictclas
基于
ICTCLAS
分词器实现自己的Lucene Analyzer
首先要说明了是,本文采用的
ICTCLAS
分词器为:2011版本的windows32位JNI,Lucene版本为3.6.1.众所周知的是做中文信息处理时,Lucene自带的分词器往往是不被我们所采用的,这时候
sbp810050504
·
2013-03-30 11:25
Lucene
Analyzer
ICTCLAS
搜索引擎
NLP开源软件
一、分词1、
ICTCLAS
http://www.
ictclas
.org/包含分词、词性标注功能,C++编写,提供Java借口,业界比较出名。
xuh5156
·
2013-03-21 10:00
c#中文分词学习材料
ICTCLAS
Sharp
ICTCLAS
分词系统简介(9)词库扩充Sharp
ICTCLAS
分词系统简介(8)其它Sharp
ICTCLAS
分词系统简介(7)OptimumSegmentSharp
ICTCLAS
caiye917015406
·
2013-03-04 16:00
c++ 中文分词介绍
主要参考网站是oschina里面收录的内容:中科院中文分词
ICTCLAS
这个据说效率挺高,但不是纯开源版本,里面有个文章12年7月1日失效,就是由于授权协议失效,所以要用到这个类库的时候要小心了,当然你可以购买版权
zhulinu
·
2013-03-03 14:00
imdict-chinese-analyzer
imdict-chinese-analyzer是imdict智能词典的智能中文分词模块,算法基于隐马尔科夫模型(HiddenMarkovModel,HMM),是中国科学院计算技术研究所的
ictclas
中文分词程序的重新实现
nuoline
·
2013-02-25 18:16
搜索引擎技术
java程序打包成jar文件(自己实践和查网页解决,以中科院分词工具
ICTCLAS
5.0 为例)
一、打包过程:右击工程>Export>Java>Runnable JAR File>Launch Configuration中要选择该工程的主类(即入口)。最后打包为foursearch.jar。 二、还要将配置文件放在正确的位置,在初始化之前设置变量String argu = new File("").getAbsolutePath()+"
liujunhui1988
·
2013-01-23 10:00
打包成jar文件
中英文文本预处理软件、工具和算法
1.中文分词、词性标注中科院:
ictclas
http://www.
ictclas
.org/sub_1_1.html具体使用方面看他里面的例子及文档很详细。突出功能是分词功能,还有命名实体识别功能。
zzxian
·
2012-12-21 21:00
几款开源的中文分词系统
1、
ICTCLAS
�C全球最受欢迎的汉语分词系统中文词法分析是中文信息处理的基础与关键。
·
2012-11-13 17:18
Lucene下分词工具的学习探讨
在网上找到了两种分词器,ansj和imdict,本质上没有什么区别,都是用采用
ICTCLAS
的核心。个人觉得ansj要更好一些,主要是学习的案例要多一些,好学
sbp810050504
·
2012-11-13 10:04
Lucene
分词
分词
java分词
Lucene中文
Lucene下分词工具的学习探讨
在网上找到了两种分词器,ansj和imdict,本质上没有什么区别,都是用采用
ICTCLAS
的核心。个人觉得ansj要更好一些,主要是学习的案例要多一些,好学
sbp810050504
·
2012-11-13 10:04
分词
Java分词
Lucene
分词
搜索引擎
Java中文分词器Ansj
Java中文分词器AnsjAnsj是一个开源的Java中文分词工具,基于中科院的
ictclas
中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。介绍一下Ansj!
howareyoutodaysoft
·
2012-11-10 11:00
ansj
中文分词器
不了了之
不了了之之了之
开源 Java 中文分词器 Ansj 作者孙健专访
Ansj是一个开源的Java中文分词工具,基于中科院的
ictclas
中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。
nanjingjiangbiao_T
·
2012-11-05 13:00
中文分词器
开源 Java 中文分词器 Ansj 作者孙健专访
Ansj是一个开源的Java中文分词工具,基于中科院的
ictclas
中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。
blogdevteam
·
2012-11-05 13:00
专访
中科院分词
ICTCLAS
5.0 配置错误处理
中科院分词
ICTCLAS
5.0 配置错误处理 (已上传) 将rar文件解压后,将文件中的所有内容,放入工程的bin文件下。
李小抽SuperITGirl
·
2012-10-31 23:00
搜索引擎
信息检索
配置文件
自然语言处理技术
分词
C++ 调用
ICTCLAS
接口(Linux环境)
1.下载
ICTCLAS
包,解压,放到主程序目录。
glp_hit
·
2012-10-25 09:00
Java通过JNI调用
ICTCLAS
中文分词包的方法
1)从网络上下载
ICTCLAS
分词包的JavaJNI版本
ICTCLAS
官方网站为:http://
ictclas
.org/
ICTCLAS
2011_Linux_32_jni下载地址为:http://
ictclas
.org
leeshuqing
·
2012-10-07 06:00
java
exception
windows
String
api
jni
php实现自动获取生成关键词功能
当前主要的两个算法是中科院的
ICTCLAS
和隐马尔可夫模型。但这两个
·
2012-09-25 22:00
PHP
介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词
在这里说分词有点老生常谈了.的确.中文分词已经非常成熟了.但是在实体名识别上一直是中文分词的软肋.最近通过对
ictclas
的学习,和自己的总结
ansjsun
·
2012-09-14 13:00
java
中文分词
Java中文分词
人名识别
ICTCLAS
2012分词库在C环境下的使用
最近帮同学做一个数据库搜索比较统计功能的项目。项目流程大概如下:(一)抓取信息源,生成数据库。(二)提取数据库中的中文信息。(三)将中文信息进行分词操作。(四)利用tf-idf算法统计对文本中得词进行加权统计。(五)利用加权统计结果获得相似度高的文件组。(六)将相似度相关的文件组利用图形方式描述并且关联出来,看到直观的统计效果。这里顺便说一句。在做第二步的时候,本来想写个c语言的程序提取xml文件
gaoxin1076
·
2012-09-13 13:00
c
数据库
正则表达式
api
null
文档
ictclas
4j bug总结
1.漏字 Eg: 林心如主演的倾世王妃 分词结果为:林如/nr 主演/v 的/u 倾/v 世/ng 王妃/n 漏掉了“心”字 解决办法:将PosTagger.java中personRecognize方法里的如下if语句直接注释掉 if (sn.getPos() < 4 && unkn
tianyalinfeng
·
2012-09-05 09:00
Tcl
lucene smartcn原理
Smartcn分词器是
ictclas
简化功能的java版 Smartcn分词三步:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。例如:“他说的确实在理”这句话。
san_yun
·
2012-08-30 10:00
Lucene
Totoro中文分词第二版上线啦
自己想了好多.参考了好多.主要参考了
ictclas
.在这里特别感谢 @小李飞刀 对我的无私帮助. 首先你必须明白 1.他是用java写的.
ansjsun
·
2012-08-12 17:00
Lucene
一些分词中用到的公式-参考
ictclas
//计算平滑系数公式 //平滑参数 dSmoothingPara = 0.1 //设置当前节点的频度,如果是已知词性,直接使用频度 dCurFreqency //一个参数 static int MAX_FREQUENCE = 2079997; //Two linked Words frequency dTemp = (double) 1 / MAX_FREQUENC
ansjsun
·
2012-08-08 11:00
Tcl
Java中如何模拟指针操作,以迁移C++代码
1.前言 前段时间做了一项重要的工作,就是将原来开源的
ICTCLAS
的C++代码,全部迁移到了Java语言重新实现,在迁移完成以后,初步测试没有啥大问题,在此过程中得到了一点小小的经验,特记录下来,以供大家参考
liujunsong
·
2012-07-04 17:00
java
数据结构
c
算法
ictclas
ictclas
的java改进版本v0.2
因为本人平常时间也很紧张,本想把
ictclas
的代码改写出第一版本以后, 就能够将此事放下,让有兴趣的人继续进行。
liujunsong
·
2012-07-02 23:00
java
中文分词
ictclas
中文分词
ictclas
的Java改造版本
发现中科院提供的
ictclas
工具是比较不错的。 可惜没有官方正式的java版本,有一个网友sinbo自己改写了一个java版本。 但在使用过程中发现问题很多。
liujunsong
·
2012-06-14 23:00
java
数据结构
ictclas
[转]中科院分词工具
ICTCLAS
Java JNI接口
ICTCLAS
,网址:http://www.
ictclas
.org中科院计算所
ICTCLAS
5.0
ICTCLAS
的含义是:InstituteofComputingTechnology,ChineseLexicalAnalysisSystem
chenwq
·
2012-06-04 15:00
java
CLucene加入
ICTCLAS
中文分词
最近,我在开发桌面搜索软件,其中桌面搜索最核心的部分就是全文检索。之前已经完成了一个初始版本。全文检索是使用的中科院计算所郭博士的Firtex,后来有位老师说Firtex最近没人在维护,建议使用CLucene,于是我老板就提议再开发另一个版本——CLucene版的桌面搜索。CLucene是C++版的Lucene,提供全文检索的功能。在网上找了部分资料,主要都是如何在CLucene中加入中文分词。于
wzsy
·
2012-05-29 16:00
windows
linux
Lucene
全文检索
token
character
4款开源的中文分词系统
1、
ICTCLAS
– 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了
tiansoft
·
2012-05-24 10:00
中文分词
ICTCLAS
2011 java UnsatisfiedLinkError
ICTCLAS
2011.
ICTCLAS
_Init([BI)Z
http://hi.baidu.com/%C9%C1%BF%CD%B0%A2%B7%B2%CC%E1/blog/item/c3084489820f278aa4c272f9.html出现的问题如图上图所示
ICTCLAS
_InitExceptioninthread"main"java.lang.UnsatisfiedLinkError
memray
·
2012-05-14 23:00
Sharp
ICTCLAS
1.1版
Sharp
ICTCLAS
1.0由吕震宇老师根据中科院计算所开源版C++改写成的C#版。
superhackerzhang
·
2012-05-06 19:00
多线程
c
测试
C#
语言
中科院分词lib
ICTCLAS
2011部署 日志
首先系统装的是 CentOS 5 64bit # lsb_release -a <!-----> 使用的分词是包 Linux-64bit-JNI 将原分词程序weiboDustAPI.jar包后 放入web工程, Linux-64bit-JNI的源包全部放到tomcat /
blueyanghualong
·
2012-05-03 16:00
Tcl
paoding分词工具的字典如何构建
在调研了mmseg4j,
ictclas
4j(imdict和
ictclas
4j属于一类,只不过其为了效率去掉了
ictclas
4j的命名实体识别部分),IKAnalyzer
单眼皮大娘
·
2012-05-02 16:00
分词
paoding
词典结构
c# 调用
ictclas
.dll出现的异常
最近因需要
ictclas
,特意研究了一下,并进行试用。
superhackerzhang
·
2012-04-14 19:00
多线程
String
C#
文档
dll
语言
mmseg4j的字典数据结构(版本1.8.5)
mmseg4j采用key-tree的形式存储字典数据结构,这有点类似中科院的
ictclas
4j的字典结构,
ictclas
4j的字典结构含有6768个字块(好像是这么
单眼皮大娘
·
2012-04-12 18:00
分词
mmseg4j
字典结构
中科院分词系统的大致流程
注:本文只是个人阅读
ictclas
4j的一些总结,如有不正确的地方欢迎指出 ictalas4j用到的字典主要是下面的三个
单眼皮大娘
·
2012-03-26 15:00
系统
WVTool和分词程序相结合
实现wvtool中文功能要implement WVTTokenizer, TokenEnumeration接口 写道 package
ICTCLAS
.vsm
jyjsjd
·
2012-03-22 20:00
tool
Java语言下
ICTCLAS
分词系统的bug问题
研究文本聚类,用的是
ICTCLAS
的分词系统。结果在处理文本的时候,会出现崩溃。 我起初以为是文本读取的问题,后来发现不是的。
sbp810050504
·
2012-03-16 11:30
jni
分词
休闲
ictclas
程序崩溃
Java语言下
ICTCLAS
分词系统的bug问题
研究文本聚类,用的是
ICTCLAS
的分词系统。结果在处理文本的时候,会出现崩溃。我起初以为是文本读取的问题,后来发现不是的。
sbp810050504
·
2012-03-16 11:30
JNI
休闲
分词
NLP&ML
对于
ictclas
我真是无力吐槽了
虽然它给我们带来了很多便利,但是你老是改来改去也太坑爹了吧?!啊?! 2011版本的出来没多久就有修改版,其实这也就算了,修改bug也是为我们用户负责。 可是你为什么这一年里出来3个版本差别怎么就那么大呢?! 我做java开发的,如果你是在不愿意搞个java版本就算了吧。 何必弄出来折腾人呢。 其实这我也能忍受,但是你能不能把文档写清楚点?! 不要用那些不土不洋的英文好了吗? 如
jyjsjd
·
2012-03-13 14:00
java
中科院分词工具
ICTCLAS
Java JNI接口
ICTCLAS
,网址:http://www.
ictclas
.org中科院计算所
ICTCLAS
5.0
ICTCLAS
的含义是:InstituteofComputingTechnology,ChineseLexicalAnalysisSystem
smilethat
·
2012-03-05 12:00
libstdc++.so.5: cannot open shared object file: No such file or directory
项目中要用到分词系统,最后采用中国科学院研制的汉语词法分析系统
ICTCLAS
:官网: http://
ictclas
.org/index.html 环境:Fedora + jdk1.6
ironurbane
·
2012-02-23 10:00
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他