E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
ictclas
中文新闻文本分类
参考:http://www.cnblogs.com/CherishFX/p/4005336.html下载搜狗新闻语料库1.下载
ictclas
4j后面的附件中,我有放上
ictclas
4j的源码包
ictclas
4j.zip2
铁头乔
·
2016-12-30 13:51
数据挖掘
NLPIR+Hadoop
这个过程让我经历了焦头烂额,所以记录下来,便于自己查看,也可以帮助有需要的伙伴~1.下载NLPIRNLPIR原名
ICTCLAS
,下载点这里,我下载的是20
monkey131499
·
2016-11-08 14:19
Hadoop
Java
NLPIR/
ICTCLAS
2015 分词系统使用
近期使用了中科院分词系统NLPIR/
ICTCLAS
2016。在2014版本以及之前称为
ICTCLAS
,之后的版本都更名为NLPIR。新版简介如下:词法分析是自然语言处理的基础与关键。
Gatherfly
·
2016-08-25 12:50
自然语言处理
NLPIR Not valid license or your license expired!
都说下载最新的,但是我一直以为是从官网(http://
ictclas
.nlpir.org/)下载。BUT,替换了都不行啊。某一下,我在那个最新的地方,新奇的发现一个URL地址: h
arrow8071
·
2016-07-29 11:00
算法
机器学习
NLP
nlpir的使用
NLPIR的下载地址:http://
ictclas
.nlpir.org/downloadsGitHub的地址:https://github.com/NLPIR-team/NLPIR两个版本有一些不同,本文将分别讲解如何利用
arrow8071
·
2016-07-29 11:57
nlp
Python调用NLPIR/
ICTCLAS
进行文本分词
本文采用搜狗中文语料库mini版的文本数据,共九类(财经、IT、健康、体育、旅游、教育、招聘、文化、军事),每个类别共1990个文本,并在实验前通过.py程序抓取前500个文本数据作为训练集。数据预处理包括文本分词、去停用词、词频统计、特征选择、采用向量空间模型表示文档等。接下的几篇博文将按照这几个歩棸对文本进行预处理。文本分词主要通过Python调用中科院计算所汉语词法分析系统NLPIR/ICT
Junkichan
·
2016-07-11 18:50
Python实战
自然语言处理
NLPIR
自然语言处理之分词器ansj和hanlp介绍
1.ansjansj是
ictclas
(中科院分词)的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的
ictclas
所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(
zhao_rock
·
2016-05-14 09:22
ICTCLAS
汉语词性标注集
ICTCLAS
汉语词性标注集发表于1年前(2014-12-0511:34) 阅读(571) | 评论(0) 2人收藏此文章, 我要收藏赞0
ICTCLAS
汉语词性标注集 汉语文本词性标注标记集 Ag形语素形容词性语素
Real_Myth
·
2016-04-25 09:00
推荐一些在线效率工具汇总(数据分析,舆情监测、图片语义识别等)
推荐一些我经常使用的一些在线的效率工具汇总给大家,大部分是免费的,相当有用的: 1.数据分析相关 1、在线词频、语义、情感分析工具: 图悦:http://www.picdata.cn/ http://
ictclas
.nlpir.org
小y
·
2016-04-22 11:00
[置顶] 商品搜索引擎---分词(插件介绍与入门实例)
本文主要介绍四个分词插件(
ICTCLAS
、IKAnalyzer、Ansj、Jcseg)和一种自己写算法实现的方式,以及一些词库的推荐。
u013142781
·
2016-04-18 20:00
搜索引擎
分词
Python与自然语言处理(二)基于Gensim的Word2Vec
下载地址:http://
ictclas
.nlpir.org/newsdownlo
monkey131499
·
2016-04-12 10:29
Java
NLP
Python与自然语言处理(二)基于Gensim的Word2Vec
下载地址:http://
ictclas
.nlpir.org/newsdownlo
monkey131499
·
2016-04-12 10:00
java
python
自然语言处理
nlpir
word2vec
Theano(3) 通用RNN
#coding=utf-8importtheanoimportnumpyasnpfromtheanoimporttensorasTfromcollectionsimportOrderedD
ictclas
sRNN
锦堇年
·
2016-03-22 21:04
python
全文检索引擎Solr系列——整合中文分词组件mmseg4j
能够和Solr集成的中文分词组件有很多,比如:mmseg4j、IkAnalyzer、
ICTCLAS
等等。各有各的特点。这篇文章讲述如何整合S
makang110
·
2016-03-18 17:00
Solr
NLPIR(
ICTCLAS
2016)对词频统计功能
功能:利用NLPIR(
ICTCLAS
2016)进行中文分词,并进行词频统计。
竹聿Simon
·
2016-03-16 19:29
Java
中文分词
NLPIR(
ICTCLAS
2016)对文本进行分词
功能:利用NLPIR对文本进行分词,并将分词结果导出为文本。备注:win764位系统,netbeans编程基本代码框架参见我的另一篇文章:NLPIR分词功能代码实现:packagecwordseg;importjava.io.UnsupportedEncodingException;//importutils.SystemParas;importcom.sun.jna.Library;import
竹聿Simon
·
2016-03-15 21:02
Java
中文分词
NLPIR(
ICTCLAS
2016)分词系统添加用户词典功能
备注:win764位系统,netbeans编程基本代码框架参见我的另一篇文章:NLPIR分词功能代码实现:packagecwordseg;importjava.io.UnsupportedEncodingException;//importutils.SystemParas;importcom.sun.jna.Library;importcom.sun.jna.Native;/****功能:添加/
竹聿Simon
·
2016-03-15 20:53
Java
中文分词
NLPIR(
ICTCLAS
2016)提取关键词功能
NLPIR提取关键词功能:备注:win764位系统,netbeans编程基本代码框架参见我的另一篇文章:NLPIR分词功能代码实现:packagecwordseg;importjava.io.UnsupportedEncodingException;//importutils.SystemParas;importcom.sun.jna.Library;importcom.sun.jna.Nativ
竹聿Simon
·
2016-03-15 14:40
Java
java调用NLPIR(
ICTCLAS
2016)实现分词功能
备注:win764位系统,netbeans编程NLPIR分词系统,前身是2000年发布的
ICTCLAS
,2009年更为现名。张华平博士打造。
竹聿Simon
·
2016-03-15 13:18
Java
中文分词
轻量级文本搜索引擎的后台设计、实现与优化
/r/dFMAAAAAAAAA 1.1生成库——词频库、词语索引库 流程: 项目包: 1.1.1生成库——中文语料文件 主要流程:中科院分词系统
ICTCLAS
的使用,例子:杭州市长春药店。
小爷
·
2016-03-06 09:00
解决 NLPIR (中科院分词) License 过期问题
因为学习需要,使用到了中文分词技术,网上搜索一番,最终选择了名气比较大的中科院分词器(NLPIR/
ICTCLAS
)。
loyopp
·
2016-02-26 11:11
NLPIR
License
中科院分词
Other
thread
is
unde
Not
valid
license
or
分词授权过期
机器学习
分词
Elasticsearch 2.2.0 分词篇:中文分词
所以需要单独安装插件来支持,比较常用的是中科院
ICTCLAS
的smartcn和IKAnanlyzer效果还是不错的,但是目前IKAnanlyzer还不支持最新的Elasticsearch2.2.0版本,
zhulinu
·
2016-02-20 08:43
日志分析
Elasticsearch
赛克蓝德
Elasticsearch 2.2.0 分词篇:中文分词
所以需要单独安装插件来支持,比较常用的是中科院
ICTCLAS
的smartcn和IKAnanlyzer效果还是不错的,但是目前IKAnanlyzer还不支持最新的Elasticsearch2.2.0版本,
zhulinu
·
2016-02-20 08:43
elasticsearch
日志分析
赛克蓝德
Elasticsearch 2.2.0 分词篇:中文分词
所以需要单独安装插件来支持,比较常用的是中科院
ICTCLAS
的smartcn和IKAnanlyzer效果还是不错的,但是目前IKAnanlyzer还不支持最新的Elasticsearch2.2.0版本,
赛克蓝德
·
2016-02-19 18:00
elasticsearch
日志分析
赛克蓝德
secilog
从原始文档到KNN分类算法实现(二)
Predeal.java,它依次进行三项操作:把文件重命名为顺序的数字编号;把文件编号(即文件名)写入文档开头,用一个空格与正文内容隔开,去除正文每行末的换行符,把整个文档合并为一行,去除正文行间的空格;用
ICTCLAS
qq_26562641
·
2015-12-31 10:00
算法
Java中文分词工具AnsjSeg使用
对于Java语言,有许多可选的分词工具,如中科院计算所的NLPIR(原
ICTCLAS
S)、盘古分词、IKAnalyzer、PaodingAnalyzer,其中,试用过
ICTCLAS
S及其后续版本,刚开始感觉不错
qq_26562641
·
2015-12-17 15:00
开源 Java 中文分词器 Ansj 作者孙健专访
Ansj是一个开源的Java中文分词工具,基于中科院的
ictclas
中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。
qq_26562641
·
2015-12-17 13:00
IC分词和IK分词
简介:下载地址:http://www.
ictclas
.org/中科院的分词开源包,但是有版权!
u010666884
·
2015-12-15 21:00
web-classify 用于网页分类的python工具包
本工具包将一些常用的网页分类不同语言的相关开源软件,如
ictclas
,BeautifulSoup,libsvm等进行封装组合,以方便用python进行网页分类相关程序的开发。
·
2015-12-09 11:52
python
jieba分词学习笔记(一)
[toc]序中科院的
ICTCLAS
,哈工大的ltp,东北大学的NIUParser是学术界著名的分词器,我曾浅显读过一些
ICTCLAS
的代码,然而并不那么好读。
menc
·
2015-11-28 00:00
jieba分词
自然语言处理
nlp
K-means文本聚类系列(已经完成)
K-means文本聚类系列(已经完成) - finallyly - 博客园 K-means文本聚类系列(已经完成) (注意: 大家下载我的程序源码以后,可能需要从网络上下载一个新的
ictclas
3.0
·
2015-11-13 19:53
聚类
几款开源的中文分词系统
1、
ICTCLAS
– 全球最受欢迎的汉语分词系统
·
2015-11-13 13:01
中文分词
ictclas
4j 分词工具包 安装流程
首先把
ictclas
j解压缩,然后 1.把 Data文件夹整个拷贝到 Eclipse项目的文件夹下, 2.而 bin目录下的 org文件夹整个拷贝到你 Eclipse项目的 bin目录下,(将class
·
2015-11-13 08:06
Tcl
百科词条比较(3)
中文分词 虽然中文分词工具也很多,但没有一个分词工具能像
ICTCLAS
那样光芒万丈,而且还是免费的,所以就直接用它了。
·
2015-11-13 08:49
比较
C# 中文分词之初探
中文分词技术说起来一定不陌生,大家初步接触时在网上查阅到最多的应该就是由中科院率先研究的
ICTCLAS
中文自动分词系统及其相关的源代码
·
2015-11-12 21:50
中文分词
小叮咚 中文分词 发布 java 版本 , c# 版本 , c++ 版本
C++的版本,还是用中科院的
ICTCLAS
毕竟这个分词程序是很多分词的鼻祖
·
2015-11-12 18:33
java
中文分词免费源码资源
网上很多人向Lucene中添加中文分词时用的都是中科院
ICTCLAS
的接口
·
2015-11-12 12:26
中文分词
【原创】中文分词系统
ICTCLAS
2015 的JAVA封装和多线程执行(附代码)
本文针对的问题是
ICTCLAS
2015 的多线程分词,为了实现多线程做了简单的JAVA封装。如果有需要可以自行进一步封装其它接口。
·
2015-11-12 10:29
java
MMSEG介绍及基于分类的中文分词算法遐想
但我测试后发现,基于多层HMM的
ICTCLAS
虽然准确率虽很好,但效率方面还是没什么优势。可是效率问题在大规模数据应用中确实是很重要的。这里要介绍的,也是如今被广泛应用的,也是教材中
·
2015-11-11 14:20
中文分词
关于近期对Lucene.Net应用研究学习的总结
这是一个研究性的解决方案,下面对其中的项目做下简单的介绍: 1>Lucene.Net.Analysis.Sharp
ICTCLAS
Analyzer//来自博客园 2>Lucene.Net.Analysis.SimpleSplitAnalyzer
·
2015-11-11 11:34
Lucene
对Sharp
ICTCLAS
1.0的一点小小的修改记录
nbsp; 最近研究Lucene搜索这一块,经过慎重考虑,最后选用了吕震宇吕大侠的Sharp
ICTCLAS
·
2015-11-11 11:34
Tcl
Python环境下NIPIR(
ICTCLAS
2014)中文分词系统使用攻略
一、安装 官方链接:http://pynlpir.readthedocs.org/en/latest/installation.html 官方网页中介绍了几种安装方法,大家根据个人需要,自行参考!我采用的是: Install PyNLPIR using easy_install: $ easy_install pynlpir 二、使用NLPIR进行分词 注:此处主要使用pynlpir.
·
2015-11-11 03:34
python
结巴分词标注兼容_
ICTCLAS
2008汉语词性标注集
计算所汉语词性标记集Version 3.0制订人:刘群 张华平 张浩计算所汉语词性标记集... 10. 说明... 11. 名词 (1个一类,7个二类,5个三类) 22. 时间词(1个一类,1个二类) 23. 处所词(1个一类) 34. 方位词(1个一类) 35. 动词(1个一类,9个二类) 36. 形容词(1个一类,4个二类) 37. 区别词(1个一类,2个二类) 38. 状态词
·
2015-11-09 13:20
2008
Lucene于搜索引擎技术(Analysis包详解)
算法:基于机械分词 1-gram,2-gram,HMM(如果使用
ICTCLAS
接口的话) 数据结构:部分源码用到了Set ,HashTable,HashMap 认真理解Token Lucene
·
2015-11-09 12:37
Lucene
Lucene下引入
ICTCLAS
进行中文分词的实现方法
算法:基于机械分词 1-gram,2-gram,HMM(如果使用
ICTCLAS
接口的话) 数据结构:部分源码用到了Set ,HashTable,HashMap 认真理解Token Lucene
·
2015-11-09 12:36
Lucene
CLucene+
ICTCLAS
中文分词整合
计算所汉语词法分析系统
ICTCLAS
,有关它的信息 http://sewm.pku.edu.cn/QA/reference/
ICTCLAS
/Free
ICTCLAS
/ 一、生成动态库DLL或静态库
·
2015-11-09 12:35
Lucene
Hadoop集群上使用JNI,调用资源文件
首先介绍一下
ICTClas
s,
ICTClas
s是中国科学院开发的一个分词软件(
ICTClas
s官网)。该套软件采用C/C++编写。
ICTClas
s虽然
·
2015-11-05 08:07
hadoop
[更新中]Lucene.net,中文分词技术
ICTCLAS
研究
http://groups.google.com/group/
ictclas
http://blog.csdn.net/sinboy/archive/2006/03/12/622596.aspx
·
2015-11-02 18:13
Lucene
ICTCLAS
用的字Lucene4.9捆绑
它一直喜欢的搜索方向,虽然无法做到。但仍保持了狂热的份额。记得那个夏天、这间实验室、这一群人,一切都随风而逝。踏上新征程。我以前没有自己。面对七三分技术的商业环境,我选择了沉淀。社会是一个大机器,我们只是一个小螺丝钉。我们不能容忍半点扭扭捏捏。 于一个时代的产物。也终将被时代所抛弃。言归正题,在lucene增加自己定义的分词器,须要继承Analyzer类。实现createComponents方法
·
2015-11-02 16:40
Lucene
搜索引擎
点击进入详细页面
ictclas
4j
ictclas
4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLA
·
2015-11-02 09:58
搜索引擎
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他