E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
特征词
中文分词中的新词发现地点切分等问题
blog.sina.com.cn/s/blog_64d0b03c0101bcxk.html中文分词做为自然语言处理的第一工序.有着十分重要的意义,在一定程度上可以说,没有分词,所谓的分类,句法树,聚类,
特征词
提取
wd_2007
·
2013-01-29 17:00
自然语言
新词发现
网页分类技术介绍
文本分类的一个关键问题是
特征词
的选择问题及其权重分配。在搜索引擎中,
oanqoanq
·
2012-09-27 09:00
算法
vector
网络
测试
文档
自然语言处理
【朴素贝叶斯】实战朴素贝叶斯_文本分类
通常是用“
特征词
”来表示。
特征词
是一些经过挑选的词语(特征选择问题我们后面再详细讲),这些词语能最好
xceman1997
·
2012-09-06 22:00
c
存储
文档
任务
利用Stanford Parser进行观点词否定词抽取
利用StanfordParser进行观点词否定词抽取 问题:接上一篇内容,当我们在文本中得到
特征词
的观点词之后,如果我们要做情感分析、极性判定(用户是在赞美还是批评),除了分析观点词本身的情感色彩之外,
gdp5211314
·
2012-08-14 15:00
String
情感
jar
tree
产品
利用Stanford Parser进行中文观点抽取(附代码)
问题:所谓的观点抽取就是从文本中获取关于某个
特征词
的观点词语。
特征词
在句子结构中通常为主语或者宾语,从词性上看一般为名词或者形容词,而观点词通常为带有情感色彩的形容词或者副词。
gdp5211314
·
2012-08-14 15:36
nlp
利用Stanford Parser进行中文观点抽取(附代码)
问题:所谓的观点抽取就是从文本中获取关于某个
特征词
的观点词语。
特征词
在句子结构中通常为主语或者宾语,从词性上看一般为名词或者形容词,而观点词通常为带有情感色彩的形容词或者副词。
gdp5211314
·
2012-08-14 15:00
数据挖掘-基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器的JAVA实现(上)
FAQ见newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ)本文要点如下:对newsgroup文档集进行预处理,按照DF法及SVD分解法抽取
特征词
yangliuy
·
2012-04-18 00:00
java
算法
String
数据挖掘
Integer
中文文本分类流程
2、选择合适的特征抽取方法,对每个词条进行计算,设定合适的阈值,将
特征词
低于该阈值的词条移除,构成特征库。3、在训练和分类模块中,依据特征库对文本进行特征提取,进而将文档表示为特征向量。
lixuemei504
·
2012-04-12 16:00
测试
文档
数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(上)
关于本项目下载及运行的常见问题FAQ见newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ)本文主要内容如下:对newsgroup文档集进行预处理,提取出30095个
特征词
计算每篇文档中的
特征词
的
yangliuy
·
2012-03-27 23:00
java
算法
数据挖掘
String
File
数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现(上)
本文主要研究基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的设计及实现,数据预处理、贝叶斯算法及KNN算法实现工程源码下载见:本文主要内容如下对newsgroup文档集进行预处理,提取出30095个
特征词
计算每篇文档中的
特征词
的
yangliuy
·
2012-03-27 15:00
算法
数据挖掘
knn
KNN算法的實現
考虑在训练文本集中与该新文本距离最近(最相似)的K篇文本,根据这K篇文本所属的类别判定新文本所属的类别,具体的算法步骤如下:STEPONE:根据特征项集合重新描述训练文本向量STEPTWO:在新文本到达后,根据
特征词
分词新文本
jfkidear
·
2012-03-22 18:00
算法
网络
测试
delete
iterator
distance
VSM
include#include#include#include#include#includeusingnamespacestd;//定义常量const intDICTIONARYMAXSIZE=500; //
特征词
典大小的
nocml
·
2012-01-13 17:00
ios
vector
struct
qq
Class
文档
2011-11-30
使用百度知道 数据的时候 ,当
特征词
选取的词数减少,准确度得到了提高 ubuntu apt的sources.list deb http://debian.math.nankai.edu.cn/ubuntu
l_mai
·
2011-11-30 12:00
java 实现相似度算法
通过JAVA编程,使用余弦定理,相似度算法的实现 /** * 计算带有权重的相似度 * @param dict1:Map<String,Integer>:Map<
特征词
szjian
·
2011-11-01 09:00
java
相似度
【绝对原创】个人用Java编写中文网页自动分类
结果分析的思想:就是把得到的词频与建立的词库里每一类进行比较,如果存在一个最大匹配程度,就去这个类作为结果,如果存在多个最大值,那么就去词库里
特征词
最少的一个!!
apanly
·
2010-10-25 19:00
java
PHP
jsp
正则表达式
小程序测试Mysql 和access数据库性能,引发了一些问题,寻求解决。
我在做一个
特征词
的数据挖掘小测试,我使用java+access+jdbc进行开发的。
java-xb
·
2010-08-27 19:00
java
mysql
数据挖掘
jdbc
Access
特征词
选择算法对文本分类准确率的影响(前言)
作者:finallyliuyu 注:数据使用请注明来源 试验数据下载资源中包括数据集规模为200,1000,2000,3000,情况下,特征维数分别为10,20,30-150的情况下5这交叉验证的全部正确率。其中文件命名为TextCategorization_0_100_10表示这是在文档集规模为200(一个类别中有100篇文章)下进行的第一折试验,当前特征维数为10。每个这样的文件夹下面包含文
·
2010-08-17 22:00
算法
网页分类技术介绍
文本分类的一个关键问题是
特征词
的选择问题及其权重分配。
soso_blog
·
2010-06-22 10:00
算法
vector
搜索引擎
测试
文档
自然语言处理
BM25公式
w表示
特征词
项(Term),c(w,d)和c(w,q)分别表示w出现在d和q中的个数,N是文档集合中的文档总数,df(w)表示出现w的文档个数。p(w|C)表示C中出现w的概率。
summerbell
·
2009-08-23 17:00
C++
c
C#
KNN算法 基本思想
最相似)的 K 篇文本,根据这 K 篇文本所属的类别判定新文本所属的类别,具体的算法步骤如下: STEP ONE:根据特征项集合重新描述训练文本向量 STEP TWO:在新文本到达后,根据
特征词
分词新文本
lzj0470
·
2008-12-27 10:00
算法
网络应用
基于词性的特征提取方法
2) 经过特征提取后生成的特征向量维数太高 ,而且不能直接计算出特征向量中各个
特征词
的权重。特征向量维数太高对于文本分类来说是个致命的缺陷 ,维数过高的特征向量不仅带来
lzj0470
·
2008-12-27 09:00
数据结构
算法
正则表达式
D语言
复合词挖掘
1、基于
特征词
或标点符号的文本断串;2、N元切分;3、关联规则和最小支持度:(以英文为例子,假如想从一批产品标题数据中挖掘出一系列复合串。)
jakisou
·
2008-05-10 01:00
产品
如何通过Google查找专业文献资料
即使需要大众化词,如password,username,但若加入一两个
特征词
,则结果将大大简化。二是具有代表性,也即这个词具有
luckisok
·
2006-03-09 23:00
数据库
服务器
百度
Google
library
数据库相关
上一页
1
2
3
4
5
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他