特征词第5页

中文分词中的新词发现地点切分等问题

blog.sina.com.cn/s/blog_64d0b03c0101bcxk.html中文分词做为自然语言处理的第一工序．有着十分重要的意义，在一定程度上可以说，没有分词，所谓的分类，句法树，聚类，特征词提取

wd_2007·2013-01-29 17:00

中文分词中的新词发现地点切分等问题

blog.sina.com.cn/s/blog_64d0b03c0101bcxk.html中文分词做为自然语言处理的第一工序．有着十分重要的意义，在一定程度上可以说，没有分词，所谓的分类，句法树，聚类，特征词提取

wd_2007·2013-01-29 17:00

网页分类技术介绍

文本分类的一个关键问题是特征词的选择问题及其权重分配。在搜索引擎中，

oanqoanq·2012-09-27 09:00

【朴素贝叶斯】实战朴素贝叶斯_文本分类

通常是用“特征词”来表示。特征词是一些经过挑选的词语（特征选择问题我们后面再详细讲），这些词语能最好

xceman1997·2012-09-06 22:00

利用Stanford Parser进行观点词否定词抽取

利用StanfordParser进行观点词否定词抽取问题：接上一篇内容，当我们在文本中得到特征词的观点词之后，如果我们要做情感分析、极性判定（用户是在赞美还是批评），除了分析观点词本身的情感色彩之外，

gdp5211314·2012-08-14 15:00

利用Stanford Parser进行中文观点抽取（附代码）

问题：所谓的观点抽取就是从文本中获取关于某个特征词的观点词语。特征词在句子结构中通常为主语或者宾语，从词性上看一般为名词或者形容词，而观点词通常为带有情感色彩的形容词或者副词。

gdp5211314·2012-08-14 15:36

利用Stanford Parser进行中文观点抽取（附代码）

问题：所谓的观点抽取就是从文本中获取关于某个特征词的观点词语。特征词在句子结构中通常为主语或者宾语，从词性上看一般为名词或者形容词，而观点词通常为带有情感色彩的形容词或者副词。

gdp5211314·2012-08-14 15:00

数据挖掘-基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器的JAVA实现(上)

FAQ见newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ)本文要点如下：对newsgroup文档集进行预处理，按照DF法及SVD分解法抽取特征词

yangliuy·2012-04-18 00:00

中文文本分类流程

2、选择合适的特征抽取方法，对每个词条进行计算，设定合适的阈值，将特征词低于该阈值的词条移除，构成特征库。3、在训练和分类模块中，依据特征库对文本进行特征提取，进而将文档表示为特征向量。

lixuemei504·2012-04-12 16:00

数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现（上）

关于本项目下载及运行的常见问题FAQ见newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ)本文主要内容如下：对newsgroup文档集进行预处理，提取出30095个特征词计算每篇文档中的特征词的

yangliuy·2012-03-27 23:00

数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现（上）

本文主要研究基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的设计及实现，数据预处理、贝叶斯算法及KNN算法实现工程源码下载见：本文主要内容如下对newsgroup文档集进行预处理，提取出30095个特征词计算每篇文档中的特征词的

yangliuy·2012-03-27 15:00

KNN算法的實現

考虑在训练文本集中与该新文本距离最近（最相似）的K篇文本，根据这K篇文本所属的类别判定新文本所属的类别，具体的算法步骤如下：STEPONE:根据特征项集合重新描述训练文本向量STEPTWO:在新文本到达后，根据特征词分词新文本

jfkidear·2012-03-22 18:00

VSM

include#include#include#include#include#includeusingnamespacestd;//定义常量const intDICTIONARYMAXSIZE=500; //特征词典大小的

nocml·2012-01-13 17:00

2011-11-30

使用百度知道数据的时候，当特征词选取的词数减少，准确度得到了提高 ubuntu apt的sources.list deb http://debian.math.nankai.edu.cn/ubuntu

l_mai·2011-11-30 12:00

java 实现相似度算法

通过JAVA编程，使用余弦定理，相似度算法的实现 /** * 计算带有权重的相似度 * @param dict1：Map<String,Integer>：Map<特征词

szjian·2011-11-01 09:00

【绝对原创】个人用Java编写中文网页自动分类

结果分析的思想：就是把得到的词频与建立的词库里每一类进行比较，如果存在一个最大匹配程度，就去这个类作为结果，如果存在多个最大值，那么就去词库里特征词最少的一个！！

apanly·2010-10-25 19:00

小程序测试Mysql 和access数据库性能，引发了一些问题，寻求解决。

我在做一个特征词的数据挖掘小测试,我使用java+access+jdbc进行开发的。

java-xb·2010-08-27 19:00

特征词选择算法对文本分类准确率的影响（前言）

作者：finallyliuyu 注：数据使用请注明来源试验数据下载资源中包括数据集规模为200,1000,2000,3000,情况下，特征维数分别为10,20,30-150的情况下5这交叉验证的全部正确率。其中文件命名为TextCategorization_0_100_10表示这是在文档集规模为200(一个类别中有100篇文章)下进行的第一折试验，当前特征维数为10。每个这样的文件夹下面包含文

·2010-08-17 22:00

网页分类技术介绍

文本分类的一个关键问题是特征词的选择问题及其权重分配。

soso_blog·2010-06-22 10:00

BM25公式

w表示特征词项(Term)，c(w,d)和c(w,q)分别表示w出现在d和q中的个数，N是文档集合中的文档总数，df(w)表示出现w的文档个数。p(w|C)表示C中出现w的概率。

summerbell·2009-08-23 17:00

KNN算法基本思想

最相似）的 K 篇文本，根据这 K 篇文本所属的类别判定新文本所属的类别，具体的算法步骤如下： STEP ONE:根据特征项集合重新描述训练文本向量 STEP TWO:在新文本到达后，根据特征词分词新文本

lzj0470·2008-12-27 10:00

基于词性的特征提取方法

2) 经过特征提取后生成的特征向量维数太高 ,而且不能直接计算出特征向量中各个 特征词的权重。特征向量维数太高对于文本分类来说是个致命的缺陷 ,维数过高的特征向量不仅带来

lzj0470·2008-12-27 09:00

复合词挖掘

1、基于特征词或标点符号的文本断串；2、N元切分；3、关联规则和最小支持度：（以英文为例子，假如想从一批产品标题数据中挖掘出一系列复合串。）

jakisou·2008-05-10 01:00

如何通过Google查找专业文献资料

即使需要大众化词，如password,username，但若加入一两个特征词，则结果将大大简化。二是具有代表性，也即这个词具有

luckisok·2006-03-09 23:00

推荐频道

特征词

中文分词中的新词发现地点切分等问题

中文分词中的新词发现地点切分等问题

网页分类技术介绍

【朴素贝叶斯】实战朴素贝叶斯_文本分类

利用Stanford Parser进行观点词否定词抽取

利用Stanford Parser进行中文观点抽取（附代码）

利用Stanford Parser进行中文观点抽取（附代码）

数据挖掘-基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器的JAVA实现(上)

中文文本分类流程

数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现（上）

数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现（上）

KNN算法的實現

VSM

2011-11-30

java 实现相似度算法

【绝对原创】个人用Java编写中文网页自动分类

小程序测试Mysql 和access数据库性能，引发了一些问题，寻求解决。

特征词选择算法对文本分类准确率的影响（前言）

网页分类技术介绍

BM25公式

KNN算法 基本思想

基于词性的特征提取方法

复合词挖掘

如何通过Google查找专业文献资料

KNN算法基本思想