E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
向量空间模型
主题模型在文本挖掘中的发展过程
A、VSM(
向量空间模型
) 计算机不具备人脑的结构,无法理解自然语言,所以需要首先将无结构的自然语言文本转化为计算机可计算的特征文本。
pirage
·
2013-05-07 14:00
向量空间模型
VSM
检索效率。测量一个系统的查询响应结果的质量的常规方法是使用查准率(precision)和查全率(recall)。查准率是检索到的相关文档的数量与检索到的所有文档的数量的比值。查全率是检索到的相关文档的数量与所有相关文档的数量的比值。 理想情况下,查全率和查准率都应该是1,这意味着系统返回了所有的相关文档,并且结果中不包含不相关的文档。不幸的是,这实际上是不可能的。如果我们尝试提高查全率(比如通过给
ljiabin
·
2013-05-03 21:00
vsm
向量空间模型
文档相似度
余弦相似性的文本计算思想
余弦相似度: 在
向量空间模型
中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示,公式为:简化点就是: 其中D1,D2为文本D1,D2的向量表示,|D1|
iamaboyy
·
2013-04-25 15:00
向量空间模型
在有了tf-idf权重计算之后,一个自然的数学建模的想法是:tf-idf权重矩阵
向量空间模型
把文档看成是一个向量(vector),其中的每个分量都对应词典中的一个词项,分量值为采用tf-idf计算出的权重值
jazywoo123
·
2013-04-24 13:00
Latent Semantic Analysis(LSA/ LSI)算法简介
1.传统
向量空间模型
的缺陷
向量空间模型
是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF值,然后使用
向量空间模型
(亦即计算查询
·
2013-04-17 22:00
ant
词权重计算及应用
本文讨论如何计算词(有时候称特征向量)权重和
向量空间模型
及其应用。本文的“文档”是指查询对象,它们可以使一条条单独的记录或者是一本书的各章,还可以是一个网页,或者xml文件等。
zhongyangzhong
·
2013-03-26 23:00
词的权重计算及应用
本文讨论如何计算词权重(即特征向量)和
向量空间模型
及其应用。本文的“文档”是指查询对象,它们可以使一条条单独的记录或者是一本书的各章,还可以是一个网页,或者xml文件等。
zhongyangzhong
·
2013-03-26 15:00
权重
计算
应用
改进
向量空间模型
转自:http://blog.csdn.net/Felomeng/article/details/4059128声明:只是对
向量空间模型
的介绍(或者叫推广),并没有理论创新工作。
caiye917015406
·
2013-03-04 16:00
向量空间模型
(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)
参考:http://blog.sina.com.cn/s/blog_5caa94a0010122dz.html在文本挖掘中计算2篇文章相似度常用
向量空间模型
中的余弦定理公式判断。
longyi_java
·
2013-03-01 11:00
海量数据处理专题(八)——倒排索引(搜索引擎之基石)
VSM检索模型VSM全称是VectorSpaceModel(
向量空间模型
),是IR(InformationRetrieval信息检索)模型中的一种,由于其简单,直观,高效,所以被广泛的应用到搜索引擎的架构中
mysileng
·
2012-11-05 20:00
Lucene 4.0【转】
kevinma.cn/technology/lucene-4-analysis/2012-09-05 Lucene 4.0 原理与代码分析 – 相似度评分算法之
向量空间模型
freeroy
·
2012-10-30 14:00
Lucene
Rocchio算法
Rocchio算法是相关反馈实现中的一个经典算法,它提供了一种将相关反馈信息融到
向量空间模型
的方法。
oanqoanq
·
2012-10-15 11:00
算法
优化
ide
文档
扩展
文本去重之SimHash算法
说到文本相似性计算,大家首先想到的应该是使用
向量空间模型
VSM(VectorSpaceModel)。
starstarstone
·
2012-10-12 19:00
搜索引擎-查询
向量空间模型
计算检索向量和文档向量的相关度;布尔模型要求每个检索词都出现,计算速度快。实际中要结合两种方法,先按照布尔模型求交集,再按照
向量空间模型
计算。
zhangshuliai
·
2012-09-10 21:00
优化
搜索引擎
url
文档
磁盘
文本去重之SimHash算法
说到文本相似性计算,大家首先想到的应该是使用
向量空间模型
VSM(VectorSpaceModel)。
oanqoanq
·
2012-09-04 00:00
算法
vector
搜索引擎
Google
文档
扩展
SimHash算法
说到文本相似性计算,大家首先想到的应该是使用
向量空间模型
VSM(VectorSpaceModel)。
meijia_tts
·
2012-08-31 11:00
算法
搜索引擎
vector
Google
文档
扩展
文本去重之SimHash算法
说到文本相似性计算,大家首先想到的应该是使用
向量空间模型
VSM(VectorSpaceModel)。
sunlylorn
·
2012-08-06 15:00
算法
vector
搜索引擎
Google
文档
扩展
主成分分析
问题:假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的
向量空间模型
中,认为两者独立。
xiaoyu714543065
·
2012-08-05 14:00
function
文档
图形
Matrix
图像处理
Components
VSM
向量空间模型
对文本的分类以及简单实现
1:对文本的分类,不管用什么高级的方法,首先还是需要建立数学模型的,这个地方就用SVM来建立,他的原理是根据文本的特征,比如一个文本有10个特征(一般来说每个特征是一个代表这个文本的关键词),那么这个文本向量大小就是10了。具体的每个值就是这个特征的权重(关于权重的计算很多种,我这个地方只用了词频来代表)。然后读入测试本文,根据该测试文本中的特征,看和样本中的特征的向量做运算,这个地方用的是求向量
silence1214
·
2012-07-12 13:57
机器智能
string
path
vector
测试
null
file
VSM
向量空间模型
对文本的分类以及简单实现
1:对文本的分类,不管用什么高级的方法,首先还是需要建立数学模型的,这个地方就用SVM来建立,他的原理是根据文本的特征,比如一个文本有10个特征(一般来说每个特征是一个代表这个文本的关键词),那么这个文本向量大小就是10了。具体的每个值就是这个特征的权重(关于权重的计算很多种,我这个地方只用了词频来代表)。然后读入测试本文,根据该测试文本中的特征,看和样本中的特征的向量做运算,这个地方用的是求向量
silence1214
·
2012-07-12 13:00
vector
String
测试
File
null
Path
Lucene学习之计算相似度模型VSM(Vector Space Model)
索性就直接跳到这个问题看,很多资料都提到了VSM(VectorSpaceModel)即
向量空间模型
,根据这个模型可以对搜索的结果进行最优化的筛选,目前还不知道如何证明,只能凭借想象应该是这个样子的。
ZHANGBINFLY
·
2012-07-11 18:00
文本去重之SimHash算法
说到文本相似性计算,大家首先想到的应该是使用
向量空间模型
VSM(VectorSpaceModel)。
pathenon
·
2012-06-25 21:00
vsm
Simhash
文本去重
网页消重算法(via北大天网课题组)
算法基础当前比较成功的搜索引擎系统大多是基于关键词匹配和结合
向量空间模型
来完成用户的检索请求的。典型的系统包括Google和天网系统。
yucan1001
·
2012-06-12 16:00
html
算法
浏览器
搜索引擎
Google
url
基于
向量空间模型
的文本聚类算法
1 文本聚类研究现状 Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着 Internet 的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心 (CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示, 70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据,如何从中获
chenwq
·
2012-05-29 18:00
算法
信息检索技术——
向量空间模型
上次介绍了信息检索技术——布尔检索,布尔模型已经可以解决一个很重要的问题,就是找到和用户需求相关的文档(其中还需要很多处理,比如分词,归一化,去掉停用词等等,我们只是介绍主要的框架流程)。但是这样找到的文档会有很多,也许上千个,也许上万个,这远远不是用户所要的。用户也不会去从几万个文档中挑选自己要找的。因此我们需要对结果进行排序,把最能满足用户需求的文档放在最上面显示给用户,就像google和ba
chenbang110
·
2012-05-19 13:00
框架
Google
query
文档
余弦相似度
在
向量空间模型
中,文本泛指各种机器可读的记录。
samwong
·
2012-05-15 21:00
余弦相似度
【转】mahout应用kmeans进行文本聚类2之——实例分析
在信息检索研究领域已经有很好的建模方式,就是信息检索领域中最常用的
向量空间模型
词
jayghost
·
2012-05-13 22:00
Mahout
余弦相似度
在
向量空间模型
中,文本泛指各种机器可读的记录。
memray
·
2012-05-02 02:00
余弦相似度
原文转自:http://blog.sina.com.cn/s/blog_6164a9e20100ehwr.html
向量空间模型
将文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn,ωn(d))
memray
·
2012-05-01 23:00
算法
网络
文档
2010
vsm表示文档的特征
目前文本表示通常采用
向量空间模型
(vectorspacemodel,VSM)。VSM是20世纪60年代末期由G.Salton等人提出的,是当前自然语言处理中常用的主流模型。
WitsMakeMen
·
2012-04-26 09:00
算法
vector
文档
自然语言处理
语言
Semantic
余弦相似度
在
向量空间模型
中,文本泛指各种机器可读的记录。
Deit_Aaron
·
2012-04-18 14:00
Lucene Similarity (Lucene 文档评分score机制详解)
个人博客:http://demi-panda.com 文档的分值代表了该文档在特定查询词下对应的相关性高低,他关联着信息检索
向量空间模型
中的向量夹角的接近度。
a280606790
·
2012-04-06 16:00
Lucene
Latent semantic analysis note(LSA)
该方法和传统
向量空间模型
(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents),并通过向量
wangran51
·
2012-03-29 18:00
vector
String
query
文档
Matrix
Semantic
Latent semantic analysis note(LSA)
该方法和传统
向量空间模型
(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents),并通过向量
vergilwang
·
2012-03-29 18:00
Note
信息检索技术——
向量空间模型
上次介绍了信息检索技术——布尔检索,布尔模型已经可以解决一个很重要的问题,就是找到和用户需求相关的文档(其中还需要很多处理,比如分词,归一化,去掉停用词等等,我们只是介绍主要的框架流程)。但是这样找到的文档会有很多,也许上千个,也许上万个,这远远不是用户所要的。用户也不会去从几万个文档中挑选自己要找的。因此我们需要对结果进行排序,把最能满足用户需求的文档放在最上面显示给用户,就像google和ba
~大器晚成~
·
2012-03-28 09:00
搜索相关度排序
向量空间模型
http://hi.baidu.com/zhumzhu/blog/item/fc49ef3d19b0a4c09f3d62a3.html lucene的相关度计算方式,
向量空间模型
hill007299
·
2012-03-06 19:00
搜索
Lucene
文本相似度的计算-
向量空间模型
在
向量空间模型
中,文本泛指各种机器可读的记录。
lixuemei504
·
2012-02-22 10:00
c
文档
语言
n2
文本表示 --- VSM
目前文本表示通常采用
向量空间模型
(vector space model
黎明lm
·
2011-12-28 14:00
vsm
海量数据处理专题(八)――倒排索引(搜索引擎之基石)
VSM检索模型VSM全称是VectorSpaceModel(
向量空间模型
),是IR(InformationRetrieval信息检索)模型中的一种,由于其简单,直观,高效,所以被广泛的应用到搜索引擎的架构中
rosehacker2010
·
2011-12-26 19:34
职场
倒排索引
休闲
海量数据处理
搜索引擎之基石
海量数据处理专题(八)——倒排索引(搜索引擎之基石)
VSM检索模型VSM全称是VectorSpaceModel(
向量空间模型
),是IR(InformationRetrieval信息检索)模型中的一种,由于其简单,直观,高效,所以被广泛的应用到搜索引擎的架构中
zhongguoren666
·
2011-12-22 11:00
搜索引擎
vector
存储
query
文档
分布式存储
基于
向量空间模型
的文本分类算法
基于
向量空间模型
的文本聚类算法[日期:2009-07-27]来源: 作者:[字体:大 中 小]姚清耘,刘功申,李翔( 上海交通大学信息安全工程学院,上海 200240) 摘要: 文本聚类是聚类的一个重要研究分支
wangzhiqing3
·
2011-12-12 15:00
Algorithm
算法
vector
文档
自然语言处理
classification
搜索引擎Rank算法
传统的rank有很多经典的模型来完成这一任务,比如boolmodel(布尔模型),VSM(
向量空间模型
),languagemodel
fbfsber008
·
2011-12-06 09:00
算法
搜索引擎
function
Google
query
文档
向量空间的距离
在
向量空间模型
中,文本泛指各种机器可读的记录。
w800927
·
2011-11-01 15:00
Lucene3.0之结果排序
1、 基本排序原理①
向量空间模型
GeraldSalton 等在 30 多年前提出的"
向量空间模型
" (VectorSpaceModel,VSM)[SaltonandLesk,1968,Salton
yajie
·
2011-10-28 08:00
Lucene
web搜索学习笔记之概率模型
2.2
向量空间模型
向量空间模型
基于文档与查询的相似度,进行排序。
rrerre
·
2011-10-17 22:00
Web
文档
海量数据处理专题7——倒排索引(搜索引擎之基石)
VSM检索模型VSM全称是VectorSpaceModel(
向量空间模型
),是IR(InformationRetrieval信息检索)模型中的一种,由于其简单,直观,高效,所以被广泛的应用到搜索引擎的架构中
yajie
·
2011-10-13 18:00
某人发布的倒排索引
中文分词(反向最大匹配,用trie实现) 生成正向文档(我自己定义的格式,暂时是这样) 生成倒排索引(分块存储,bytecode压缩算法,正文和快照采用zlib压缩) 提交查询串检索(只实现了
向量空间模型
forestLight
·
2011-09-29 10:00
Date
url
search
query
测试工具
Parsing
海量数据处理专题(八)——倒排索引(搜索引擎之基石)
VSM检索模型VSM全称是VectorSpaceModel(
向量空间模型
),是IR(InformationRetrieval信息检索)模型中的一种,由于其简单,直观,高效,所以被广泛的应用到搜索引擎的架构中
pkuoliver
·
2011-09-27 10:00
搜索引擎
海量数据
倒排索引
web搜索学习笔记
说明2:最直观的,从文档到文档所包含的单词的索引,称为正向索引;同理,从单词到包含该单词的文档的索引,称为反向索引.其次,是建立查询模型.经典的模型包括布尔模型,
向量空间模型
和概率模型.课程中介
rrerre
·
2011-09-12 21:00
Web
搜索引擎
文档
mahout应用kmeans进行文本聚类2之——实例分析
在信息检索研究领域已经有很好的建模方式,就是信息检索领域中最常用的
向量空间模型
词频-逆向文本频率(TermFrequency–InverseDocumentFrequency,TF-IDF):它是对TF
aidayei
·
2011-08-09 22:00
算法
File
Lucene
存储
action
工具
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他