向量空间模型第7页

主题模型在文本挖掘中的发展过程

A、VSM（向量空间模型）计算机不具备人脑的结构，无法理解自然语言，所以需要首先将无结构的自然语言文本转化为计算机可计算的特征文本。

pirage·2013-05-07 14:00

向量空间模型VSM

检索效率。测量一个系统的查询响应结果的质量的常规方法是使用查准率（precision）和查全率（recall）。查准率是检索到的相关文档的数量与检索到的所有文档的数量的比值。查全率是检索到的相关文档的数量与所有相关文档的数量的比值。理想情况下，查全率和查准率都应该是1，这意味着系统返回了所有的相关文档，并且结果中不包含不相关的文档。不幸的是，这实际上是不可能的。如果我们尝试提高查全率（比如通过给

ljiabin·2013-05-03 21:00

余弦相似性的文本计算思想

余弦相似度：在向量空间模型中，两个文本D1和D2之间的内容相关度Sim(D1，D2)常用向量之间夹角的余弦值表示，公式为：简化点就是：其中D1，D2为文本D1，D2的向量表示，|D1|

iamaboyy·2013-04-25 15:00

向量空间模型

在有了tf-idf权重计算之后，一个自然的数学建模的想法是：tf-idf权重矩阵 向量空间模型把文档看成是一个向量（vector），其中的每个分量都对应词典中的一个词项，分量值为采用tf-idf计算出的权重值

jazywoo123·2013-04-24 13:00

Latent Semantic Analysis(LSA/ LSI)算法简介

1.传统向量空间模型的缺陷 向量空间模型是信息检索中最常用的检索方法，其检索过程是，将文档集D中的所有文档和查询都表示成以单词为特征的向量，特征值为每个单词的TF-IDF值，然后使用向量空间模型(亦即计算查询

·2013-04-17 22:00

词权重计算及应用

本文讨论如何计算词（有时候称特征向量）权重和向量空间模型及其应用。本文的“文档”是指查询对象，它们可以使一条条单独的记录或者是一本书的各章，还可以是一个网页，或者xml文件等。

zhongyangzhong·2013-03-26 23:00

词的权重计算及应用

本文讨论如何计算词权重（即特征向量）和向量空间模型及其应用。本文的“文档”是指查询对象，它们可以使一条条单独的记录或者是一本书的各章，还可以是一个网页，或者xml文件等。

zhongyangzhong·2013-03-26 15:00

改进向量空间模型

转自：http://blog.csdn.net/Felomeng/article/details/4059128声明：只是对向量空间模型的介绍（或者叫推广），并没有理论创新工作。

caiye917015406·2013-03-04 16:00

向量空间模型（VSM）的余弦定理公式（用余弦定理来表示向量之间的相似度）

参考：http://blog.sina.com.cn/s/blog_5caa94a0010122dz.html在文本挖掘中计算2篇文章相似度常用向量空间模型中的余弦定理公式判断。

longyi_java·2013-03-01 11:00

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

VSM检索模型VSM全称是VectorSpaceModel(向量空间模型)，是IR(InformationRetrieval信息检索)模型中的一种，由于其简单，直观，高效，所以被广泛的应用到搜索引擎的架构中

mysileng·2012-11-05 20:00

Lucene 4.0【转】

kevinma.cn/technology/lucene-4-analysis/2012-09-05 Lucene 4.0 原理与代码分析 – 相似度评分算法之向量空间模型

freeroy·2012-10-30 14:00

Rocchio算法

oanqoanq·2012-10-15 11:00

文本去重之SimHash算法

说到文本相似性计算，大家首先想到的应该是使用向量空间模型VSM（VectorSpaceModel）。

starstarstone·2012-10-12 19:00

搜索引擎-查询

向量空间模型计算检索向量和文档向量的相关度；布尔模型要求每个检索词都出现，计算速度快。实际中要结合两种方法，先按照布尔模型求交集，再按照向量空间模型计算。

zhangshuliai·2012-09-10 21:00

文本去重之SimHash算法

说到文本相似性计算，大家首先想到的应该是使用向量空间模型VSM（VectorSpaceModel）。

oanqoanq·2012-09-04 00:00

SimHash算法

说到文本相似性计算，大家首先想到的应该是使用向量空间模型VSM（VectorSpaceModel）。

meijia_tts·2012-08-31 11:00

文本去重之SimHash算法

说到文本相似性计算，大家首先想到的应该是使用向量空间模型VSM（VectorSpaceModel）。

sunlylorn·2012-08-06 15:00

主成分分析

问题：假设在IR中我们建立的文档-词项矩阵中，有两个词项为“learn”和“study”，在传统的向量空间模型中，认为两者独立。

xiaoyu714543065·2012-08-05 14:00

VSM向量空间模型对文本的分类以及简单实现

1：对文本的分类，不管用什么高级的方法，首先还是需要建立数学模型的，这个地方就用SVM来建立，他的原理是根据文本的特征，比如一个文本有10个特征（一般来说每个特征是一个代表这个文本的关键词），那么这个文本向量大小就是10了。具体的每个值就是这个特征的权重（关于权重的计算很多种，我这个地方只用了词频来代表）。然后读入测试本文，根据该测试文本中的特征，看和样本中的特征的向量做运算，这个地方用的是求向量

silence1214·2012-07-12 13:57

VSM向量空间模型对文本的分类以及简单实现

1：对文本的分类，不管用什么高级的方法，首先还是需要建立数学模型的，这个地方就用SVM来建立，他的原理是根据文本的特征，比如一个文本有10个特征（一般来说每个特征是一个代表这个文本的关键词），那么这个文本向量大小就是10了。具体的每个值就是这个特征的权重（关于权重的计算很多种，我这个地方只用了词频来代表）。然后读入测试本文，根据该测试文本中的特征，看和样本中的特征的向量做运算，这个地方用的是求向量

silence1214·2012-07-12 13:00

Lucene学习之计算相似度模型VSM(Vector Space Model)

索性就直接跳到这个问题看，很多资料都提到了VSM（VectorSpaceModel）即向量空间模型，根据这个模型可以对搜索的结果进行最优化的筛选，目前还不知道如何证明，只能凭借想象应该是这个样子的。

ZHANGBINFLY·2012-07-11 18:00

文本去重之SimHash算法

说到文本相似性计算，大家首先想到的应该是使用向量空间模型VSM（VectorSpaceModel）。

pathenon·2012-06-25 21:00

网页消重算法（via北大天网课题组）

算法基础当前比较成功的搜索引擎系统大多是基于关键词匹配和结合向量空间模型来完成用户的检索请求的。典型的系统包括Google和天网系统。

yucan1001·2012-06-12 16:00

基于向量空间模型的文本聚类算法

1 文本聚类研究现状 Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着 Internet 的大规模普及和企业信息化程度的提高，各种资源呈爆炸式增长。在中国互联网络信息中心 (CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示， 70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据，如何从中获

chenwq·2012-05-29 18:00

信息检索技术——向量空间模型

上次介绍了信息检索技术——布尔检索，布尔模型已经可以解决一个很重要的问题，就是找到和用户需求相关的文档(其中还需要很多处理，比如分词，归一化，去掉停用词等等，我们只是介绍主要的框架流程)。但是这样找到的文档会有很多，也许上千个，也许上万个，这远远不是用户所要的。用户也不会去从几万个文档中挑选自己要找的。因此我们需要对结果进行排序，把最能满足用户需求的文档放在最上面显示给用户，就像google和ba

chenbang110·2012-05-19 13:00

余弦相似度

在向量空间模型中，文本泛指各种机器可读的记录。

samwong·2012-05-15 21:00

【转】mahout应用kmeans进行文本聚类2之——实例分析

在信息检索研究领域已经有很好的建模方式，就是信息检索领域中最常用的向量空间模型 词

jayghost·2012-05-13 22:00

余弦相似度

在向量空间模型中，文本泛指各种机器可读的记录。

memray·2012-05-02 02:00

余弦相似度

原文转自：http://blog.sina.com.cn/s/blog_6164a9e20100ehwr.html向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d)；…；tn,ωn(d))

memray·2012-05-01 23:00

vsm表示文档的特征

目前文本表示通常采用向量空间模型(vectorspacemodel,VSM)。VSM是20世纪60年代末期由G.Salton等人提出的，是当前自然语言处理中常用的主流模型。

WitsMakeMen·2012-04-26 09:00

余弦相似度

在向量空间模型中，文本泛指各种机器可读的记录。

Deit_Aaron·2012-04-18 14:00

Lucene Similarity (Lucene 文档评分score机制详解)

个人博客：http://demi-panda.com 文档的分值代表了该文档在特定查询词下对应的相关性高低，他关联着信息检索向量空间模型中的向量夹角的接近度。

a280606790·2012-04-06 16:00

Latent semantic analysis note(LSA)

该方法和传统向量空间模型(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents)，并通过向量

wangran51·2012-03-29 18:00

Latent semantic analysis note(LSA)

该方法和传统向量空间模型(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents)，并通过向量

vergilwang·2012-03-29 18:00

信息检索技术——向量空间模型

上次介绍了信息检索技术——布尔检索，布尔模型已经可以解决一个很重要的问题，就是找到和用户需求相关的文档(其中还需要很多处理，比如分词，归一化，去掉停用词等等，我们只是介绍主要的框架流程)。但是这样找到的文档会有很多，也许上千个，也许上万个，这远远不是用户所要的。用户也不会去从几万个文档中挑选自己要找的。因此我们需要对结果进行排序，把最能满足用户需求的文档放在最上面显示给用户，就像google和ba

~大器晚成~·2012-03-28 09:00

hill007299·2012-03-06 19:00

文本相似度的计算-向量空间模型

在向量空间模型中，文本泛指各种机器可读的记录。

lixuemei504·2012-02-22 10:00

文本表示 --- VSM

目前文本表示通常采用向量空间模型(vector space model

黎明lm·2011-12-28 14:00

海量数据处理专题（八）――倒排索引(搜索引擎之基石)

VSM检索模型VSM全称是VectorSpaceModel(向量空间模型)，是IR(InformationRetrieval信息检索)模型中的一种，由于其简单，直观，高效，所以被广泛的应用到搜索引擎的架构中

rosehacker2010·2011-12-26 19:34

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

VSM检索模型VSM全称是VectorSpaceModel(向量空间模型)，是IR(InformationRetrieval信息检索)模型中的一种，由于其简单，直观，高效，所以被广泛的应用到搜索引擎的架构中

zhongguoren666·2011-12-22 11:00

基于向量空间模型的文本分类算法

基于向量空间模型的文本聚类算法[日期：2009-07-27]来源：作者：[字体：大中小]姚清耘，刘功申，李翔( 上海交通大学信息安全工程学院，上海 200240) 摘要：文本聚类是聚类的一个重要研究分支

wangzhiqing3·2011-12-12 15:00

搜索引擎Rank算法

传统的rank有很多经典的模型来完成这一任务，比如boolmodel（布尔模型），VSM（向量空间模型），languagemodel

fbfsber008·2011-12-06 09:00

向量空间的距离

在向量空间模型中，文本泛指各种机器可读的记录。

w800927·2011-11-01 15:00

Lucene3.0之结果排序

1、基本排序原理① 向量空间模型GeraldSalton 等在 30 多年前提出的"向量空间模型" （VectorSpaceModel，VSM）[SaltonandLesk,1968,Salton

yajie·2011-10-28 08:00

web搜索学习笔记之概率模型

2.2向量空间模型向量空间模型基于文档与查询的相似度，进行排序。

rrerre·2011-10-17 22:00

海量数据处理专题7——倒排索引(搜索引擎之基石)

VSM检索模型VSM全称是VectorSpaceModel(向量空间模型)，是IR(InformationRetrieval信息检索)模型中的一种，由于其简单，直观，高效，所以被广泛的应用到搜索引擎的架构中

yajie·2011-10-13 18:00

某人发布的倒排索引

中文分词(反向最大匹配,用trie实现) 生成正向文档(我自己定义的格式,暂时是这样) 生成倒排索引(分块存储,bytecode压缩算法,正文和快照采用zlib压缩) 提交查询串检索(只实现了向量空间模型

forestLight·2011-09-29 10:00

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

VSM检索模型VSM全称是VectorSpaceModel(向量空间模型)，是IR(InformationRetrieval信息检索)模型中的一种，由于其简单，直观，高效，所以被广泛的应用到搜索引擎的架构中

pkuoliver·2011-09-27 10:00

web搜索学习笔记

说明2:最直观的,从文档到文档所包含的单词的索引,称为正向索引;同理,从单词到包含该单词的文档的索引,称为反向索引.其次,是建立查询模型.经典的模型包括布尔模型,向量空间模型和概率模型.课程中介

rrerre·2011-09-12 21:00

mahout应用kmeans进行文本聚类2之——实例分析

在信息检索研究领域已经有很好的建模方式，就是信息检索领域中最常用的向量空间模型词频-逆向文本频率(TermFrequency–InverseDocumentFrequency,TF-IDF)：它是对TF

aidayei·2011-08-09 22:00

推荐频道

向量空间模型

主题模型在文本挖掘中的发展过程

向量空间模型VSM

余弦相似性的文本计算思想

向量空间模型

Latent Semantic Analysis(LSA/ LSI)算法简介

词权重计算及应用

词的权重计算及应用

改进向量空间模型

向量空间模型（VSM）的余弦定理公式（用余弦定理来表示向量之间的相似度）

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

Lucene 4.0【转】

Rocchio算法

文本去重之SimHash算法

搜索引擎-查询

文本去重之SimHash算法

SimHash算法

文本去重之SimHash算法

主成分分析

VSM向量空间模型对文本的分类以及简单实现

VSM向量空间模型对文本的分类以及简单实现

Lucene学习之计算相似度模型VSM(Vector Space Model)

文本去重之SimHash算法

网页消重算法（via北大天网课题组）

基于向量空间模型的文本聚类算法

信息检索技术——向量空间模型

余弦相似度

【转】mahout应用kmeans进行文本聚类2之——实例分析

余弦相似度

余弦相似度

vsm表示文档的特征

余弦相似度

Lucene Similarity (Lucene 文档评分score机制详解)

Latent semantic analysis note(LSA)

Latent semantic analysis note(LSA)

信息检索技术——向量空间模型

搜索相关度排序

文本相似度的计算-向量空间模型

文本表示 --- VSM

海量数据处理专题（八）――倒排索引(搜索引擎之基石)

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

基于向量空间模型的文本分类算法

搜索引擎Rank算法

向量空间的距离

Lucene3.0之结果排序

web搜索学习笔记之概率模型

海量数据处理专题7——倒排索引(搜索引擎之基石)

某人发布的倒排索引

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

web搜索学习笔记

mahout应用kmeans进行文本聚类2之——实例分析