E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
向量空间模型
向量空间模型
向量空间模型
(VSM:Vectorspacemodel)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理。
goodgirl1991
·
2015-03-30 12:00
SimHash算法
对于文本相似度的计算,传统的方法是使用
向量空间模型
(VectorSpaceModel),即VSM,VSM计算文本相似度的方法是这样的:先对文本进行分词,提取出特征词,然后建立文本向量,把相似度的计算转化成某种特征向量距离的计算
ACdreamers
·
2015-03-26 21:00
Classifier4J的中文支持
Classifier4J是一个轻量级的分类工具,支持贝叶斯分类、
向量空间模型
、信息摘要等。
jiutianhe
·
2015-02-03 14:00
TopicModel主题模型 - LSA(隐性语义分析)模型和其实现的早期方法SVD
http://blog.csdn.net/pipisorry/article/details/42560331传统方法
向量空间模型
(VSM)的缺点传统
向量空间模型
使用精确的词匹配,即精确匹配用户输入的词与向量空间中存在的词
pipisorry
·
2015-01-09 20:00
SVD
LSA
[Elasticsearch] 控制相关度 (二) - Lucene中的PSF(Practical Scoring Function)与查询期间提升
Lucene中的PracticalScoringFunction对于多词条查询(MultitermQueries),Lucene使用的是布尔模型(BooleanModel),TF/IDF以及
向量空间模型
dm_vincent
·
2014-12-24 10:00
elasticsearch
搜索引擎
搜索
Lucene
全文搜索
Latent semantic analysis note(LSA) or Latent Semantic Indexing (LSI)
该方法和传统
向量空间模型
(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents),并通过向量
vfgbv
·
2014-11-10 11:00
lsi
词权重计算及应用
本文讨论如何计算词(有时候称特征向量)权重和
向量空间模型
及其应用。本文的“文档”是指查询对象,它们可以使一条条单独的记录或者是一本书的各章,还可以是一个网页,或者xml文件等。
wenyusuran
·
2014-11-04 09:00
Latent semantic analysis note(LSA)
该方法和传统
向量空间模型
(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents),并通过向量
xljiulong
·
2014-09-25 11:00
文本挖掘
Vector Space Model (
向量空间模型
)
向量空间模型
(vectorspacemodel)在信息检索和搜索引擎中应用非常广泛。这个模型的关键是矩阵的建立,这就用到了之前一篇的tf-idf方法。
gcyxf
·
2014-09-22 20:12
信息检索
lucene4.5源码分析系列:lucene的默认评分算法-
向量空间模型
(Vector Space Model)
在lucene4以前,一直都是使用经典的
向量空间模型
作为其检索模型,这种方式虽然统一了评分算法,简化了计算,但是带来的问题是很难去调整,一旦
向量空间模型
不适合,也很难去替换一种更好的算法。
wbj0110
·
2014-09-17 08:00
Lucene
lucene4.5源码分析系列:lucene的默认评分算法-
向量空间模型
(Vector Space Model)
阅读更多在lucene4以前,一直都是使用经典的
向量空间模型
作为其检索模型,这种方式虽然统一了评分算法,简化了计算,但是带来的问题是很难去调整,一旦
向量空间模型
不适合,也很难去替换一种更好的算法。
wbj0110
·
2014-09-17 08:00
Lucene
lucene4.5源码分析系列:lucene的默认评分算法-
向量空间模型
(Vector Space Model)
在lucene4以前,一直都是使用经典的
向量空间模型
作为其检索模型,这种方式虽然统一了评分算法,简化了计算,但是带来的问题是很难去调整,一旦
向量空间模型
不适合,也很难去替换一种更好的算法。
wbj0110
·
2014-09-17 08:00
Lucene
lucene4.5源码分析系列:lucene的默认评分算法-
向量空间模型
(Vector Space Model)
在lucene4以前,一直都是使用经典的
向量空间模型
作为其检索模型,这种方式虽然统一了评分算法,简化了计算,但是带来的问题是很难去调整,一旦
向量空间模型
不适合,也很难去替换一种更好的算法。
wbj0110
·
2014-09-17 08:00
Lucene
Rocchio算法
Rocchio算法是相关反馈实现中的一个经典算法,它提供了一种将相关反馈信息融到
向量空间模型
的方法。
blackproof
·
2014-09-16 20:00
机器学习
Rocchio
Rocchio算法
Rocchio算法是相关反馈实现中的一个经典算法,它提供了一种将相关反馈信息融到
向量空间模型
的方法。
blackproof
·
2014-09-16 20:00
机器学习
Rocchio
Lucene评分机制
我们首先简要介绍下
向量空间模型
评分(V
hawkdowen
·
2014-09-02 13:00
排序
搜索
Lucene
评分
打分
向量空间模型
(VSM)在文档相似度计算上的简单介绍
向量空间模型
(VSM:Vectorspacemodel)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理。
Valar_Morghulis
·
2014-08-04 10:26
数据挖掘
用opencv实现的PCA算法,非API调用
理论参考文献:但此文没有代码实现,这里自己实现一下,让理解更为深刻问题:假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的
向量空间模型
中,认为两者独立。
fangjian1204
·
2014-07-31 11:00
算法
opencv
数据压缩
图像处理
pca
文本相似度计算-google的simHash汉明距离
阅读更多一、概述针对文本相似性计算,很多开发朋友首先想到的应该是使用
向量空间模型
VSM(VectorSpaceModel)。
dengqsintyt
·
2014-07-22 17:00
simHash
汉明距离
相似度计算
分析
文本相似度计算-google的simHash汉明距离
一、概述 针对文本相似性计算,很多开发朋友首先想到的应该是使用
向量空间模型
VSM(VectorSpaceModel)。
dengqsintyt
·
2014-07-22 17:00
分析
相似度计算
汉明距离
Simhash
文本相似度计算-google的simHash汉明距离
一、概述 针对文本相似性计算,很多开发朋友首先想到的应该是使用
向量空间模型
VSM(VectorSpaceModel)。
dengqsintyt
·
2014-07-22 09:00
Google
计算
相似
数据挖掘:网络挖掘技术——微博文本特征提取
经典的
向量空间模型
(VSM:VectorSpaceModel)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。
zhuangxiaobin
·
2014-06-23 19:00
微博
机器学习
Rocchio算法详解
Rocchio算法是相关反馈实现中的一个经典算法,它提供了一种将相关反馈信息融到
向量空间模型
的方法。
wbj0110
·
2014-05-19 14:00
机器学习
Rocchio算法详解
Rocchio算法是相关反馈实现中的一个经典算法,它提供了一种将相关反馈信息融到
向量空间模型
的方法。
wbj0110
·
2014-05-19 14:00
机器学习
潜在语义分析
该方法和传统
向量空间模型
(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents),并通过向量
san_yun
·
2014-04-22 23:00
分析
Lucene TFIDF打分公式
对于查询q和文档d,假设查询为纯token查询,套用
向量空间模型
(VSM),相似度度量使用余弦,另外再加一个coord(q,d)即d中满足q中must和should查询条件个数的度量(估计一般是m/n了
jollyjumper
·
2014-04-20 13:00
Lucene
Lucene
打分
Practical
SCO
SimHash算法
说到文本相似性计算,大家首先想到的应该是使用
向量空间模型
VSM(VectorSpaceModel)。
hfy9013
·
2014-04-13 22:00
hash
OpenCV(2)ML库->K-Nearest Neighbour分类器
最邻近结点算法采用
向量空间模型
来分类,概念为相同类别的案例,彼此的相似度高,而可以借由计算与已知类别案例之相似度,来评估未知类别案例可能的分类。目标:分类未知类别案例。输入:待分类未知类别案例项目。
sunboyiris
·
2014-04-01 21:00
OpenCV(2)ML库->K-Nearest Neighbour分类器
最邻近结点算法采用
向量空间模型
来分类,概念为相同类别的案例,彼此的相似度高,而可以借由计算与已知类别案例之相似度,来评估未知类别案例可能的分类。目标:分类未知类别案例。输入:待分类未知类别案例项目。
王孟贤
·
2014-04-01 21:00
信息检索——
向量空间模型
(Vector Space Model)
TF:tf即termfrequency,表示一个termt出现在documentd中的次数,这是文档中一个很重要的概念。出现次数更多意味着重要程度越高,但是需要注意的是,相关度的提高并不是和次数的提高成同比的。因此通常tf需要做如下的处理w1=log10(tf+1)这样做就是要弱化次数对于相关度的影响DF/IDF:df即documentfrequency,表示一个term在整个文档集中出现的频率。
fengzanfeng
·
2014-03-25 15:00
Latent semantic analysis note(LSA)
该方法和传统
向量空间模型
(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents),并通过向量
keith0812
·
2014-02-27 23:00
向量空间模型
与Lucene的打分机制以及影响打分的几种方式
向量空间模型
请参照全文检索的基本原理的blog问题:在你的文章中提到了:于是我们把所有此文档中词(term)的权重(termweight)看作一个向量。
ddlgyq
·
2014-02-26 15:00
Lucene
Lucene TF-IDF 相关性算分公式
Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为
向量空间模型
,名字听起来很复杂
[email protected]
(鲁塔弗)
·
2014-02-17 21:00
Lucene
tf
idf
lucene修改相似度实现:去掉文本长度和重复词的影响 - sling2007的日志 - 网易博客
文档的分值代表了该文档在特定查询词下对应的相关性高低,他关联着信息检索
向量空间模型
中的向量夹角的接近度。一个文档越与查询词相关,得分越高。
·
2014-02-13 00:00
Lucene
Latent semantic analysis (LSA)
该方法和传统
向量空间模型
(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents),并通过向量
zhdjbabygo
·
2014-01-09 15:00
基于
向量空间模型
的文本聚类算法
1文本聚类研究现状Internet已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着Internet的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心(CNNIC)2007年1月最新公布的中国互联网络发展状况统计报告中显示,70.2%的网络信息均以文本形式体现。对于这种半结构或无结构化数据,如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题
helld123
·
2013-12-05 21:04
nlp
聚类
基于
向量空间模型
的文本聚类算法
1文本聚类研究现状Internet已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着Internet的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心(CNNIC)2007年1月最新公布的中国互联网络发展状况统计报告中显示,70.2%的网络信息均以文本形式体现。对于这种半结构或无结构化数据,如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题
dong976209075
·
2013-12-05 21:00
文本聚类
潜在语义分析
该方法和传统
向量空间模型
(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents),并通过向量
yueyedeai
·
2013-11-11 17:00
机器学习
自然语言处理
这就是搜索引擎-笔试5-检索模型与搜索排序
这就是搜索引擎-笔试5-检索模型与搜索排序检索模型与搜索排序最重要的两个因素,用户查询与网页相关性,网页链接情况检索模型:用户查询与网页相关性布尔模型,
向量空间模型
,概率模型,语言模型,机器学习排序算法布尔模型
程序描绘人生
·
2013-11-04 12:00
Latent Semantic Analysis(LSA/ LSI)算法简介
1.传统
向量空间模型
的缺陷
向量空间模型
是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF值,然后使用
向量空间模型
(亦即计算查询
san_yun
·
2013-10-30 11:00
Latent Semantic Analysis(LSA/ LSI)算法简介
1.传统
向量空间模型
的缺陷
向量空间模型
是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF值,然后使用
向量空间模型
(亦即计算查询
san_yun
·
2013-10-30 11:00
ant
数学之路(3)-机器学习(3)-常用算法-KD树和与KNN
最邻近结点算法采用
向量空间模型
来分类,概念为相同类别的案例,彼此的相似度高,而可以借由计算与已知类别案例之相似度,来评估未知类别案例可能的分类。目标:分类未知类别案例。输入:待分类未知类别案例项目。
u010255642
·
2013-10-11 16:00
算法
数学
机器学习
Latent semantic analysis note(LSA)
该方法和传统
向量空间模型
(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents),并通过向量
u010064842
·
2013-10-07 10:00
LSA
潜在语义分析
信息检索笔记-完整搜索系统的评分计算
前面我们给出了文档评分中词项权重计算的理论,并由此导出
向量空间模型
和基本余弦相似度评分算法。当然不少策略不会精确返回与查询相匹配的K篇文档,一些策略也可以推广到余弦相似度计算之外的其他场合中去。
u010064842
·
2013-10-04 11:00
向量空间模型
搜素系统构成
词权重计算及应用
[+] 本文讨论如何计算词(有时候称特征向量)权重和
向量空间模型
及其应用。本文的“文档”是指查询对象,它们可以使一条条单独的记录或者是一本书的各章,还可以是一个网页,或者xml文件等。
pi9nc
·
2013-09-27 11:00
开源项目
Lucene Scoring 评分机制
Lucenescoring组合使用了信息检索的
向量空间模型
和布尔模型。首先来看下lucene的评分公式(在Similarity类里的说明)sco
san_yun
·
2013-08-21 20:00
Lucene
Recode process
2013-07-18星期四天气晴1.IR:chapter12:基于语言建模的信息检索模型看这章的主要目的是熟悉一下,传统的文档检索是基于
向量空间模型
,其中的权重计算方式为tf-idf:idf(t)用于表示词项
zhouyongsdzh
·
2013-07-18 16:00
对lucene 的打分公式的个人理解
2、Term:query的最小单位3、Tf:一个term在一个文档中出现的次数4、Idf:一个term在多少个文档中出现过二
向量空间模型
的计算1、余弦定理2、Vq为query向量,Vd为document
momoHuang
·
2013-07-16 21:00
读《若无云,岂有风--词语语义相似度计算简介》
1、语境通常用
向量空间模型
pirage
·
2013-06-07 10:00
基于LDA对关注的微博用户进行聚类
传统的文本聚类方法一般基于
向量空间模型
(vectorspacemodel):在对文本集中的每个文
intergret
·
2013-06-06 19:00
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他