E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
minHash
MinHash
算法+实现
参考: 原理ppt: http://wenku.baidu.com/view/089e85c42cc58bd63186bdfc.html 求解实现算法: http://fuliang.iteye.com/blog/1025638 最后部分. 感谢原作者. 算法原理+数学证明见原文. 简单的实现python代码如下: 1 import o
·
2015-11-13 19:17
hash
距离、相似和相关
杰卡德距离、SMC、Tanimoto系数与
minhash
11. Pearson相关系数 12. 信息熵与KL距离 13.
·
2015-11-08 10:50
MinHash
算法
MinHash
是用于快速检测两个集合的相似性的方法。改方法由Andrei Broder(1997)发明,并最初用于搜索引擎AltaVista中来检测重复的网页的算法。
·
2015-11-05 08:41
hash
minhash
minhash
是一种基于jaccard index 相似度的算法。属于LSH(Location Sensitive Hash)家族中的一员。
·
2015-10-31 11:42
hash
[转]文档去重算法:SimHash和
MinHash
simhash与重复信息识别来源:http://grunt1223.iteye.com/blog/964564 在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”…… 随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意
m635674608
·
2015-10-13 20:00
实验报告:运用shingling+
minhash
+lsh方法对文档相似性进行分析
进一步理解shingling+
minhash
+lsh方法。 二、实验内容1.安装vmware、hadoop、centos操作系统。2. 使用给定的数据集,完成对文档相似性分析的实验任务。
u014686180
·
2015-05-15 13:00
mapreduce
hadoop
大数据
文档相似性分析
MinHash
与SimHash
这篇文字主要写
MinHash
和SimHash的区别、联系、在工业界使用等,不涉及
MinHash
和SimHash的详细基础介绍,相关资料参考资料里给出。
dm_ustc
·
2015-05-10 22:46
哈希相关
simHash 简介以及java实现
simHash简介以及java实现http://gemantic.iteye.com/blog/1701101文本去重算法还有cos或者
MinHash
算法传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值
SIMONE
·
2015-04-17 14:00
simhash,
minhash
,lsh
如题,先备注,后续补上!把之前关于这块的认知写上。最近和梁兄讨论了这个,又有点新收获。备注几个哈希函数:murmurhash,MD5
hero_fantao
·
2014-08-30 11:00
最小哈希
1.1 算法简介最小哈希(
minhash
),简单来说就是从用户喜欢的所有商品中随机抽出n个商品,对于抽出的这n个商品都相同的几个用户,认为是兴趣相似的用户,属于同一类。
jiangshouzhuang
·
2014-07-12 07:00
Mahout系列----
MinHash
聚类
Map: Vector featureVector = features.get(); if (featureVector.size() < minVectorSize) { return; } /
thd52java
·
2013-12-05 16:00
Mahout
聚类算法
mahout系列----
minhash
聚类
Map:VectorfeatureVector=features.get(); if(featureVector.size()>24); bytesToHash[1]=(byte)(value>>16); bytesToHash[2]=(byte)(value>>8); bytesToHash[3]=(byte)value; inthashInd
yueyedeai
·
2013-12-05 00:00
Mahout
MinHash
原理
最小哈希原理介绍
MinHash
是基于JaccardIndex相似度(海量数据不可行)的算法,一种降维的方法A,B两个集合:A={s1,s3,s6,s8,s9} B={s3,s4,s7,s8,s10}
MinHash
yueyedeai
·
2013-11-13 09:00
机器学习
MinHash
1.概述 跟SimHash一样,
MinHash
也是LSH的一种,可以用来快速估算两个集合的相似度。
MinHash
由AndreiBroder提出,最初用于在搜索引擎中检测重复网页。
yueyedeai
·
2013-11-13 09:00
机器学习
MinHash
1.概述 跟SimHash一样,
MinHash
也是LSH的一种,可以用来快速估算两个集合的相似度。
MinHash
由AndreiBroder提出,最初用于在搜索引擎中检测重复网页。
noobzc1
·
2013-10-14 11:00
文档的Jaccard相似度,
MinHash
, 及
MinHash
签名
近日读了MiningofMassivedatasets中关于Findingsimilaritems相关内容,遂将其中的
MinHash
算法整理如下。
dannypolyu
·
2013-07-21 18:00
Tech
algorithm
mahout之
MinHash
实现
MinHash
可用于聚类或者计算相似度,详情概述参见"
MinHash
概述及举例"博客,此处阐述mahout的
MinHash
实现,mahout用
minhash
来聚类。
小网客
·
2013-05-03 11:00
Mahout
mahout之
MinHash
实现
MinHash
可用于聚类或者计算相似度,详情概述参见"
MinHash
概述及举例"博客,此处阐述mahout的
MinHash
实现,mahout用
minhash
来聚类。
小网客
·
2013-05-03 11:00
Mahout
MinHash
概述及举例
MinHash
可用于聚类,计算向量相似等,两个向量相似计算,通过
minhash
降维从而把计算量维持在一个常数级别,他是基于Jaccard Index 相似度的算法,也是一种LSH的降维的方法。
小网客
·
2013-04-28 16:00
hash
MinHash
概述及举例
MinHash
可用于聚类,计算向量相似等,两个向量相似计算,通过
minhash
降维从而把计算量维持在一个常数级别,他是基于Jaccard Index 相似度的算法,也是一种LSH的降维的方法。
小网客
·
2013-04-28 16:00
hash
MinHash
概述及举例
MinHash
可用于聚类,计算向量相似等,两个向量相似计算,通过
minhash
降维从而把计算量维持在一个常数级别,他是基于JaccardIndex相似度的算法,也是一种LSH的降维的方法。
·
2013-04-28 08:00
minhash
基于
MinHash
的集合相似度计算原理
首先,
MinHash
是用于快速检测两个集合的相似性的方法。该方法由 AndreiBroder (1997)发明,并最初用于AltaVista搜索引擎中来检测重复的网页。它同样可以用于大规模文档聚类中。
kiwivip
·
2013-03-01 14:00
Near Duplicate Image Detection
NearDuplicateImageDetection:min-Hashandtf-idfWeighting,BritishMachineVisionConference,2008.这篇论文主要是提供了一种修改后的
minhash
mysterium
·
2013-01-28 12:14
机器视觉
Mahout
MinHash
代码阅读理解
MinHash
的介绍请参看http://rdc.taobao.com/team/jm/archives/2434初始化Configurationconf=getConf(); conf.setInt(
softwarehe
·
2013-01-21 11:00
MinHash
原理与应用
MinHash
首先它是一种基于JaccardIndex相似度的算法,也是一种LSH的降维的方法,应用于大数据集的相似度检索、推荐系统。下边按我的理解介绍下
MinHash
。
阿里中间件
·
2012-10-29 09:00
原理
应用
minhash
MinHash
原理与应用
MinHash
首先它是一种基于JaccardIndex相似度的算法,也是一种LSH的降维的方法,应用于大数据集的相似度检索、推荐系统。下边按我的理解介绍下
MinHash
。
dafu
·
2012-10-29 01:00
未分类
推荐系统分享
推荐的结果是三个算法的融合,即
MinHash
, PLSI, c
ipjmc
·
2012-10-15 17:00
Google
推荐
推荐系统分享
推荐的结果是三个算法的融合,即
MinHash
, PLSI, c
ipjmc
·
2012-10-15 17:00
Google
推荐
数据挖掘之lsh
minhash
simhash
在项目中碰到这样的问题:互联网用户每天会访问很多的网页,假设两个用户访问过相同的网页,说明两个用户相似,相同的网页越多,用户相似度越高,这就是典型的CF中的user-based推荐算法。算法的原理很简单,只要两两计算用户的相似性,针对每个用户,获取最相似的K个用户即可。但是在实际的工程上,假定用户规模在亿的规模N,计算复杂度为N*N,即使是分布式,也是非常可怕的复杂度。考虑一下,我们是不是真的需要
hxxiaopei
·
2012-09-14 00:00
算法
数据挖掘
互联网
user
url
pair
文本去重之
MinHash
算法
1.概述 跟SimHash一样,
MinHash
也是LSH的一种,可以用来快速估算两个集合的相似度。
MinHash
由AndreiBroder提出,最初用于在搜索引擎中检测重复网页。
oanqoanq
·
2012-09-04 00:00
c
算法
搜索引擎
文档
MinHash
算法
1.概述 跟SimHash一样,
MinHash
也是LSH的一种,可以用来快速估算两个集合的相似度。
MinHash
由AndreiBroder提出,最初用于在搜索引擎中检测重复网页。
meijia_tts
·
2012-08-31 11:00
c
算法
搜索引擎
文档
Jaccard相似度、
minHash
、Locality-Sensitive Hashing(LSH)
在数据挖掘中经常需要用到比较两个东西的相似度。比如搜索引擎要避免非常相似的文档出现在结果的前几页,再比如很多网站上都有的“查找与你口味相似的用户”、“你可能喜欢什么什么”之类的功能。后者其实是很大的一块叫做“协同过滤”的研究领域,留待以后详谈。首先我们定义两个集合S,T的Jaccard相似度:Sim(S,T)=|S,T的交集|/|S,T的并集|。直观上就容易感觉出这是一个很简单而且比较合理的度量,
meijia_tts
·
2012-08-30 18:00
c
算法
数据挖掘
搜索引擎
function
文档
文本去重之
MinHash
算法
1.概述 跟SimHash一样,
MinHash
也是LSH的一种,可以用来快速估算两个集合的相似度。
MinHash
由AndreiBroder提出,最初用于在搜索引擎中检测重复网页。
sunlylorn
·
2012-08-06 14:00
c
算法
搜索引擎
文档
文本去重之
MinHash
算法
1.概述 跟SimHash一样,
MinHash
也是LSH的一种,可以用来快速估算两个集合的相似度。
MinHash
由AndreiBroder提出,最初用于在搜索引擎中检测重复网页。
pathenon
·
2012-07-06 13:00
聚类
minhash
文本去重
Min-Hash和推荐系统
前几年看GoogleNewsRecommendation的那篇Paper,对里面提到的
MinHash
的算法基本没有注意,因为之前的习惯都是只注意论文的模型那块,至于怎么优化模型一般都只是扫一眼。
xlvector
·
2012-06-22 04:00
未分类
读代码-MinHashDriver及相关
用到:泛型类 counter 哈希实现 package org.apache.mahout.clustering.
minhash
; public final
linest
·
2012-01-26 14:00
driver
大规模数据挖掘-第三章 学习笔记二
阅读更多3.4文档局部性敏感哈希(Locality-SensitiveHashingforDocuments)虽然我们可以通过
minhash
来压缩大的文档到小的签名,并且仍然能够保留每对文档的相似性。
fuliang
·
2011-05-02 21:00
数据挖掘
工作
大规模数据挖掘-第三章 学习笔记二
3.4 文档局部性敏感哈希(Locality-Sensitive Hashing for Documents) 虽然我们可以通过
minhash
来压缩大的文档到小的签名,并且仍然能够保留每对文档的相似性
fuliang
·
2011-05-02 21:00
工作
数据挖掘
大规模数据挖掘-第三章 学习笔记二
3.4 文档局部性敏感哈希(Locality-Sensitive Hashing for Documents) 虽然我们可以通过
minhash
来压缩大的文档到小的签名,并且仍然能够保留每对文档的相似性
fuliang
·
2011-05-02 21:00
工作
数据挖掘
用户推荐Slope One算法与mapreduce&hive实现
下载本文代码 用户推荐越来越热, Google使用
MinHash
, PLSI, LDA, SVD, SVM等算法,分析用户的喜好, 实现新闻的自动分类;新浪也用Slope One以及一些Item-based
coderplay
·
2009-09-14 20:00
apache
mapreduce
算法
hadoop
hbase
用户推荐Slope One算法与mapreduce&hive实现
阅读更多下载本文代码用户推荐越来越热,Google使用
MinHash
,PLSI,LDA,SVD,SVM等算法,分析用户的喜好,实现新闻的自动分类;新浪也用SlopeOne以及一些Item-based的算法对音乐进行推荐
coderplay
·
2009-09-14 20:00
算法
Mapreduce
Hadoop
Apache
HBase
用户推荐Slope One算法与mapreduce&hive实现
阅读更多下载本文代码用户推荐越来越热,Google使用
MinHash
,PLSI,LDA,SVD,SVM等算法,分析用户的喜好,实现新闻的自动分类;新浪也用SlopeOne以及一些Item-based的算法对音乐进行推荐
coderplay
·
2009-09-14 20:00
算法
Mapreduce
Hadoop
Apache
HBase
上一页
1
2
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他