minHash 第2页

MinHash算法+实现

参考: 原理ppt: http://wenku.baidu.com/view/089e85c42cc58bd63186bdfc.html 求解实现算法: http://fuliang.iteye.com/blog/1025638 最后部分. 感谢原作者. 算法原理+数学证明见原文. 简单的实现python代码如下: 1 import o

·2015-11-13 19:17

·2015-11-08 10:50

MinHash算法

MinHash是用于快速检测两个集合的相似性的方法。改方法由Andrei Broder（1997）发明，并最初用于搜索引擎AltaVista中来检测重复的网页的算法。

·2015-11-05 08:41

minhash

　　minhash是一种基于jaccard index 相似度的算法。属于LSH(Location Sensitive Hash)家族中的一员。　　

·2015-10-31 11:42

[转]文档去重算法：SimHash和MinHash

simhash与重复信息识别来源：http://grunt1223.iteye.com/blog/964564 在工作学习中，我往往感叹数学奇迹般的解决一些貌似不可能完成的任务，并且十分希望将这种喜悦分享给大家，就好比说：“老婆，出来看上帝”…… 随着信息爆炸时代的来临，互联网上充斥着着大量的近重复信息，有效地识别它们是一个很有意义的课题。例如，对于搜索引擎的爬虫系统来说，收录重复的网页是毫无意

m635674608·2015-10-13 20:00

实验报告：运用shingling+minhash+lsh方法对文档相似性进行分析

进一步理解shingling+minhash+lsh方法。二、实验内容1．安装vmware、hadoop、centos操作系统。2. 使用给定的数据集,完成对文档相似性分析的实验任务。

u014686180·2015-05-15 13:00

MinHash与SimHash

这篇文字主要写MinHash和SimHash的区别、联系、在工业界使用等，不涉及MinHash和SimHash的详细基础介绍，相关资料参考资料里给出。

dm_ustc·2015-05-10 22:46

simHash 简介以及java实现

simHash简介以及java实现http://gemantic.iteye.com/blog/1701101文本去重算法还有cos或者MinHash算法传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值

SIMONE·2015-04-17 14:00

simhash， minhash ，lsh

如题，先备注，后续补上！把之前关于这块的认知写上。最近和梁兄讨论了这个，又有点新收获。备注几个哈希函数：murmurhash，MD5

hero_fantao·2014-08-30 11:00

最小哈希

1.1 算法简介最小哈希（minhash），简单来说就是从用户喜欢的所有商品中随机抽出n个商品，对于抽出的这n个商品都相同的几个用户，认为是兴趣相似的用户，属于同一类。

jiangshouzhuang·2014-07-12 07:00

Mahout系列----MinHash聚类

Map: Vector featureVector = features.get(); if (featureVector.size() < minVectorSize) { return; } /

thd52java·2013-12-05 16:00

mahout系列----minhash聚类

Map:VectorfeatureVector=features.get(); if(featureVector.size()>24); bytesToHash[1]=(byte)(value>>16); bytesToHash[2]=(byte)(value>>8); bytesToHash[3]=(byte)value; inthashInd

yueyedeai·2013-12-05 00:00

MinHash 原理

最小哈希原理介绍MinHash是基于JaccardIndex相似度（海量数据不可行）的算法,一种降维的方法A，B两个集合：A={s1,s3,s6,s8,s9} B={s3,s4,s7,s8,s10}MinHash

yueyedeai·2013-11-13 09:00

MinHash

1.概述跟SimHash一样，MinHash也是LSH的一种，可以用来快速估算两个集合的相似度。MinHash由AndreiBroder提出，最初用于在搜索引擎中检测重复网页。

yueyedeai·2013-11-13 09:00

MinHash

1.概述跟SimHash一样，MinHash也是LSH的一种，可以用来快速估算两个集合的相似度。MinHash由AndreiBroder提出，最初用于在搜索引擎中检测重复网页。

noobzc1·2013-10-14 11:00

文档的Jaccard相似度， MinHash，及MinHash签名

近日读了MiningofMassivedatasets中关于Findingsimilaritems相关内容，遂将其中的MinHash算法整理如下。

dannypolyu·2013-07-21 18:00

mahout之MinHash实现

MinHash可用于聚类或者计算相似度，详情概述参见"MinHash概述及举例"博客，此处阐述mahout的MinHash实现,mahout用minhash来聚类。

小网客·2013-05-03 11:00

mahout之MinHash实现

MinHash可用于聚类或者计算相似度，详情概述参见"MinHash概述及举例"博客，此处阐述mahout的MinHash实现,mahout用minhash来聚类。

小网客·2013-05-03 11:00

MinHash概述及举例

MinHash可用于聚类，计算向量相似等，两个向量相似计算，通过minhash降维从而把计算量维持在一个常数级别，他是基于Jaccard Index 相似度的算法，也是一种LSH的降维的方法。

小网客·2013-04-28 16:00

MinHash概述及举例

MinHash可用于聚类，计算向量相似等，两个向量相似计算，通过minhash降维从而把计算量维持在一个常数级别，他是基于Jaccard Index 相似度的算法，也是一种LSH的降维的方法。

小网客·2013-04-28 16:00

MinHash概述及举例

MinHash可用于聚类，计算向量相似等，两个向量相似计算，通过minhash降维从而把计算量维持在一个常数级别，他是基于JaccardIndex相似度的算法，也是一种LSH的降维的方法。

·2013-04-28 08:00

基于MinHash的集合相似度计算原理

首先，MinHash是用于快速检测两个集合的相似性的方法。该方法由 AndreiBroder (1997)发明，并最初用于AltaVista搜索引擎中来检测重复的网页。它同样可以用于大规模文档聚类中。

kiwivip·2013-03-01 14:00

Near Duplicate Image Detection

NearDuplicateImageDetection:min-Hashandtf-idfWeighting,BritishMachineVisionConference,2008.这篇论文主要是提供了一种修改后的minhash

mysterium·2013-01-28 12:14

Mahout MinHash代码阅读理解

MinHash的介绍请参看http://rdc.taobao.com/team/jm/archives/2434初始化Configurationconf=getConf(); conf.setInt(

softwarehe·2013-01-21 11:00

MinHash原理与应用

MinHash首先它是一种基于JaccardIndex相似度的算法，也是一种LSH的降维的方法，应用于大数据集的相似度检索、推荐系统。下边按我的理解介绍下MinHash。

阿里中间件·2012-10-29 09:00

MinHash原理与应用

MinHash首先它是一种基于JaccardIndex相似度的算法，也是一种LSH的降维的方法，应用于大数据集的相似度检索、推荐系统。下边按我的理解介绍下MinHash。

dafu·2012-10-29 01:00

数据挖掘之lsh minhash simhash

在项目中碰到这样的问题：互联网用户每天会访问很多的网页，假设两个用户访问过相同的网页，说明两个用户相似，相同的网页越多，用户相似度越高，这就是典型的CF中的user-based推荐算法。算法的原理很简单，只要两两计算用户的相似性，针对每个用户，获取最相似的K个用户即可。但是在实际的工程上，假定用户规模在亿的规模N，计算复杂度为N*N，即使是分布式，也是非常可怕的复杂度。考虑一下，我们是不是真的需要

hxxiaopei·2012-09-14 00:00

文本去重之MinHash算法

1.概述跟SimHash一样，MinHash也是LSH的一种，可以用来快速估算两个集合的相似度。MinHash由AndreiBroder提出，最初用于在搜索引擎中检测重复网页。

oanqoanq·2012-09-04 00:00

MinHash算法

1.概述跟SimHash一样，MinHash也是LSH的一种，可以用来快速估算两个集合的相似度。MinHash由AndreiBroder提出，最初用于在搜索引擎中检测重复网页。

meijia_tts·2012-08-31 11:00

Jaccard相似度、minHash、Locality-Sensitive Hashing(LSH)

在数据挖掘中经常需要用到比较两个东西的相似度。比如搜索引擎要避免非常相似的文档出现在结果的前几页，再比如很多网站上都有的“查找与你口味相似的用户”、“你可能喜欢什么什么”之类的功能。后者其实是很大的一块叫做“协同过滤”的研究领域，留待以后详谈。首先我们定义两个集合S,T的Jaccard相似度:Sim(S,T)=|S,T的交集|/|S,T的并集|。直观上就容易感觉出这是一个很简单而且比较合理的度量，

meijia_tts·2012-08-30 18:00

文本去重之MinHash算法

1.概述跟SimHash一样，MinHash也是LSH的一种，可以用来快速估算两个集合的相似度。MinHash由AndreiBroder提出，最初用于在搜索引擎中检测重复网页。

sunlylorn·2012-08-06 14:00

文本去重之MinHash算法

1.概述跟SimHash一样，MinHash也是LSH的一种，可以用来快速估算两个集合的相似度。MinHash由AndreiBroder提出，最初用于在搜索引擎中检测重复网页。

pathenon·2012-07-06 13:00

xlvector·2012-06-22 04:00

读代码-MinHashDriver及相关

用到：泛型类 counter 哈希实现 package org.apache.mahout.clustering.minhash; public final

linest·2012-01-26 14:00

大规模数据挖掘-第三章学习笔记二

fuliang·2011-05-02 21:00

大规模数据挖掘-第三章学习笔记二

3.4 文档局部性敏感哈希（Locality-Sensitive Hashing for Documents）虽然我们可以通过minhash来压缩大的文档到小的签名，并且仍然能够保留每对文档的相似性

fuliang·2011-05-02 21:00

大规模数据挖掘-第三章学习笔记二

3.4 文档局部性敏感哈希（Locality-Sensitive Hashing for Documents）虽然我们可以通过minhash来压缩大的文档到小的签名，并且仍然能够保留每对文档的相似性

fuliang·2011-05-02 21:00

用户推荐Slope One算法与mapreduce&hive实现

coderplay·2009-09-14 20:00

用户推荐Slope One算法与mapreduce&hive实现

coderplay·2009-09-14 20:00

用户推荐Slope One算法与mapreduce&hive实现

coderplay·2009-09-14 20:00

推荐频道

minHash

MinHash算法+实现

距离、相似和相关

MinHash算法

minhash

[转]文档去重算法：SimHash和MinHash

实验报告：运用shingling+minhash+lsh方法对文档相似性进行分析

MinHash与SimHash

simHash 简介以及java实现

simhash， minhash ，lsh

最小哈希

Mahout系列----MinHash聚类

mahout系列----minhash聚类

MinHash 原理

MinHash

MinHash

文档的Jaccard相似度， MinHash， 及MinHash签名

mahout之MinHash实现

mahout之MinHash实现

MinHash概述及举例

MinHash概述及举例

MinHash概述及举例

基于MinHash的集合相似度计算原理

Near Duplicate Image Detection

Mahout MinHash代码阅读理解

MinHash原理与应用

MinHash原理与应用

推荐系统分享

推荐系统分享

数据挖掘之lsh minhash simhash

文本去重之MinHash算法

MinHash算法

Jaccard相似度、minHash、Locality-Sensitive Hashing(LSH)

文本去重之MinHash算法

文本去重之MinHash算法

Min-Hash和推荐系统

读代码-MinHashDriver及相关

大规模数据挖掘-第三章 学习笔记二

大规模数据挖掘-第三章 学习笔记二

大规模数据挖掘-第三章 学习笔记二

用户推荐Slope One算法与mapreduce&hive实现

用户推荐Slope One算法与mapreduce&hive实现

用户推荐Slope One算法与mapreduce&hive实现

文档的Jaccard相似度， MinHash，及MinHash签名

大规模数据挖掘-第三章学习笔记二

大规模数据挖掘-第三章学习笔记二

大规模数据挖掘-第三章学习笔记二