LHS重要学习资料

自1998年提出LSH,距今已经10多年了,中间有不少对该算法的改进、挑战、应用、介绍等等。这里根据自己的学习过 程,列一个LSH参考文献和相关资源列表:一则是小结学习LSH可以参考的资料,二则是为了避免本人的LSH小结系列文章对大家产生误导。欢迎对该列表进 行指正和补充。

LSH原理相关重要论文

  • 1. P. Indyk and R. Motwani. Approximate nearest neighbors: towards removing the curse of dimensionality[A]. In STOC ’98: Proceedings of the thirtieth annual ACM symposium on Theory of computing, New York, USA: ACM Press, 1998:604–613.
    • 作者在这篇论文中第一次提出了LSH。
  • 2. Aristides Gionis, Piotr Indyk, and Rajeev Motwani. Similarity search in high dimensions via hashing[A]. In VLDB ’99: Proceedings of the 25th International Conference on Very Large Data Bases[C], San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.1999:518–529,
    • 作者在本论文中第一次详细说明了LSH的实现。
  • 3. M. Datar, N. Immorlica, P. Indyk, and V. S. Mirrokni. Locality-sensitive hashing scheme based on p-stable distributions[A]. In SCG ’04: Proceedings of the twentieth annual symposium on Computational geometry[C], New York, USA: ACM Press, 2004:253-262.
    • 第一次引入p-stable的概念,首次将近似推广到第0,1,2范式——在这之前的近似都1范式的亦即汉明距离等,此后欧几里得距离等都可以使用了。
  • 4. Wei Dong, Zhe Wang, William Josephson, Moses Charikar, Kai Li. Modeling LSH for Performance Tuning[A]. Proceedings of the 17th Conference on Information and Knowledge Management[C]. Napa Valley, CA, USA: Information Retrieval Facility, 2008:669-678.
    • lshkit库作者的论文,该论文是关于LSH性能优化的。
  • 5. Alexandr Andoni and Piotr Indyk. Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions[J]. Commun. ACM, 2008, 51(1):117–122.
    • LSH提出者发表在CACM上的综述,对于LSH从最初提出起经过十年发展的成果进行了总结。
  • 6. Alexandr Andoni. Nearest Neighbor Search: the Old, the New, and the Impossible(2009)
    • E2LSH库作者的博士毕业论文,差不多是对NNS问题特别是用LSH求解该问题的一个综述。
  • Yufei Tao, Ke Yi, Cheng Sheng, Panos Kalnis. Efficient and Accurate Nearest Neighbor and Closest Pair Search in High Dimensional Space. In ACM Transactions of Database Systems
    • LSB Tree,代码:http://www.cse.cuhk.edu.hk/~taoyf/paper/codes/lsb.zip(由网友williamty提供)

 

相关书籍(章节)

  • Mining of Massive Datasets》 Anand Rajaraman and Jeff Ullman http://infolab.stanford.edu/~ullman/mmds.html
    • Chapter 3 Finding Similar Items
    • 该书尚未出版,但是已经挂出全文在网上了,整本书都非常赞。第3章关于LSH的讲解得非常好,强烈推荐先看这本书有关内容入门。
  • 《计算机系统研究基础》 施巍松 主编 http://book.douban.com/subject/5341447/
    • 第5章 locality sensitive hashing
    • 实际是Wei Jiang师兄为某课程所写的报告(主编前言有说明),考虑到Wei Jiang师兄第一语言为中文,易读性相比上一本书要差不少,不过思路上可能更符合中国人理解,相对不是特别推荐。
  • Nearest Neighbor Methods in Learning and Vision: Theory and Practice, by T. Darrell and P. Indyk and G. Shakhnarovich (eds.), MIT Press, 2006.
    • 关于机器学习和计算机视觉领域中的最近邻方法的专著,里面有关于LSH的内容(Indyk是作者之一)。这本书我没看过,不过应该不会差。

 

LSH的应用

(我比较少涉及该部分,暂时随便选取2篇论文,欢迎推荐较好文章):

  • Q. Lv, W. Josephson, Z. Wang, M. Charikar, and K. Li. Ferret: a toolkit for content-based similarity search of feature-rich data[A]. EuroSys ’06: Proceedings of the ACM SIGOPS/EuroSys European Conference on Computer Systems[C], New York, USA: ACM Press, 2006:317–330.
    • 来自Standford大学李凯教授组,实际应用背景为多媒体内容检索(视频、声音、图像)中相似数据查询。(我本科毕业设计内容跟这个重了)
  • Koga, H., Ishibashi, T. and Watanabe, T. (2007). Fast agglomerative hierarchical clustering algorithm using locality-sensitive hashing, Knowledge and Information Systems 12(1): 25-53.
    • 是一篇将利用LSH做层次聚类的论文,非常简单易懂(《机器学习》课程作业参考论文)。

你可能感兴趣的:(LHS重要学习资料)