搜索引擎技术一(帖子收藏)

阅读更多

 

  利用Sphinx实现实时全文检索
  基于Sphinx构建准实时更新的分布式通用搜索引擎平台
  尝试使用IKVM运行Lucene 2.9.0版
  中文分词的整理
  Apache Lucene 2.9的改进
  Scrapy 轻松定制网络爬虫
  如何识别搜索引擎爬虫的真伪
  互联网网站的反爬虫策略浅析
  如何对付网络爬虫 - JavaEye和网络爬虫斗争之路
  当前几个主要的Lucene中文分词器的比较
  beta技术沙龙:大型网站的Lucene应用
  中文分词和TF-IDF
  nutch0.9实现抓取动态网页部署笔记
  Sphinx 的那些麻烦事
  Lucene 索引滚动流程设计
  开源Java搜索引擎:Minion
  我的开源PHP中文分词扩展:PHPCWS 1.0.0
  亿级数据的高并发通用搜索引擎架构设计
  Hibernate Search 3.1支持动态搜索分析器及查询时间的性能改进
  Sphinx在Windows下安装使用[支持中文全文检索]
  Apache Solr:基于Lucene的可扩展集群搜索服务器
  Apache Lucene与Lucene.Net——全文检索服务器
  Lucene中创建索引的效率和删除索引的实现
  推荐引擎反思
  Apache solr,构建自己的全文搜索引擎
  此周边搜索非彼周边搜索
  基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计
  谷歌搜索排序的介绍
  推荐ruby中文分词器 - RMMSeg
  rmmseg-cpp - 简洁高效的ruby中文分词程序
  Xapian - C++全文检索程序
  使用libmmseg实现Ruby的中文分词功能
  教你索引邮件
  Compass 2.0:简化、集成及性能提升
  关键词提取算法
  教你文本聚类
  搜索spider对二叉查找树查找实验
  谈谈网络爬虫设计中的问题
  为什么说Lucene不好
  如何验证谷歌抓取机器人(Googlebot)
  百度分词算法详解
  lucene.net 2.0 中文分词后语法高亮问题
  Lucene搜索结果排序问题(按时间倒序排的替代解决方法)
  谈 Page Rank – Google 的民主表决式网页排名技术
  PHP 的搜索引擎技术
  蜘蛛/爬虫程序的多线程控制(C#语言)
  爬虫/蜘蛛程序的制作(C#语言)
  用Python写一个小小的爬虫程序
  如何构造一个C#语言的爬虫程序
  搜索引擎中网络爬虫的设计分析

 

你可能感兴趣的:(搜索引擎,lucene,rmmseg,全文检索,Solr)