搜索引擎的组成
搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成:
搜索器:其功能是在互联网中漫游,发现和搜集信息;
索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;
检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;
用户接口:其作用是接纳用户查询、显示查询结果、提供个性化查询项。

Annotated Lucene(源码剖析中文版)

Apache Lucene是一个高性能(high-performance)的全能的全文检索(full-featured text search engine)的搜索引擎框架库,完全(entirely)使用Java开发。它是一种技术(technology),适合于(suitable for)几乎(nearly)任何一种需要全文检索(full-text search)的应用,特别是跨平台(cross-platform)的应用。

  • Annotated Lucene:第一节 Lucene是什么

  • Annotated Lucene:第二节 索引文件概述

  • Annotated Lucene:第三节 索引文件结构(1) - 每个Index包含的文件

  • Annotated Lucene:第三节 索引文件结构(2) - 每个Segment包含的文件

  • Annotated Lucene:第三节 索引文件结构(3) - Field数据(.fdx和.fdt)

  • Annotated Lucene:第三节 索引文件结构(4) - Term字典(.tii和.tis)

  • Annotated Lucene:第三节 索引文件结构(5) - Term频率数据(.frq)

  • Annotated Lucene:第三节 索引文件结构(6) - Positions位置信息数据(.prx)

  • Annotated Lucene:第三节 索引文件结构(7) - Term向量文件

  • Annotated Lucene:第三节 索引文件结构(8) - 删除的文档 (.del)

  • Annotated Lucene:第四节 索引是如何创建的

  • Annotated Lucene:第四节 索引创建过程(1)

  • Annotated Lucene:第四节 索引创建过程(2)

  • Annotated Lucene:第五节 索引是如何存储的

  • Annotated Lucene:第六节 文档内容是如何分析的

  • Annotated Lucene:第七节 如何给文档评分

其他:

http://www.chedong.com/tech/lucene.html

http://www.cnblogs.com/bysshijiajia/archive/2008/01/24/1051401.html