华章培训网地址:http://www.hztraining.com/bbs/showtopic-1954.aspx
ChinaPub地址:http://product.china-pub.com/3502099&ref=xiliegoumai
注意事项:
课程描述:
本课程不局限于如何使用Lucene,而是以Lucene为实例,通过对各模块的深入解析介绍搜索引擎各个模块的设计原理与实现,进而能够跳出Lucene看到搜索引擎系统的架构全貌以及设计思想。
最后,本课程会介绍在使用Lucene构建搜索引擎系统的时候可能涉及的一些Lucene的高级特性以及个性化修改和干预,并最终给出基于Lucene的实时搜索系统的实现实例。课程目录:
1.第一讲 搜索引擎全貌
1.1.搜索引擎系统的历史
1.2.搜索引擎系统的行业状态
1.3.搜索引擎系统的总体架构
1.4.初识Lucene
详细信息:ppt 12页, 视频65分钟,不附代码
2.第二讲 全文检索的基本原理
2.1.什么是全文检索
2.2.索引里面存了些什么
2.3.如何创建索引
2.4.如何找到相关的文章
2.5.自己动手写一个简单的Lucene
详细信息:ppt 17页,视频46分钟,不附代码
3.第三讲 自己动手实现一个简单的Lucene
3.1.回顾全文检索的重要过程
3.2.设计你的索引
3.3.如何创建索引
3.4.如何找到相关的文章
4.第四讲 进入搜索引擎的世界-设计你的索引格式
4.1.词典的存储方式
顺序列表
指针列表
前端编码
哈希表及最小完美哈希
Trie树及双数组Trie树
M路搜索树
4.2.倒排表的存储方式
定长编码
差值编码
无参数及有参数变长编码
跳跃表
详细信息:ppt 39页,视频分上下两集,上集54分钟,下集28分钟,不附代码(不好意思上下集内容配置的不够平均)
5.第五讲 进入搜索引擎的世界-Lucene的索引格式
5.1.基本概念
5.2.基本数据类型
5.3.一些基本规则
前缀编码规则
差值规则
或然跟随规则
跳跃表规则
5.4.重要的正向信息
5.5.重要的反向信息
5.6.其他信息
详细信息:ppt 29页,视频分上下两集,上集57分钟,下集42分钟,不附代码
6.第六讲 进入搜索引擎的世界-索引的创建
6.1.索引创建的主要过程
6.2.基于内存的索引创建
6.3.基于硬盘的索引创建
6.4.动态索引的创建
6.5.索引的合并
详细信息:ppt 12页,视频22分钟,不附代码
7.第七讲 进入搜索引擎的世界-Lucene的索引的创建
7.1.索引过程的总体架构
7.2.Lucene的多线程索引
7.3.Lucene的多域索引
7.4.索引创建的关键步骤
7.5.Lucene的文档删除
7.6.Lucene的缓存管理
详细信息:ppt 40页,视频分上下两集,上集39分钟,下集45分钟,不附代码
8.第八讲 进入搜索引擎的世界-Lucene的索引合并
8.1.Lucene段的合并综述
8.2.段的合并策略
8.3.反向信息的合并
8.4.段合并的关键步骤
详细信息:ppt 28页,视频29分钟,不附代码
9.第九讲 进入搜索引擎的世界-搜索的过程
9.1.搜索的主要过程
9.2.查询预处理
Stemming
拼写检查
同义词
查询扩展
9.3.信息检索模型
基于集合论:布尔模型
基于代数论:向量空间模型
基于概率论:语言模型
详细信息:ppt 23页,视频41分钟,不附代码
10.第十讲 进入搜索引擎的世界-Lucene的搜索过程
10.1.搜索过程的总体架构
10.2.Lucene的查询语法
10.3.Lucene的评分机制
10.4.Lucene搜索的关键步骤
详细信息:ppt 51页,视频分上下两集,上集45分钟,下集35分钟,不附代码
11.第十一讲 进入搜索引擎的世界-Lucene的几种重要查询
11.1.查询对象的层次结构
11.2.几种高级的查询对象
RangeQuery, SpanQuery, FilterQuery
详细信息:ppt 20页,视频36分钟,附代码
12.第十二讲 进入搜索引擎的世界-分词
12.1.常用的分词方法
基于词典的机械切分算法:最大匹配方法,最短路径方法
基于统计的切分算法:N元语法
12.2.Lucene中的分词器
12.3.定制自己的分词器
对中科院分词进行封装
详细信息:ppt 22页,视频60分钟,附代码
13.第十三讲 Lucene的高级特性之一
13.1.Payload的原理与应用
13.2.区间查询及使用Payload实现区间查询
13.3.按照域Field进行排序及使用Payload实现按字段排序
13.4.Lucene的事务性
详细信息:ppt 26页,视频30分钟,附代码
14.第十四讲 Lucene的高级特性之二
14.1.Lucene的性能瓶颈
14.2.影响Lucene的评分过程的四种方式
详细信息:ppt 20页,视频51分钟,附代码
15.第十五讲 基于Lucene的实时搜索的原理与实现
15.1.实时搜索的原理
15.2.实时搜索的实现及代码
详细信息:ppt 12页,视频33分钟,附代码
16.第十六讲 基于Lucene的实时搜索中文档更新问题
16.1.实时搜索中文档更新原理
16.2.实时搜索中文档更新实现及代码
详细信息:ppt 17页,视频38分钟,附代码
17.第十七讲 实时搜索系统框架Zoie
17.1.总体架构
17.2.配置一个Zoie
17.3.Zoie实现实时搜索的原理
17.4.Zoie的索引过程
17.5.Zoie的搜索过程
详细信息:ppt 26页,视频40分钟,不附代码
18.第十八讲 基于Zoie创建实时搜索系统
18.1.运行Zoie的一个Demo
18.2.总体架构
18.3.实现自己的各个组件
索引组件代码实现
搜索组件代码实现
实时搜索系统Demo
详细信息:ppt 6页,视频41分钟,附代码
19.第十九讲 分布式搜索框架Sensei
19.1.总体架构
19.2.详细架构
19.3.配置Sensei服务器端
19.4.配置Sensei客户端
19.5.Sensei的重要过程
客户端启动过程
服务器端启动过程
客户端搜索过程
服务器端搜索过程
详细信息:ppt 13页,视频44分钟,不附代码
20.第二十讲 基于sensei创建分布式搜索系统
20.1.总体架构
20.2.实现自己的各个组件
服务器端代码实现
客户端代码实现
分布式搜索系统Demo
详细信息:ppt 6页,视频57分钟,附代码