sensei indexing via hadoop

构建索引一般是比较费时费力的过程,如果能通过hadoop分布式构建索引就方便了很多。
基于sensei的索引都是分shard的,通过sensei提供的工具类,可以在hadoop集群中分shard构建索引,下面简单介绍一下,因为没有文档,只是简单过了一下source code:

1 定义properties文件,定义配置选项
PropertiesLoader可以生成配置文件类Configuration

2 自定义的job类要继承MapReuceJob, 调用MapReuceJob.createJob()方法可以得到JobConf对象,JobConf对象是hadoop可运行的任务。

MapReuceJob.createJob方法比较重要,它会读取第一步生成的Configuration类,进行一系列初始化操作,并生成可运行的JobConf对象。

createJob方法最重要的工作就是生成shards(分区),一般来说,shards的数量是配置文件中配置好的,但是为了充分利用hadoop集群的性能,不光要考虑到sensei的node数量,也要考虑到hadoop集群中reducer的理论最大数量。Shard类是一个比较重要的类,但是对使用者透明。

关于hadoop任务的任何配置信息的处理过程都可以在MapReuceJob.createJob方法中找到。

3 SenseiMapper类,它在初始化的时候要构建这几样东西:
Shard[], 从JobConf中读取已经在第二步构建好的shards属性,重新构建。
ShardingStrategy 分区策略,用户要自己实现这个接口,mapper会使用这个进行分区
MapInputConverter 预处理mapper的输入,用户也要自己实现这个接口,把文本内容返回成JSONObejct格式的内容。
DefaultJsonSchemaInterpreter, 这个类会读取sensei的schema文件,这样在知道如何根据schema中的定义对jsonObject进行索引
Analyzer分词器,我们要使用自己的中文分词器(!?)

mapper的输出格式是Shard和IntermediateFrom, 比较重要的数据结构。不同的分区的document此时已经按Shard为key分发到不同的reducer上面,这样reducer就可以直接进行写文件了。(这个思路可以用于以后我们自己写分布式系统的时候)

4 SenseiCombiner
5 SenseiReducer, 使用IndexWriter写索引的过程了,比较简单。

先这样,再补充

你可能感兴趣的:(hadoop)