工程进度记录

2007 8 6 我计划作索引合并可能已经快一个月了,至少半个月(大约三周了),这段时间可真谓一无所获 ,惭愧惭愧!我也不清楚下一步该如何做了。彻底晕倒了。为什么造成这种局面呢,我自己也说不明白,是不是工程太大了呢?这个不是主要原因,这个有点可笑,那我是什么原因呢?可能我一时半会还找不到,只能把现在情况记下来,留作以后分析吧。

开始的决定做索引合并是发现,索引合并会使建索引的过程与爬虫组合,一起动起来。后来发现,索引合并在建索引的过程中也是十分必须的,开始打算做这块先是在网上找资料,发现了lucene的增量索引策略,是非常简单的描述,我根据这几句准备实现,后来发现有点问题,发现判断一个文件是否新添加进来,不是索引除判断的,建索引只是提供增量的接口。开始就在如果识别一个目下下面文件添加过程,这个思路现在发现是错误的,这块稍微耽误了点时间。然后我有回归到lucene,开始读它的源代码,这个过程没有持续太久,只读了它开始合并的地方就停止了,没有深入进去,就以为后面的东西自己明白了(这块主要是读源代码应该到什么程度,没有估计好)。然后就按照自己的思路开始实施,这个过程中第一个问题就是文件格式,把文件格式弄懂是必须的,因此我又开始读文件的格式,这个过程比较耗时,我读的时间比较长,明白了文件的格式,而且制定了读取策略,开始实施,在读域文件的时候还可以,可是读到term文件的时候,就开始乱了,一些细节始终困扰着我,不是这就是那,总也弄不明白。中间有一阵老师发了一顿脾气,让我把firtex的核心数据结构给弄明白了,然后我又开始读了几天的firtex,把其中的一些关键地方弄白了,然后也没敢自己实现一套,就写几个文档,放在那了。回来之后,发现自己写的代码是在说不过去,发现可定有问题,别人的代码不会出现这种情况的,然后就开始读lucene,发现我的实现方法还是有些不太对,需要改变,就这样几个回合,三个星期就进去了。目前的状态呢,还是不完全清楚,但是比以前肯定是明白了许多,不知道我的明白到什么程度才可以开始实现,或者是边实现边改,慢慢摸索吧。这个过程中,我对系统的整体了解不断深入,系统整体都明白了,可是还有许多的细节没有弄明白,这可能需要很多的时间。

你可能感兴趣的:(数据结构,Lucene)