2012-3-24日总结

   今天上午总结了下BM25算法,同时读了一篇sigir07的论文,主要是基于邻近词语的最小距离,来计算文档的得分等级,我研究中发现。一种基于span的距离计算,和这种基于集合的距离计算,可以做一个折中。即既考虑唯一匹配字符串,也考虑词语距离,这种折中感觉应该成为global和local的折中,估计性能应该有所提升,如何设计代数式以及如何测试以及如何加入Bm25算法中是一个挑战

  下午头疼中,fingerdiff算法的实现设计遇到了困难,看了一遍又一遍的那段论文内容,写了一遍,思考了一下午,都想不出来,心情不好。准备关电脑,画图思考,这两天加把力,实现它,看有没有那个开源软件愿意接受的。好了不多说,晚上画图好好思考一下。

   嘿嘿,单田芳的大明英烈真心好听~

你可能感兴趣的:(2012-3-24日总结)