近期计划

感觉自己涉入算法研究的时间太少了。好比一头拉磨的驴子,一直在纠结于一些细枝末节的技术。从C# 跑到Python,然后又回归C++,完全是在原地转了一个很大的圈圈。目前已经确定自己要学习C++语言,将在自己的实验框架都搭在C++语言平台上,这样就可以集中精力攻关一门语言了,不用C#会一点,Python会一点,却都是小半瓶水的水平了。

近期还打算写三个系列的偏技术性质的博客,

1。libsvm分类,包括文本预处理部分的代码以及调用libsvm部分的代码。这个也是研一做的一个课程项目;

2。将上学期王斌老师的《现代信息检索》课程项目过程中下载的语料库整理下,整理成为分类语料库。目前免费像广大网友提供提供分类语料库的只有搜狗实验室一家,搜狗提供的新闻有他自己的优点:篇章长度都差不多,但是也有缺点。仿佛一些类别中的文章分类有错误。

3。改写一个Mini规模的搜索引擎 TSE(Tiny Search Engine)这个开源程序的提供者为《搜索引擎--原理,技术与系统》的作者,李晓明老师。但是原来的程序是在Linux平台下运行的,我想将它改为一个可以在Windows平台运行的程序。我在做本科毕设的时候,曾经下载过该程序,可惜并没有在Linux平台上搭建成功。email 助教索求 配置文档,也没有回音。(估计助教那时候已经毕业了。)《搜索引擎》一书还是不错的,偏重于工程实践,如果再加上一份可运行的代码,那么可以帮助读者更快地对搜索引擎有个框架性的入门了解。我个人觉得作者既然写了这本书,而且在书中的3-5章着重介绍了TSE的实现,并且还提供了源码下载地址,那么就应该维护一份能让读者自己通过阅读简要的配置说明,就能够成功配置运行的源码。

你可能感兴趣的:(计划)