这段时间的收获

好些日子没有发博客了。前面一段时间研究各种网络爬虫,想设计出一个更高效主题定时爬虫程序,想法只停留在在初期的简易爬虫上面,虽然实现了对网页的多线程下载,但是爬取策略以及一些关于主题爬虫算法都还没有实现。自己也是冥思苦想了好久,一直没有想到更好的解决方法。就这样我的爬虫学习计划不了了之了。后面又开始研究了分词系统什么Ik啦,庖丁啦,mmseg4j,smartanalyzer等有关分词的东西,又从网上大量的下载相关的开源代码。这些分词系统也 就了解数据如何存储,数据如何查找。虽然自己看的懂,但是让我来实现这种工程的话,那真的可能性很低。如何使用这种程序到还是学到了一点。后面又在搞数据库,从安装到各种查询操作,以及结合java的jdbc的一些数据库操作,杂七杂八的也弄了好些日子。总之,这段时间学的东西很杂,但是不够专,缺少总结,缺少文档积累。后面会针对相关部分进行专研,同时选择一两个开源项目学习一下。同时还要把我的简易爬虫进行改造,实现我自己的设想。反正,要给自己鼓劲和督促,不可以贪多,做一个事情就把它理解透,不仅懂实现原理,而且自己脱离互联网脱离原有代码也能够实现,这是我需要掌握的。加油~

你可能感兴趣的:(这段时间的收获)