记第一个开源项目

小记

到今天,终于把自己的项目上传到了GitHub(点我)上。
这一路过来,也算是经历了”风风雨雨”,不断的在解决问题与思考问题中度过。这其中还有工作上的一些压力和自己偶尔的偷懒,不过也总算是幸不辱命终于完成了一个初步的版本,虽然简陋但毕竟是自己的东西,也倍感欣慰。

项目中遇到的问题

  1. 遇到的第一个问题,应该就是招聘信息的获取,查了一些资料,最后还是决定使用Python写个脚本来进行爬取招聘信息,因为它语法简短易懂,并且第三方库也有很多是主流的爬虫语言之一。当然我也考虑过直接使用Java来写,但是还是想给自己一个小小的挑战,并且如果要使用Python,就必须从头开始学习。
  2. 遇到的第二个问题,是我的笔记本内存太低,不够支持三开2G内存的虚拟机,为此只能升级为16G内存
  3. 在考虑到底采取Hive、HBase或者两者结合使用时,为了看到效果,我分别做了,单独使用Hive、HBase和使用HBase与Hive结合这三个版本,并分别对比思考了他们的速度以及优缺点。最后决定采用两种结合的方法
  4. 因为使用了两者结合的方式,结果在创建表时出现了一个很奇特的错误,上网找了资料,都说是版本不匹配,差点就想去换版本解决了。但是皇天不负有心人最后发现了解决的办法,因此学会了重新编译源代码 = =
  5. 关于前台图形化展示分析结果所要采用的框架也是找了一番资料,最后还是觉得Echarts目前就够用了

待续…

你可能感兴趣的:(大数据薪资分析项目(自建),开源项目)