将近2个多月没有写博客了,惰性还是咬牙废去吧。

    时间过得真快,从8月份下旬到10月份中旬,将近2个多月没有写博客了,哎,有时在感叹自己的懒惰!!!
不像刚开始学习大数据那么有劲头,天天做看视频和看牛人博客,搭建环境,做实验,写写过程和总结博客了。
在这三个月里,主要做了几件事:

1.参加IBM Spark比赛,我的职责:
1.1.在雪球网,使用Python Scrapy爬虫,公司的股票数据和用户数据,其中股票数据生成xlsx文档,然后用vba开发,为股票数值打类标签;
1.
2.在新浪财经新闻,使用Python Scrapy爬虫,公司的新闻数据,生成txt文档;
1.3.使用python对新闻文本数据进行去除标点符号、特殊字符和停用词,然后使用jieba分词,再按照规则输出到txt中,
1.4 进行Spark MLlib 文本分类,文本训练和预测。

1.5.学习了解scikit-learn库。
2.参加bigdata培训机构的CCA培训,初步了解spark和scala。和对大数据生态圈有个初识。
3.对公司的CDH4/5集群环境写脚本监控等等。
4.调研阿里的EMR,将公司的ETL迁移到EMR中,主要目的是节省机器资源,降低cost。(现在正在做这个事
5.和同事一起将公司的计算任务改变为spark计算,主要目的是为了节省time,也研究spark的调优知识。

从今天要把文档补齐吧,人的惰性真的一发不可收拾,咬咬牙还是废去吧!go to do it, boy!!!

从今天要把文档补齐吧,人的惰性真的一发不可收拾,咬咬牙还是废去吧!go to do it, boy!!!
从今天要把文档补齐吧,人的惰性真的一发不可收拾,咬咬牙还是废去吧!go to do it, boy!!!

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/30089851/viewspace-2126301/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/30089851/viewspace-2126301/

你可能感兴趣的:(将近2个多月没有写博客了,惰性还是咬牙废去吧。)