摘要: 大数据人才状况;大数据平台相关:数据采集、数据指标的量化、大数据平台建设的选型;性能优化相关:hive、hbase、jvm gc的优化;
E-Mapreduce团队
1.4版本(正在发布):
1.4.1版本
创业公司如何构建数据指标体系?
对于庞大的创业群体和数据运营新手来说,这将是一篇非常具有参考价值的干货贴,作者将在文章中深入阐述两套构建指标体系的方法,即关键指标法和海盗指标法。
怎样选择数据平台的建设方案
文中对比了MPP、Hadoop传统的数据库等不同方案的优缺点,值得一看。对于一般的中小型企业hadoop还是首选,关键还是得益于hadoop台火爆,一些公司使用impala+hadoop共享mpp+hadoop两者的好处。
全国首份人才大数据报告:大数据行业将面临“全球人才慌"
根据数据显示,目前全国的大数据人才只有46万,未来3-5年内大数据人才的缺口将高达150万多。大数据行业将面临全球性的人才荒,企业对新型大数据分析和预测技术人才的热情和需求快要爆发,你做好准备了吗?
在数据采集上的痛苦、幻想与失望
本文讲述了数据采集的冰与火,怎么在杂乱无章的数据中采集出有价值的信息是数据分析的第一步。
杨卓荦:Hive原理及查询优化
hive作为hadoop上第一个数据仓库软件,在大部分公司都是中流砥柱的软件。本文分析了hive的基本原理及一些查询优化。
HBase性能优化方法总结
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。
脱离JVM? Hadoop生态圈的挣扎与演化
Hadoop基于jvm,当前有很多的框架。比如spark、flink也在用off-heap优化执行层,减少GC的开销。