摘要: 云上Hadoop之挑战
E-Mapreduce团队
1.3.2版本(已经发布):
1.3.3版本 (即将发布)
1.4版本(正在研发):
菜鸟“闹”江湖:物流+大数据,能把广东、江苏GDP都节省出来?
中国物流去向何方?菜鸟网络认为,通过推动物流业向智慧转型,未来目标是要把中国社会物流总成本占GDP的比重降低到5%,这将是物流新模式对社会的重大贡献,相当于每年可以节省出广东省和江苏省的GDP总和
大数据,未来已来
前日,在成都的一次大数据会上,各位顶级专家都不约而同地提到了大数据还远未成熟的观点。我也很赞同这个观点,大数据在今天,依然属于前沿科学,它在很多行业和细分领域,都还很不成熟。然而,这并不代表我们还要再徘徊等待,无所作为。相反,在一些细分领域,在一些特定的“点”,我已经看到了星星之火。与我所经历过的其他新兴市场并无不同。我坚信,这些星星之火必将燎原!2016,大数据,未来已来。
世界顶尖数据科学家看未来十年大数据发展
过去,科学家经过十年的研究才首次破解人类DNA。而13年后的今天,这项工作在24小时之内就能完成。
一直以来,我们都在不断改进数据处理工具。数据数量也在过去十年间爆炸式增长。那么,还有创新的空间吗?未来还会给我们新颖的启示,还会令人瞠目吗?在这一点上,我们无须再猜。让我们来看看,数据科学界的顶尖大师们是如何看待未来十年大数据发展的,他们又对大数据未来如何改变世界作何猜想。
大数据与统计新思维
毫无疑问,大数据时代已经来临,它正在悄悄地改变着人们的行为与思维,难以阻挡,无法抗拒。在计算机科学、电子商务等领域已率先在大数据技术开发与应用方面做出不俗成就的时候,以数据为研究对象的统计学该如何应对? 无动于衷还是盲目追从? 正确的态度应该是理性对待、积极跟进、改变思维、谋求发展.
云上Hadoop之挑战
在云上云行Hadoop,很多人担心性能。因为一提到虚拟化就会有人想到有成本,往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差。如果单独把10台物理机虚拟化跑Hadoop,这肯定是有部分性能的开销的。但是如果在公共云上,情况就不是这样了。因为公共云虚拟化的开销最终是由平台方来承担的,其一是平台方采购机器有规模优势,其二平台方可以在保证虚拟机性能的情况超卖部分资源。
Spark性能优化指南——高级篇
深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。
Sqoop-1.4.6 导入实战
Sqoop是Hadoop与其他关系型数据库之间进行数据抽取、转换的一座坚固的桥梁,可以在关系型数据库以及Hadoop生态系统支持的数据存储方式(HDFS、Hive、HBase)之间进行导入和导出操作。
Apache Pig 0.16.0
时隔一年,pig再此发布,这个版本支持pig on tez