1. Scala + Akka + Scrapy + Selenium  开发分布式爬虫框架。 并用R server对集群运行数据做可视化分析。

  2. 用spark替代hadoop mapreduce和hive

  3. 使用sparkR对数据做深入分析,发现隐藏的规律

  4. 使用机器学习算法改进项目。抛弃折线图,柱状图,直接告诉用户做好的决策是什么。

本文出自 “大数之为用” 博客,谢绝转载!

你可能感兴趣的:(spark)