关于SparkRdd和SparkSql的几个指标统计,scala语言,打包上传到spark集群,yarn模式运行
需求:❖要求:分别用SparkRDD,SparkSQL两种编程方式完成下列数据分析,结合webUI监控比较性能优劣并给出结果的合理化解释.1、分别统计用户,性别,职业的个数:2、查看统计年龄分布情况(按照年龄分段为7段)3、查看统计职业分布情况(按照职业统计人数)4、统计最高评分,最低评分,平均评分,中位评分,平均每个用户的评分次数,平均每部影片被评分次数:5、统计评分分布情况6、统计不同用户的评