电影推荐系统

目录:

  1. 项目时间:2016-09 - 2017-09
  2. 技术架构:Hadoop+Flume+Kafka+Sqoop+Spark+Zookeeper+JDBC+Hive+Mysql+Highcharts+FreeMarker
  3. 项目描述:
    1. 新区注册人数和时段的关系
    2. 区组金钱充值和合区的分析
    3. 游戏的日志产生消息。
    4. 该系统是一个交互式用户行为分析系统。系统的主要用户为公司内部的PM和运营人员,用户根据自己的需求去
      分析某一 类客户的流量数据。根据分析结果,PM可以优化产品设计,运营人员可以为自己的运营工作提供数据
      支持。用户在系统界面中选择某个分析功能对应的菜单,并进入对应的任务创建界面,然后选择筛选条件和任务
      参数,并提交任务。在接收到用户提交的任务之后,根据任务类型选择其对应的Spark作业,启动一条子线
      程来执行Spark-submit命令以提交Spark作业。Spark作业运行在Yarn集群上,并针对Hdfs中的海量
      数据使用SparkSQL进行计算,最终将计算结果写入Hdfs中。另外还集成Flume,Kafka和Spark,
      利用SparkStreaming,进行实时分析。用户通过系统界面查看任务分析结果,将结果返回给界面进行展现。
    5. 这是一个基于hadoop生态圈的离线数据分析平台,使用CM搭建并部署了Hadoop HA高可用集群,通过Ngnix服务器生成用户行为日志,使用Flume周期性收集日志数据并上传至HDFS文件系统,使用MapReduce进行数据清洗,通过Hive从时间、地域、浏览器等多个维度对活跃用户数、新注册用户数、二跳率进行多维度分析统计;并将这些指标使用Hcharts表进行图表化展示给产品经理和甲方决策者看,借此指标分析进行女性商品精准营销与推荐;
  4. 责任描述:
    1. 审核数据平台项目总体技术方案,对各项目进行质量评估;参与应用分析系统的系统分析、设计以及实施工作负责分析数据采集需求,全局设计数据处理的技术流程和规范;负责设计改良数据质量根据实际情况解决核心数据质量问题;研究与跟踪大数据新技术发展方向,主持制定大数据平台技术发展战略规划;负责大数据部门的技术研究、技术知识培训要求拥有5年以上Hadoop开发设计和实施经验,有分布式系统架构设计的经验,有Hadoop系统架构设计经验,至少1个以上大型成熟项目的经验;2对Hadoop相关的技术和组件HDFS,MR,Hase,Hive,Spark,Storm等有全面深入了解,能够熟练安装、配置、部署和优化大型Hadoop的。
    2. 1、参与产品需求分析,技术方案选型,hadoop等开发环境的搭建;
      2、编写、测试、优化MR程序对Flume收集上传到HDFS的数据进行清洗与过滤;
      3、通过编写Hive HQL程序从时间、地域、浏览器等多个维度对pv,uv,活跃用户数、新注册用户数、二跳率等指标进行多维度分析统计;
      4、编写Sqoop命令周期性或采用增量方式将处理好的结果表数据导入到MySQL中。
    3. 负责从Kafka导入数据分析各个时段的各个站点的客流量,
      运用spark-streaming计算,并输出到数据库。
  5. 参考网址
    1. 大数据项目(三)————电商模块四(五
    2. 架构(B站尚硅谷大数据项目实践 电影推荐系统概述)
    3. 电影推荐系统代码详细解释

你可能感兴趣的:(大数据项目)