阶段项目总结

项目背景


        项目属于尚云舆情这个产品里面,尚云舆情是简单的互联网舆论分析平台,通过对互联网的        舆论信息进行采集和分析,可以满足用户对网络舆情的检测和热点的追踪
 

项目价值

        实现了从互联网上采集海量的数据,基于这个海量的数据,以及用户定制的主题,进行数据分析提供了热点发现,数据走势


技术栈


        数据端 :


                离线部分
                        数据仓库的构建
                        离线统计分析
                实时统计分析
                技术栈

                        scala/java
                        maven
                        hadoop
                                hdfs
                                yarn
                        hive
                                hive sql
                                hive udf
                        spark
                                spark core
                                spark sql
                                spark streaming
                        kafka
                        redis
                        hbase
                        mysql
                        spring boot
                        shell编程
                        自然语言处理


        项目的流程


        1. 搭建数据接受服务,提供了接口,供爬虫工程师使用
        2. 接收到数据之后,对数据进行预处理,将结果推送到kafka里
        3. 数据仓库的构建
                3.1 . 通过shell 编写kafka的消费者,将数据处理到源数据落地区
                3.2 . 周期性的装载数据到hive中,构建了小时级的数据仓库
        4. 实时计算
                4.1 通过spark streaming消费到kafka中的实时数据,针对数据计算了微博数据每分钟的uv和pv。(uv和pv的指标,基本上每个数据分析的项目都需要的)

((2条消息) redis 计算uv_The_Boy_le的博客-CSDN博客)
        4.2 计算了近一个小时的热词,滑动窗口设置的是5分钟
(扩展其它的指标计算...)
        4.3 将计算结果同步到redis中
        4.4 定期将redis的数据写入hbase,进行数据持久化,供前端展示
项目难点和亮点
                热词的统计,我们用到自然语言处理        分词器:(2条消息) 简单的分词器_The_Boy_le的博客-CSDN博客


                统计用户uv的时候,hyperloglog
                使用到了redis的连接池,把redis提出到partition那一层

不足:

        对rdd和DStream的java操作不熟练,需要多加巩固

你可能感兴趣的:(hadoop,zookeeper,redis,spark,kafka)