新手入门大数据 Hadoop基础与电商行为日志分析(一)

chuanshang一个案例:美国一女高中生收到婴儿产品的推荐,被他的父亲向商场投诉,结果最终,意识到女儿真的怀了孕。
大数据的4V特征:
数据量 volume
速度 velocity
基于高度分析的价值 value (数据量与有用的数据价值可能是成反比的)
多样性 variety

大数据带来的技术变革

技术驱动:数据量大
    存储:文件存储-->分布式存储
    计算:单机 --> 分布式计算
    网络:万兆
    DB :RDBMS --> NOSQL (HBase/Redis...)

大数据技术概念:

单机:CPU Memory disk
分布式并行计算/处理

货物搬到船上,是一个数据采集
处理:小于多少的石头扔了 精细化的筛选

大数据的几个重要部分:

                1.采集 flume/sqoop
                2.存储 hadoop 
                3.数据处理/挖掘/分析 hadoop spark flink
                4.可视化

大数据典型应用:

         1.报表 2.用户画像 3. 指标监控 4.指标预警 (时效性的要求逐级变大)

学习一个新技术,直接看他的官网最好
Hadoop,hive,hbase都是Apache社区下面的顶级开源项目
地址: hadoop.apache.org

              hive.apache.org
              hbase.apache.org   

reliable,scalable,distributed computing.(可依赖,可拓展,分布式计算)
Hadoop:提供分布式的存储(一个文件被拆分成很多块,并且以副本的方式存储在各个节点中)和计算
是一个分布式的系统基础架构:用户可以在不了解分布式底层细节的情况下进行使用
分布式文件系统:HDFS 实现将文件分布式存储在很多的服务器上
分布式计算框架:Mapreduce 实现在很多机器上进行分布式并行计算
分布式资源调度框架:YARN 实现集群资源管理以及作业的调度

你可能感兴趣的:(hadoop,大数据)