01.hadoop介绍

1.基础 javase maven idea

2.大数据概念

传统的软件无法管理大量数据,存储数据在 tb pb eb(大企业)
我有1t硬盘要存100t,主要解决的是海量数据的采集,存储和分析计算问题

3.大数据的特点

1.大量 产生数据
2.velocity 高速 产生数据
3.veriety 多样性 (数据采集)结构化数据(mysql)和非结构化数据(网络日志)
4. value 低价值密度 数据提纯 数据清洗,进行提纯

4.大数据应用场景

1.抖音推荐喜欢的视频
2.电商推荐 时间地点相同就给你推荐相同的
3.零售 纸尿布----(媳妇让买)----啤酒(男人)
4.物流存储 京东 上午下单下午送到,大数据技术某个仓库,客户经常需要什么,需要多少车
5.保险,细化定价,金融 推荐优质客户,房产,卖合适的人
6.人工智能+5g+物联网+虚拟现实 教育平衡

5.大数据分工

平台组: hadoop flume kafka hbse spark等框架平台 集群虚拟监控和调优
数据仓库组 etl工程师(数据清洗)
数据分析数据仓库建模 实时组 实时指标分析 性能调优 数据挖掘组 算法工程师(推荐系统工程师,用户图形工程师[建用户模型,知道用户喜好])
报表开发组 java前端

6.hadoop是什么? java开发 对数据进行分布式存储 谷歌3篇论文 卡大爷

   hadoop hdfs :海量数据存储
   yarn(帮我们管理数据): 集群资源管理(cpu,内存多个程序在跑,分配合适的空间给他)
   来源 nutch 目标是全球搜索引擎
   mapReduce(分布式计算引擎,一线大厂不在使用,有间接使用)

7.hadoop的特点

   1.扩容能力高,不停机
   2.成本低,不用买超级计算机,用多台普通计算机
   3.效率高 并行计算
   4.可靠性 可以数据备份 冗余

8.国内的应用 百度阿里腾讯华为的HBase ,可以不与业务挂钩

9.hadoop发行版本

1.开源社区版    更新块,但是兼容性慢
      hadoop.apache.org
      我们使用 3.3.0
2.商业开发板 兼容好 收费版本更新慢,派人服务

10.版本变迁

 1.0 HDFS
       MapReduce(资源管理和分布式数据处理)
  2.0 (很多公司在用)
       拆分MapReduce
        MapReduce(分布式数据处理)
        YARN (资源管理)
  3.0(性能优化 gpu运算,存储效率变高了,)

你可能感兴趣的:(hadoop,大数据,分布式)