大数据技术之综合开发--张老师 2020.06.02

目录:

1.发展概述
2.技术问题

笔记:

  • 什么是大数据?
    一开始的解决温饱,后来的物品交易,现在的远征开拓
  • 大数据4V的特点
  1. Volume (大量性) ----数据多
  2. Variety (多样性) ----数据多
  3. Velocity (高实时性) ----数据快
  4. Value (价值低密度性) -----数据单一数据价值低,出现冗余的现象
  • 技术问题
  1. 数据存储数量 --------云计算
  2. 数据存储方式 --------超级计算机(分布式计算)
  3. 数据计算方式 --------树莓派集群(分布式计算)
  4. 数据获取利用 ---------GPU计算
  • hadoop
    大数据技术之综合开发--张老师 2020.06.02_第1张图片

HDFS 分而治之 高容错性 提高比较大的吞吐量 适合超大数据集的应用程序
MapReduce 单个硬件设备满足不了的时候
Yarn 提供MapReduce的操作

  • 大数据的数据来源
  1. 历史数据
  2. 商业数据(获取原存在问题)
  3. 共享数据 (imagenet)
    大数据技术之综合开发--张老师 2020.06.02_第2张图片
  4. 网络数据 (爬虫)
  5. IoT数据 (物联网 )
  • 获取手段
  1. 收集各类共享数据库
  2. 网络爬取所需数据
  3. 通过数据特征变换 (不改变分布的情况下进行数据填充)
  • 数据爬取
    大数据技术之综合开发--张老师 2020.06.02_第3张图片
  • 特征工程
    大数据技术之综合开发--张老师 2020.06.02_第4张图片
    大数据技术之综合开发--张老师 2020.06.02_第5张图片
  1. 特征清洗
    清洗异常数据:直接删除异常数据
    采样的数据不均衡问题 重采样复制之后进行进一步处理
  2. 预处理
    单特征的标准化 大数据技术之综合开发--张老师 2020.06.02_第6张图片
    特征X不在一个量纲里面 对应的参数T也不一样
    归一化:标准化 求最优解
    离散化 :用单个数据表示一段连续化数据
  • 数据可视化
    excel
    seaborn库
    poltly库
    sugar
    大数据技术之综合开发--张老师 2020.06.02_第7张图片
    Echarts
    大数据技术之综合开发--张老师 2020.06.02_第8张图片
    Tableau
    大数据技术之综合开发--张老师 2020.06.02_第9张图片
  • 机器学习
    有监督学习
    强化学习
    半监督学习
  1. 有监督学习
    有标签的训练场数据
    监督学习的两个典型分类:分类 回归大数据技术之综合开发--张老师 2020.06.02_第10张图片
    线性回归:最小二乘法
    逻辑回归:映射到0–1的区间

  2. 半监督学习
    数量较小的有标记的样本数据来完成操作
    大量未标记的数据和少量标签数据。
    大数据技术之综合开发--张老师 2020.06.02_第11张图片

  3. 强化学习

以奖励信号函数值最大------> 阿尔法狗
大数据技术之综合开发--张老师 2020.06.02_第12张图片

你可能感兴趣的:(大数据技术之综合开发--张老师 2020.06.02)