数据可视化学习笔记(三)

大数据技术介绍

大数据应用开发流程

  • 数据采集与预处理
  • 大数据存储与管理
  • 大数据分析与挖掘
  • 大数据可视化

1.数据采集与预处理

  • 数据来源
    • 人所产生的数据
    • 机器、设备和物体的数据(通过传感器)
    • 行业、科研实验数据(大型数据)
  • 数据采集方法
    • 系统日志采集方法
      • 网站点击率、网页浏览痕迹等
    • 网页数据采集方法
      • 推文、评论、新闻信息等
  • 数据预处理
    • 初始数据的获取
    • 数据清理
    • 数据集成与融合
    • 数据变换
    • 数据归约

2.大数据存储与管理

  • 数据类型
    • 结构化数据
      • 保存在数据库中
      • 关系型数据库、非关系型数据库
    • 非结构化数据
      • 文本、图片、音频、视频文件等
      • 分布式文件系统
    • 半结构化数据
      • xml文件,json文件,计算机日志信息等
      • 用自定义的结构来存储数据
  • 数据存储方式
    • 分布式文件系统
      • 90%的大数据都是非结构化数据
      • 分布式文件系统是把一个文件分割成很多个小的数据块,分布地存储到多个计算机节点上。
      • 为了保证系统的容错性和可靠性,分布式文件系统采用多副本方式对数据库块进行冗余存储。
      • 多副本容错技术
  • 关系型数据库
    • 保存小规模结构化数据
  • 非关系系型数据库
    • 灵活的可扩展性
    • 分布式特性与云存储紧密融合
    • 保存大规模数据
    • 开源,成本较低
    • 典型的非关系型数据库:列族数据库、键值数据库、文档数据库、图数据库。
  • 半结构化数据
    • 保存自定义结构的数据
  • 云存储
    • 海量存储,弹性伸缩,无缝扩展
      • 增加存储节点,数据自动重组;减少存储节点,数据自动恢复。
    • 高并发读写性能,摆脱单台设备能力束缚。
    • 高可靠性,系统业务不中断
      • 控制节点采用集群架构,发生单点故障时,备份节点与工作节点可无缝切换。
    • 高可用性,由及时维护变为定期维护。

3.数据可视化基本图表

  • 基本图表
    • 柱状图
    • 条形图
    • 折线图
    • 饼图
    • 直方图
    • 散点图
    • 气泡图
    • 雷达图
    • 地图
    • 热力图
    • 箱线图
    • 矩形树图
  • 柱状图扩展
    • 柱状对比图
    • 堆叠柱状图
    • 瀑布图
  • 条形图扩展
  • 双向条形图
  • 多维度双向条形图
  • 子弹图
  • 折线图扩展
  • 折现对比图
  • 面积图
  • 堆叠面积图
  • 饼图扩展
  • 环形图
  • 嵌套环形图
  • 南丁格尔玫瑰图

4.数据可视化工具

  • 数据可视化工具特性
    • 实时性
      • 数据可视化工具必须适应大数据时代数据量的爆炸式增长需求。
      • 必须快速收集和分析数据,并对数据信息进行实时更新。
    • 简单操作
      • 数据可视化工具满足快速开发、易于操作的特性。
      • 能满足互联网时代信息多变的特点。
    • 更丰富的展现
      • 数据可视化工具需要具有更丰富的展现方法。
      • 能充分满足数据展现的多维度要求。
    • 多种数据集成支持方式
      • 数据的来源不仅仅局限于数据库,数据可视化工具将支持。
      • 团队协作数据、数据仓库、文本等多种方式,并能够通过互联网进行展观。
    • 大数据可视化工具
      • 入门级工具
        • Excel
      • 信息图表工具
      • 地图工具
      • 高级分析工具
        • R
        • D3
        • Python

你可能感兴趣的:(笔记,数据可视化)