DAMA数据治理学习笔记-大数据和数据科学

大数据和数据科学

定义

对多种不同类型的数据进行收集(大数据)和分析(数据科学、分析、可视化),以此来为在分析的初始阶段未知的问题找到答案

目标

  • 发现数据和业务的联系
  • 支持将数据源迭代集成到企业中
  • 发现和分析可能影响到业务的因素
  • 利用可视化技术,以恰当的、可靠的且合乎道德规范的方式来发布数据

大数据特征(6个V)

  • 数据量大(Volume)
  • 数据更新快(Velocity)
  • 数据类型多样/可变(Variety)
  • 数据黏度大(Viscosity)
  • 数据波动性大(Volatility)
  • 数据准确性低(Veracity)

信息收敛三角

DAMA数据治理学习笔记-大数据和数据科学_第1张图片

业务驱动因素

期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大的业务驱动力

数据科学依赖

  • 丰富的数据源
  • 信息组织和分析
  • 信息交付
  • 展示发现和数据洞察

数据科学过程阶段

  1. 定义大数据战略和业务需求
  2. 选择数据源
  3. 获得和接收数据源
  4. 制定数据假设和方法
  5. 集成和调整进行数据分析
  6. 使用模型探索数据
  7. 部署和监控

DAMA数据治理学习笔记-大数据和数据科学_第2张图片

DW&BI&大数据架构

DAMA数据治理学习笔记-大数据和数据科学_第3张图片

数据湖

数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据环境,可供多种场景使用。

数据湖可能很快变成数据沼泽,在数据被摄取时要对元数据进行管理。

大多数据仓库都依赖于 ETL,大数据解决方案,如数据湖,则依赖于 ELT。

  • 数据科学家可以挖掘和分析数据的环境
  • 原始数据的集中存储区域,只需很少量的转换
  • 数据仓库明细历史数据的备用存储区域
  • 信息记录的在线归档
  • 可以提供过自动化的模型识别提取流数据的环境

基于服务的体系结构

  1. 批处理层
  2. 加速层
  3. 服务层

机器学习

机器学习探索了学习算法的构建和研究,是无监督学习和监督学习方法的结合

  • 监督学习: 基于通用规则
  • 无监督学习: 基于找到的那些隐藏的规律(数据挖掘)
  • 强化学习: 基于目标的实现

数据和文本挖掘技术

  • 剖析
  • 数据缩减
  • 关联
  • 聚类
  • 自组织映射

活动

定义大数据战略和业务需求

  1. 组织试图解决什么问题,需要分析什么
  2. 要使用或获取的数据源是什么
  3. 提供数据的及时性和范围
  4. 对其他数据结构的影响以及与其他数据结构的相关性
  5. 对现有建模数据的影响

选择数据源

  1. 数据源头
  2. 数据格式
  3. 数据元素代表什么
  4. 如何连接其他数据
  5. 数据的更新频率

获得和接收数据源

制定数据假设和方法

集成和调整数据进行分析

使用模型探索数据

  1. 填充预测模型
  2. 训练模型
  3. 评估模型
  4. 创建数据可视化

部署和监控

  1. 提供洞察和发现
  2. 使用附加数据源迭代

工具

  • MPP (大规模并行处理)的武功县数据库技术
  • 基于分布式文件的数据库 Hadoop
  • 数据库内算法
  • 大数据云解决方案
  • 统计计算和图形语言
  • 数据可视化工具集

实施指南

  • 战略一致性
  • 就绪评估风险评估
  • 组织和文化变迁

战略交付成果应考虑管理以下要素

  • 信息生命周期
  • 元数据
  • 数据质量
  • 数据采集
  • 数据访问和安全性
  • 数据治理
  • 数据隐私
  • 学习和采用
  • 运营

度量指标

  • 技术使用指标
  • 加载和扫描指标。提取率和与用户社区的交互
  • 学习和故事场景

你可能感兴趣的:(DAMA数据治理学习笔记,大数据,学习,数据挖掘)