刚刚翻了翻《驾驭大数据》这本书,里面讲解的东西通俗易懂,里面技术性比较强的部分是关于 大数据的技术,流程及方法。浏览过后,对大数据分析的技术、流程及方法会有一个概念性的整体认知,虽然不设计技术细节,但读读,很多东西能串联起来。
数据分析性能的提升历程:
1. 数据分析技术的演进历程,从扩展的角度
database 磁带库数据 --> 关系型数据库 --> Relation Databases Management System, RDBMS关系型数据库管理系统 --> Data Mart 数据集市 --> EDW (Enterprise Data Warehouse) 企业级数据仓库
2. 分析环境与数据管理环境的关系是什么?
过去:相互分离,离线处理模式
现在:相互融合,库内处理模式,取代离线分析处理模式,以支持各种高级分析。
库内处理模式
3. 数据分析通用的工具有哪些?
不限于下面的工具:
1). MPP海量并行处理Massive Parallel Process 数据库系统,关系型数据库,处理结构化数据
2). 云计算架构,可以很方便地在硬件、平台方面进行扩展
3). MapReduce的处理方式,程序并发执行,处理半结构化、非结构化数据
4. MPP海量并行处理数据库,对数据进行准备和评分的方法有哪些?
1)SQL,sql能力的发展
2)用户自定义函数UDF
3)嵌入式过程
4)预测模型标记语言PMML Predictive Modeling Markup Language.
5. MPP, 云计算,mapreduce的作用有哪些? 并且有哪些整合方式?
1)数据库在云中运行。
2)数据库内置mapreduce
3)mapreduce与数据库的数据相互传递,同时使用
4)mapreduce对数据库内的数据之间进行处理
分析流程的演进:
1. 什么是分析沙箱?有什么必要性?
一个资源组,是一个直接驻留在数据库内部的工作空间,即库内分析,支持各种高级分析。与DB相分离。有时间限制。
充分利用库内分析的可扩展性的技术优势,直接驻留在数据库系统内部的工作空间,而不是先前的专门的服务器用来支持分析。
优点:独立、灵活性、效率、自由、速度。
适合数据探索、分析开发及原型创建。
但不适用于生产性、或重复性的系统。
2. 沙箱有哪些类型?各有什么特点?
1) 内部分析沙箱
从企业数据仓库或数据集市中划分一块区域,用于分析测试样本数据,现在再加上一个 mapreduce环境,增强分析能力
搭建沙箱,与创建数据库容器类似,只不过可以赋予某些用户权限,并规定如何使用它
优点: 生成环境的数据和沙箱的数据可以直接进行关联分析
无需额外的成本,但数据迁移麻烦,或受生产环境资源限制
2)外部分析沙箱?
独立的物理分析环境,用于测试和开发各类分析流程。一般包括关系型数据库和mapreduce组件两项。
优点:减少负载管理、架构简单
缺点:增加成本、数据迁移
3)混合分析沙箱
内部沙箱:利用生产系统技术能力的灵活性
外部沙箱:可以完成某些高级探索任务
但增加的复杂性,数据一致性检查。需建立一定的分析原则。
4. 系统负载管理与沙箱的关系是什么?
不增加投资,充分利用现有资源,合理安排负载
5. 什么是分析数据集
可以直接用于分析的数据集合,如客户、区域、产品、供应商等
为支持某个分析或模型而收集的数据,且格式满足一定的需要。能缓解高效存储和方便使用 之间的矛盾。
关系数据、第三范式:便于存储或恢复,但不便于复杂的分析。
开发分析数据集: 抽样数据,变量丰富,用于开发测试
生产分析数据集:真实模型部署,数据深(数据量大)、但只包含特定的特征数据。
传统数据集引入的问题有哪些?
冗余、不一致、重复性工作
6. 如何升级传统基于ADS的分析项目?
可以升级为更加规范的EADS企业分析数据集,而不是简单地迁移到库内分析的架构中。
7. EADS是什么?有什么优点?
EADS是一个预定义好的汇总表和概要视图,可以方便地访问成千上百个分析所需的指标。
优点:提升了系统性能,减少了数据冗余,增加透明度,并确保数据的一致性。
其使用范围:不仅适用于各种分析,还可以给其他用户和应用。
汇总表:计算一次,多次使用;大量使用历史数据,实时性不是很高;需要占用大量的系统资源;可以直接使用,无需关联等操作。适用于非实时性数据。
视图:实时;视图内永远是最新的数据;更新能快速完成。但系统负载加重。适用于实时性高的数据。
7. 什么是嵌入式评分过程?有哪些实现方式?
评分过程就是将分析的结果进行广泛应用,并为用户屏蔽复杂的模型。其可以部署在沙箱环境或EADS环境中。
实现方式包括:SQL,UDF,嵌入式过程,或PMML
8. 模型与评分管理系统的组件有哪些?
输入分析数据集、模型定义、模型验证与报表制作、模型评分输出。
分析工具与方法的演进
1. 组合模型、简单模型、最优模型,哪种更适用?
三者各有特点。
能满足需求即可。
2. 用户界面,对分析专家的作用有哪些?
能提高生产力,但是前提是知道自己在做什么,并确保工具“最适当地工作”。
3. 什么是单点解决方案?
专注于一个具体领域的分析,如欺诈或定价。通常基于一些分析工具套件,如SAS,并调用其一些基本功能。针对某一明确的问题集合。收费昂贵。
4. 开源分析工具有哪些?
R项目,开源分析工具集。依赖编程、可扩展性差,缺乏企业级的分析可扩展性。
Apache项目
5. 可视化工具有哪些?
Tableau、JMP、Advizor、Spotfire
PS:
1. ETL: Extract, Transform, Load
2. EDW : enterprise data warehouse