数据架构——重复型分析

分析的基础概念和实践都是通用的,这些概念和实践可以应用于重复型分析。分析有两种不同的类型:开放式连续分析和基于项目的分析。开放式连续分析常用于企业的结构化数据领域,但是在重复型数据领域很少使用。在开放式连续分析中,分析是从数据的收集开始,对数据进行提炼和分析,当完成数据分析后就会根据分析结果做出决策,通过决策的使用收集更多的原始数据重复分析过程。另一种类型的分析系统是基于项目的分析,对于基于项目的分析而言,其目的是仅做一次分析。

数据架构——重复型分析_第1张图片

一个调查究竟 应该进行一次还是经常进行却决于围绕着该调查的基础设施。对于连续性的调查,需要创建一种持续性的基础设施;而在一次性调查中,则需要创建一种极为不同的基础设施。对于任何一种调查一般都需要寻找模式,组织需要识别导致结论产生的模式,通过了解这些模式,组织可以获得洞察力,能够更高效、更加安全或者更加经济地进行自我管理。模式可以以不同的形式出现,模式可以以测量事件的形式出现,有时会对某个变量进行连续测量。在有离散事件的地方,可以通过散点图来表现这些事件,数据统计师应该确定散点图上那些点的准确性和完整性;另一种寻找模式的形式是观察某个连续测量的变量,对于这种情况,一般都会对关注的阈值划分层级,当超出阈值的一个或者多个层级时,就应该对数据进行关注。分析处理与其它类型的处理有着根本性的不同,一般可以将分析处理视为启发式处理。在启发式处理中,分析需求是从当前这一轮处理的结果中发现的。启发式过程的特征之一就是刚开始是无法直到有多少次重新开发迭代过程,而且也无法直到启发式分析的过程要花费的时间;启发式过程的另一个特征是在启发式过程的周期内,需求改变既可能很小也可能完全改变。启发式过程有时需要对数据进行“冻结”,在启发式过程中,处理数据的算法是不断变化的,如果正在被操作的数据同时也在发生变化,那么分析时就无法判断结果的产生来源,因此,针对数据算法变化的情况需要将其操作的数据冻结起来。

数据架构——重复型分析_第2张图片 

启发式处理是在沙箱中进行的,沙箱是一种供分析师查看和研究数据的环境,采用沙箱会减少分析师在处理类型或者数量方面受到的限制。需要沙箱的原因在于:在标准企业处理中需要对处理过程进行严密的控制,而在沙箱中对分析师并没有这种限制,沙箱环境中并不需要高性能,分析师可以自由地进行想要做的分析研究。沙箱环境的存在还有另一个原因,那就是在标准作业环境中,需要对数据访问和计算进行严格控制,因为在标准环境中,需要考虑安全性和数据治理方面的事项,在沙箱中则不需要考虑这些。沙箱处理还有相反的一面,由于在沙箱环境中没有控制机制,沙箱环境中的处理结果不应该在正式场合中采用,沙箱中的结果可以产生全新且重要的洞察力,但是当获取这种洞察力之后,就应该将其转换成一个更为正式的系统,使之融入标准作业环境中。

分析师需要设计标准概况,标准概况是被分析对象的构成情况。企业的标准概况一般包括企业的规模、地址、产品、服务类型以及收入情况等。使用标准概况的原因之一就是事务的概况可以使管理人员对系统中将要出现的状况一目了然,然而标准概况非常有用的另一个原因使在研究大规模数据时,查看单个记录并且度量其距离标准记录有多远通常是非常必要的,因为无法确定单个记录举例标准记录有多远。当针对重复型大数据环境做分析时,处理的类型可以分为两种,一种叫做提炼处理,另一种叫做筛选处理。在提炼处理中,处理的结果是单一结果集;对于筛选处理,处理结果是对多个记录的选择和精炼。筛选处理的目标是找出所有满足某种准则的记录,一旦找到了这些记录,那么就可以对其进行编辑、操作或者做其它变换使之适应分析需求。

 数据架构——重复型分析_第3张图片

筛选的结果之一就是创建数据的子集,当读取和筛选重复型数据时,结果就是为数据创建不同的子集,当读取和筛选重复型数据时,结果就是为数据创建不同的子集,建立的原因有以下几方面:

  • 减少需要分析的数据量
  • 处理纯度更高
  • 安全等级更高

对于重复型数据来说,一般很容易获取其语境,原因是重复型数据的数据出现的频次很高,而且结构相似。对于大数据环境来说,因为数据是非结构化的,所以在使用前必须将这些数据解析。重复型记录本身就有价值,但是有时候还可以将重复型记录链接到一起形成一个更大的图,从图中的逻辑关系可以推导出更加复杂的内容。重复记录链接的方式有很多种,最常用的方式是链接数据值。重复型大数据环境中的数据看起来就像是将大量数据单元首尾相连、叠放在一起,将重复型数据看作是以数据块、记录和属性等形式来组织。数据块是一种比较大的空间分配,数据块中装载了数据单元。可以将这些数据单元视为记录,数据属性存在记录当中。大数据中最常见的一种形式就是日志数据,当查看日志数据时会发现,从结构上来看,日志数据也是重复型数据,直接访问大数据中数据的技术主要是:

  1. 数据的读取和解释
  2. 大规模数据的管理

 数据架构——重复型分析_第4张图片

大数据的管理很消耗资源,并且需要先创建一种数据结构。为数据创建不同类型的索引是最有效的。大多数索引的建立都是从用户的数据访问需求开始的,当建立索引时,可以将其称作主动式索引。然而,还可以创建另一种类型索引被称为被动索引。被动式索引并不是从用户需求出发的,这些索引是按照数据的组织方式创建的,以备后期访问数据时使用。使用索引是需要代价的,索引的代价体现在:

  • 建立索引
  • 更新索引
  • 索引的存储

大数据环境中另一种非常重要的数据类型就是元数据。元数据有很多形式,每个形式都有其重要的原因。比较重要的两种元数据的形式是原始元数据和导出元数据。原始元数据是指那些能够满足数据的直接描述性需求的元数据,典型的原始元数据包括以下信息:

  • 字段名
  • 字段长度
  • 字段类型
  • 表示特征的字段

原始元数据用于表示和描述大数据环境中存储的数据。导出元数据有很多种形式,包括以下这些:

  • 如何选择数据的描述
  • 对选择数据时间的描述
  • 对数据源的描述

数据架构——重复型分析_第5张图片 

对于大数据环境中存储的元数据而言,这些元数据的存放位置则是需要考虑的问题。通常可以将元数据存放在一个单独的存储库当中,而该存储库的存放是与数据本身物理隔离的。在大数据环境下,在物理上将描述性元数据与其所描述得数据存放在同一位置和同一数据集中通常是有意义的。在物理上将元数据与数据本身存放在同一物理位置上的原因包括:

  • 存储器便宜
  • 大数据环境缺乏规范
  • 元数据随时间变化
  • 处理的简单化

将元数据直接与大数据中的数据存储到一起的做法并不意味着不存在为大数据建立一个元数据存储库的可能性,可以将无法在大数据环境中存储的元数据存放在某个存储库中。

由于大数据存储成本低廉,所以将来自内部数据源以外的数据存储起来也非常方便。挡在大数据环境中存储数据并且使用文本消岐处理将数据转换成标准数据库格式时,就出现了通用标识符或者通用度量这样的主题。因为数据有多样的来源,在不同的数据源中数据缺乏或者没有准则和统一性,而且因为要将数据与通用度量关联起来,所以需要在所有数据来源之上建立统一的度量特征。以下数据可能包含的三种标准:

  • 时间
  • 日期
  • 货币

对于数据而言,数据安全性是重点,数据保护的原因有以下几方面:

  • 出于隐私方面的原因,卫生保健数据需要具备安全性
  • 为防止偷窥或者出现个人丢失,个人的金融数据需要具备安全性
  • 因为企业内部的交易规定,企业的金融数据也需要具备安全性
  • 需要确保交易秘密,企业活动也需要具备安全性

对于安全性来说,最有效也是最简单的方式就是加密。加密过程就是获取数据并且将实际值替换成加密值的过程。安全性除了数据本身以外还有对数据访问权限的控制。在分析重复型数据时,有两种基本的处理方式即提炼和筛选。在数据的提炼过程中,可以选择和读取重复型记录,之后分析数据、查找平均值、总值、异常值等。在完成分析之后会得到单一的结果,这样就完成了提炼过程。针对重复型数据的另一种处理就是筛选和重组重复型数据,在数据的选择和分析方面,筛选过程与提炼过程非常相似。但是数据筛选的输出是不同的。在筛选处理中,输出可以有很多记录,而且筛选是规律、按照时间表进行。

大多数针对重复型数据所做的分析处理会因为项目的不同而不同,因此,在项目结束之后创建一个存档是非常有用的。存档时需要考虑的信息一般有以下这些:

  • 项目中涉及数据的类型
  • 数据的选择
  • 使用的算法
  • 项目中迭代的次数
  • 项目达到的效果
  • 结果存储的路径
  • 对该项目的主导
  • 该项目的实施时间
  • 该项目的赞助方等

在重复型分析开始时,很有必要建立一些指标用来确定一个项目是否已经达到了目标。概述指标的最佳时期就是项目刚开始的时候。指标的确立可以检测项目在每个阶段的实施情况,也可以作为项目阶段性验收的标准。

以上全部内容就是重复型数据分析。

 

 

你可能感兴趣的:(大数据,数据仓库)