大数据导论第一章:大数据的概念学习总结

1. 数据的定义与类型
定义:数据是信息的载体。数据是对客观事物历史情况的抽象表示,可以被记录、保存、传递、分析和处理。我们可以通过数据去了解过去,分析现在,预测未来。所以数据就像是时间的痕迹,我们正是通过数据来感受时间流逝的。
类型:
[1] 统计学中的数据类型:
大数据导论第一章:大数据的概念学习总结_第1张图片

[2] 计算机语言中的数据类型:整型、浮点型、字符串、布尔型、矩阵等
[3] 数据科学中的数据类型:数值、文本、图像、视频、音频等。
随着科技的进步,数据类型不断扩充,数据的多元化也是推动大数据分析技术出现的重要原因之一。
2. 大数据的含义及特征
定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。
大数据具备以下五个特征:
[1] volume (大量),大数据集的数据量很大。
[2] velocity(高速),获得数据的速度要快。因为数据量必须要大,所以如果收集速度慢的话,可能会导致数据过时无法进行分析研究。一般情况下大数据都是被计算机实时收集的。
[3] variety(多样),大数据集的数据类型多种多样,包括数值、图像、文本、音频、视频等。技术的发展让数据更加多元化,这就要求大数据分析必须支持多种数据格式和类型。
[4] veracity(真实准确),数据集的质量要高。一般情况下,数据集中包含信号(signal)与噪声(noise),信号是有价值的能够转化为有用信息的数据,而噪声是无法转化为信息的数据。信噪比越高的数据质量越高。
[5] value(价值),数据对企业的有用性,以低成本创造高价值。可以从两个维度来评价数据的价值:一是数据的质量,信噪比越高的数据能够得到的信息越多,价值就越高,二是处理分析数据的速度,企业的目的不是得到数据而是获得数据中包含的信息(information)、知识(knowledge)和智慧(wisdom),所以得到分析结果所用的时间越短,数据的价值就越高。

3. 大数据分析与小数据分析的区别与联系
两者的最终目的都是为了提取数据中的信息,从而获得知识与智慧,帮助决策。二者区别有以下几个方面:
数据收集与数据类型:小数据分析需要的数据一般都是针对某一特定的问题,通过实验等方式主动收集得到的,数据多为结构化数据,且先有结构再有内容(已知分析需要的变量,再去收集数据);而大数据集由于对获得数据的速度有要求,所以一般情况下都是被动收集到的,因此数据包括的内容比较全面,且数据类型更加多元化。
数据分析的方法:小数据分析方法一般为传统方法,比如假设检验、方差分析等,大数据分析一般无法用传统方法进行,必须用神经网络等大数据分析方法,或者通过某些手段将大数据集转化为小数据集再利用传统方法进行分析。
4. 大数据分析的动机
原始动机:最大化数据的价值,降低数据存储成本,获得更多利润(这里的成本与利润包括人力、物力、财力)。技术的发展使得收集人类生产生活中产生的数据越来越容易,速度越来越快(大数据集的产生),但存储这些数据所需的成本也越来越高,所以人们迫切的需要通过大数据分析来得到数据中蕴含的价值,弥补存储成本同时获得更高的利润。
当然不同领域的大数据分析有不同的动机。对企业而言,利用大数据分析,建立企业运作良性循环,帮助决策,增加盈利,推动公司发展;对政府机关,利用大数据分析,提高工作效率(比如人脸识别等技术在公安机关等机构的应用);对学术研究,获得数据中蕴含的知识。
5. 大数据分析的目的
一个完整的大数据分析过程包括:通过对数据(data)粗略分析获得信息(information);通过赋予信息意义(明确信息发生的原因)创建知识(knowledge),通过整合知识创建智慧。个人认为企业所做的大数据分析是较为全面彻底的,因此我们主要分析企业进行大数据分析的目的。
大数据导论第一章:大数据的概念学习总结_第2张图片

企业的结构一般可以三层,自下而上分别为:执行层、管理层、决策层。
上图表示大数据分析是如何将企业不同层级联系在一起并建立良性循环的。
执行→决策(自下而上,左侧):企业生产的产品是面向消费者的,消费者使用产品(Events)就会产生数据(data),这些数据首先会被执行层拿到,执行层对数据进行简单的分析提取出数据中的信息(information)也就是对上一次战术调整执行后生成的业务情况,整理汇总成业务报告后递交给管理层;管理层从企业绩效的角度对数据进行进一步的分析,找到本次业务报告发生的原因(有关业务为何表现为当前水平),将这些知识转达到决策层;决策层掌握知识后,提供进一步的见解(智慧),帮助做出更改或采用哪种战略来优化公司运营,纠正或增强绩效。
决策→执行(自上而下,右侧):决策层将智慧(有关公司战略、决策、目标和目的的决策)传递给管理层,管理层根据自己所掌握的知识来制定战术,传递给执行层;执行层通过战术调整业务执行,再次获得数据,按照自下而上的方式开始新一轮循环。
如此一个企业就利用大数据分析,实现了良性循环,不断的优化公司运营,提升绩效。
6. 数据分析的类型及它们之间的关系
数据分析类型:描述性分析、诊断性分析、预测性分析和预案性分析。
大数据导论第一章:大数据的概念学习总结_第3张图片

从上图可以看出,四种分析的是递进关系,并且在递进过程中四种分析结果的价值也不断增大,同时分析复杂度也不断增强。描述性分析复杂度最低但分析结果的价值也最低;而预案性分析复杂度最高分析结果也最有价值。
7. 四种分析类型简介
描述性分析:
回答发生了什么(what happened?) 分析结果一般包括:数据的频数分析、集中趋势、离散程度及一些统计图表等
(Information),分析方法有:对比分析法、平均分析法、交叉分析法等
诊断性分析:
回答为什么发生(why something has occurred?) 分析结果为引起最终结果的原因(比较片面的Kowledge),主要方法有假设检验、方差分析等
预测性分析:
回答将来会发生什么?(what will happen?) 根据历史数据,预测事件可能的结果,了解变量之间是如何关联的(knowledge、wisdom) 分析方法有回归预测、神经网络预测、组合预测等
预案性分析
做出决策(make decision) 在多种可能结果中找到最优结果,确定最佳操作方案(wisdom) 各种模拟寻优算法

你可能感兴趣的:(大数据导论第一章:大数据的概念学习总结)