大数据导论(五:大数据分析)

1、数据分析概念和分类

数据分析是指收集、处理数据并获取数据隐含信息的过程。大数据具有数据量大、数据结构复杂、数据产生速度快、数据价值密度低等特点,这些特点增加了对大数据进行有效分析的难度,大数据分析(Big Data Analytics, BDA)成为当前探索大数据发展的核心内容。
数据分析主要作用包括:
● 推测或解释数据并确定如何使用数据;
● 检查数据是否合法;
● 给决策制定合理建议;
● 诊断或推断错误原因;
● 预测未来将要发生的事情。

2、数据分析的类型

根据数据分析深度,可将数据分析分为三个层次:描述性分析(descriptive analysis),预测性(predictive analysis)分析和规则性分析(prescriptive analysis)。
在统计学的领域当中,数据分析可划分为描述性统计分析、探索性数据分析及验证性数据分析三种类型。
在人类探索自然的过程中,通常将数据分析方法分为定性数据分析和定量数据分析两大类。
按照数据分析的实时性,一般将数据分析分为实时数据分析和离线数据分析。

3、数据分析方法

数据分析是指数据收集、处理并获取数据信息的过程。通过数据分析,人们可以从杂乱无章的数据当中获取有用的信息,从而找出研究对象的内在规律。

**数据来源:**数据作为第四次工业革命的战略资源,全球各国都在大力发展数据基础信息平台的建设,用以改善数据的采集、存储、传输及管理的效率,从而提升信息服务水平。
大数据的来源按照数据产生主体可划分为三层。最外层的是巨量的各类机器产生的数据,次外层是人为产生的大量数据。最内层主要是来自企业的数据。

数据分析活动步骤:大数据分析包括五个阶段,1)数据获取及储存 2)数据信息抽取及无用信息的清洗 3)数据整合及表示 4)数据模型的建立和结果分析 5)结果阐释

**分析数据:**在完成对数据的处理之后,最重要的就是根据既定目标需求对处理结果进行分析。目前,主要依靠四项技术:统计分析、数据挖掘、机器学习和可视化分析。

3.1、大数据分析方法的三种体系

**面向数据视角:**面向数据视角的大数据分析方法主要是以大数据分析处理的对象“数据”为依据,从数据本身的类型、数据量、数据处理方式以及数据能够解决的具体问题等方面对大数据分析方法进行分类。
**面向流程视角:**面向流程视角的大数据分析方法主要关注大数据分析的步骤和阶段。一般而言,大数据分析是一个多阶段的任务循环执行过程。

**面向信息技术视角:**面向信息技术视角的大数据分析方法强调大数据本身涉及到的新型信息技术,从大数据的处理架构、大数据系统和大数据计算模式等方面来探讨具体的大数据分析方法。

3.2、数据分析活动步骤

大数据导论(五:大数据分析)_第1张图片
大数据导论(五:大数据分析)_第2张图片

4、数据挖掘

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
大数据导论(五:大数据分析)_第3张图片

4.1、什么是分类和聚类?

分类: 分类就是通过学习得到一个目标函数,根据目标数据的不同特点按照分类模式将其划分为不同的类别,其作用是通过分类模型,将目标数据映射到某个特定的类别。

**聚类:**聚类分析是把一组数据按照差异性和相似性分为几个类别,使得属于同一类的数据之间相似性尽可能大,不同类之间的相似性尽可能小,跨类的数据关联性尽可能低。

4.2、什么是回归分析和关联分析及特征分析?

**回归分析:**回归分析是确定两种或两种以上变量相互之间依赖性关系的一种统计分析方法,用以分析数据的内在规律,常用于数值预报、系统控制等问题。
关联分析:关联分析最主要的目的就是找出隐藏在数据之间的相互关系和关联性,即可以根据一个数据项的出现推导出其他相关数据项的出现。
**特征分析:**特征分析是指从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式即为此数据集的总体特征。

4.3、人工神经网络

人工神经网络是一种模拟大脑神经突触联接结构来进行信息处理的数学模型,具有强大的自主学习能力和联想存储功能并具有高度容错性,非常适合处理非线性数据以及具有模糊性、不完整性、冗余性特征的数据。

4.4、数据挖掘工具

1)Hadoop

Hadoop是一种能够对大数据进行并行分布式处理的计算框架,以一种可靠、可伸缩、高效的方式对海量数据进行处理。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS具有高容错性的特点,并且设计用来部署在低廉硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

2)Mahout
Mahout的主要数据目标集是大规模数据,因此Mahout能够建立运行在Apache Hadoop平台上的可伸缩的机器学习算法,这些算法通过Mapreduce模式实现,但并不局限于Hadoop平台。

3) Spark MLlib
MLlib是构建在Apache Spark上的一个可扩展的分布式机器学习库,充分利用了 Spark 的内存计算和适合迭代型计算的优势,将性能大幅度提升。MLlib支持的分类算法主要有:朴素贝叶斯、逻辑回归、决策树和支持向量机.MLlib支持的回归算法主要有:Lasso、线性回归、决策树和岭回归。聚类算法属于非监督式学习,MLlib目前支持广泛使用的Kmeans算法。MLlib也支持基于模型的协同过滤,其中用户和商品通过一小组隐语义因子进行表达,并且这些因子也用于预测缺失元素。

4) Storm
Storm是一个开源的、分布式的具有高容错性的实时计算系统。Storm能够十分可靠地处理庞大的数据流,能够用来处理Hadoop的批量数据。Storm应用领域广泛,包括:在线机器学习、实时分析、分布式RPC(远过程调用)、持续计算、ETL等等。Storm的处理速度非常迅速,每个节点每秒可以处理上百万个数据元组,Storm支持多种语言编程,具有容错性高、可扩展、易于设置和操作的特点。

5) Apache Drill
Apache Drill 在基于 SQL 的数据分析和商业智能(BI)上引入了 JSON (JavaScript Object Notation, JS对象标记)文件模型,使得用户能查询固定架构、演化架构以及各种格式和数据存储中的模式(columnar -free)无关数据。

6) RapidMiner
RapidMiner是德国多特蒙德工业大学于2007年推出的世界领先的数据挖掘工具,能够完成的数据挖掘任务涉及范围广泛,并且能够简化数据挖掘过程的设计和评价。

7) Pentaho BI
Pentaho BI是一个以流程为核心的,面向解决方案(Solution)而非工具组件的框架,其目的在于将一系列企业级BI(BI 商业智能)产品、API、开源软件等组件加以集成,方便商务智能应用的开发。Pentaho BI包括多个工具软件和一个web server平台,支持分析、报表、图表、数据挖掘和数据集成等功能,允许商业分析人员或研发人员分析模型,创建报表,商业规则和BI流程。

你可能感兴趣的:(大数据导论学习笔记,大数据,数据分析,数据挖掘)