数据分析与数据挖掘的区别与个人理解

数据分析与数据挖掘的区别与个人理解

1.理解大数据

在了解数据分析与数据挖掘的区别之前,首先我们要明确大数据的概念,因为目前互联网所谓的数据分析与数据挖掘都是基于大数据来做的。

1.1大数据的定义与特点

大数据有非常多的定义,我们套用一个流传最广的概念,大数据指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性) 。

总的来说,大数据可以概括为很多、很杂、很有价值的数据。

1.2大数据与传统数据的区别

维度 传统数据 大数据
数据量 GB-TB TB-PB以上
多样性 结构化数据 结构化、半结构化、多维、音视频数据
速度 数据量稳定,增长不快 持续实时产生数据,要求及时处理
价值 高密度 低密度

1.3大数据的理念

①社群思维;
②增强与变革;
③寻找机会。
通俗来说,我们可以理解为流量变现。

2.数据分析与数据挖掘

2.1数据分析与数据挖掘概念

套用百度百科的定义:

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。

数据挖掘又译为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

2.2数据分析与数据挖掘的区别

更详细的将两者进行区分的话,可以从下面几个方面进行理解:

数据分析:
(1)定义:简单来说,数据分析就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。

(2)作用:它主要实现三大作用:现状分析、原因分析、预测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。

(3)方法:主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法。

(4)结果:数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。

数据挖掘:
(1)定义:数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。

(2)作用:数据挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息。

(3)方法:主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。

(4)结果:输出模型或规则,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等。

数据分析和数据挖掘的最大区别在于,数据分析,是以输入的数据为基础,通过先验的约束,对数据进行处理,但是不以结论来调整。因此数据分析的重点在于数据的有效性、真实性和先验约束的正确性。而数据挖掘则不同,数据挖掘是对信息的价值化的获取。价值化自然不考虑数据本身,而是考虑数据是否有价值。此时对比数据分析,最大的特点就是,你需要调整你的不同的先验约束,再次对数据进行分析。而先验的约束已经不是针对数据来源自身的特点,例如信噪比处理算法。而是你期望得到的一个有价值的内容,做先验的约束。以观测,数据根据这个约束,是否有正确的反馈。

2.3数据分析与数据挖掘的联系

从概念上来说:数据分析和数据挖掘的主要联系是,数据分析的结果是信息,这些信息作为数据,由数据去挖掘。而数据挖掘,又使用了数据分析的手段,周而复始。

从职业上来说:职业上,有数据分析师和数据挖掘工程师,这两者的相似点可总结如下:

1、都跟数据打交道,他们玩的都是数据,如果没有数据或者搜集不到数据,他们都要丢饭碗。
2、知识技能有很多交叉点,他们都需要懂统计学,懂数据分析一些常用的方法,对数据的敏感度比较好。
3、 在职业上他们没有很明显的界限,很多时候数据分析师也在做挖掘方面的工作,而数据挖掘工程师也会做数据分析的工作,数据分析也有很多时候用到数据挖掘的工具和模型。而在做数据挖掘项目时同样需要有人懂业务懂数据,能够根据业务需要提出正确的数据挖掘需求和方案能够提出备选的算法模型,实际上这样的人一脚在数据分析上另一只脚已经在数据挖掘上了。

事实上没有必要将数据分析和数据挖掘分的特别清,但是我们需要看到两者的区别和联系,想要成为或者作为一名数据行业的从业者,要根据自身的特长和爱好规划自己的职业生涯,以寻求自身价值的最大化。

3.数据分析与数据挖掘学习路线

3.1必备技能

1.基础技能
2.python
3.HQL
4.数据可视化
5.统计分析方法
6.互联网数据分析业务了解

3.2学习路线

照搬一博主学习路线,传送门:数据分析数据挖掘学习路径

针对我自己情况,也是许久才最终定下来准备学习数据分析以及挖掘,以后从业准备找数据挖掘相关岗位。先说一下我自己的情况,统计专业研究生,做过数据挖掘相关项目,但一直学习的是深度学习计算机视觉CV方面的知识,出于对自身情况以及职业兴趣,纠结了好久的我在七月的尾巴做了决定,最终的我还是选择数据岗位。

因为我从来没有系统学习过数据分析与挖掘相关知识,现在准备从基础入门,写下一系列的文章,希望我可以坚持下来吧。

你可能感兴趣的:(数据分析入门,大数据,数据挖掘,数据分析)