数据分析——概要

背景

  随着互联网的日益繁荣以及人工智能的不断火热,我们会产生大量的数据,这些数据背后隐藏着大量的有用、核心的信息。比如说通过搜集淘宝、京东、天猫等购物数据,可以大概了解用户喜欢购买哪些商品,从而构建知识图谱,然后通过系统推荐算法给用户推荐一些商品,从而促进消费。因此,数据分析也越来越有地位,当然数据分析也是推荐中的其中一环。

一、数据分析的概念

  数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。其实,数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
  数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如设计人员在开始一个新的设计以前,要通过广泛的设计调查,分析所得数据以判定设计方向,因此数据分析在工业设计中具有极其重要的地位。
  在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。数据分析主要包括:探索性数据分析、定性数据分析、离线数据分析、在线数据分析等过程。

二、 数据分析的类型

  前面提到过,数据分析的类型,不过我们大概介绍一下这几种数据分析:

  1. 探索性数据分析:是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。
  2. 定性数据分析:这种数据分析方法又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。
  3. 离线数据分析:离线数据分析用于较复杂和耗时的数据分析和处理,一般通常构建在云计算平台之上,如开源的HDFS文件系统和MapReduce运算框架。Hadoop机群包含数百台乃至数千台服务器,存储了数PB乃至数十PB的数据,每天运行着成千上万的离线数据分析作业,每个作业处理几百MB到几百TB甚至更多的数据,运行时间为几分钟、几小时、几天甚至更长。
  4. 在线数据分析:在线数据分析也称为联机分析处理,用来处理用户的在线请求,它对响应时间的要求比较高(通常不超过若干秒)。与离线数据分析相比,在线数据分析能够实时处理用户的请求,允许用户随时更改分析的约束和限制条件。与离线数据分析相比,在线数据分析能够处理的数据量要小得多,但随着技术的发展,当前的在线分析系统已经能够实时地处理数千万条甚至数亿条记录。传统的在线数据分析系统构建在以关系数据库为核心的数据仓库之上,而在线大数据分析系统构建在云计算平台的NoSQL系统上。如果没有大数据的在线分析和处理,则无法存储和索引数量庞大的互联网网页,就不会有当今的高效搜索引擎,也不会有构建在大数据处理基础上的微博、博客、社交网络等的蓬勃发展。

三、分析方法

  数据分析的方法主要包括列表法和作图法。
  列表法是将数据按一定规律用列表方式表达出来,是记录和处理最常用的方法。表格的设计要求对应关系清楚,简单明了,有利于发现相关量之间的相关关系;此外还要求在标题栏中注明各个量的名称、符号、数量级和单位等:根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。
  作图法可以最醒目地表达各个物理量间的变化关系。从图线上可以简便求出实验需要的某些结果,还可以把某些复杂的函数关系,通过一定的变换用图形表示出来。当然,图表和图形的生成方式主要有两种:手动制表和用程序自动生成,其中用程序制表是通过相应的软件,例如SPSS、Excel、MATLAB等。将调查的数据输入程序中,通过对这些软件进行操作,得出最后结果,结果可以用图表或者图形的方式表现出来。图形和图表可以直接反映出调研结果,这样大大节省了设计师的时间,帮助设计者们更好地分析和预测市场所需要的产品,为进一步的设计做铺垫。同时这些分析形式也运用在产品销售统计中,这样可以直观地给出最近的产品销售情况,并可以及时地分析和预测未来的市场销售情况等。所以数据分析法在工业设计中运用非常广泛,而且是极为重要的。

三、为什么要学习数据分析?

  我们前面也提到数据分析的概念、类型以及常用的一些方法,那么接下来,我们为什么要学习数据分析这门技术呢?
  在日常工作中,我们总会遇到一些问题,包括如下:

  • 1、这个月的KPI有没有完成,业务的数据没有提升,怎么分析都没有效果
  • 2、做SQL的DBM工作人员:每天给业务部门跑数据,每天做的枯燥无味的工作。
  • 3、工作做得不成体系,比较零散、碎片化。
  • 4、每次给领导做项目汇报都是比较零散,不成体系,没有重点。

  数据分析主要学的内容有:数据思维业务知识EXCEL数据可视化SQL统计学python(这里我们用的是python3)。其实真正决定数据分析师上限的是其思维能力以及业务水平,而这几种工具只是简单的应用方式而已

四、数据分析的结构层次

1、底层数据的收集/产品端收集

  数据采集简称埋点,收集用户在网页端、产品端、客户端等终端的数据,也包括第三方外部数据。这里需要注意的是:这里的原始数据是由用户行为产生的。

2、数据业务化/产品需要什么样的数据

  将收集的数据转换成可理解、可量化、可观察的业务指标。单纯的数据就是一堆孤立的数字,没有任何的意义,只有和我们的日常业务联系起来才会发挥更大的价值。这一过程就是从原始数据到加工数据的过程。

3、数据决策和执行/怎么让产品更好

  当从数据中获得了洞察,就需要把洞察转换成策略。这也就是包含了分析的过程,执行既包括策略的指定,也包含优化和改进。这是持续的。这一过程是将可视化数据/信息转化为数据决策。

4、数据模型/产品开始自动化和系统化的运营

  这是将策略制作成数据应用和产品,当你洞察到数据中蕴含的规律。比如说什么样的用户喜欢,什么样的商品会被购买,以及什么样的活动形式更好,需要我们把这些问题做成一张思维导图或者系统。

5、数据战略/指导未来

  这是我们最后一部分,也是最重要的。当我们积累了大量的数据,大量的规模,大量的数据应用时,公司级的数据体系已经具备雏形。它不只是数据分析,而是应该将数据变现。这一过程是将数据工具向数据体系以及战略的转变。
  以下是数据分析一般的框架架构图
数据分析——概要_第1张图片
  工具有很多,每一个工具都是单一的,我们应该将其进行结合,比如mysql与python结合、Excel和sql结合就是一个很好的数据分析库。具体结合如下:
数据分析——概要_第2张图片
  一般对于数据分析师来说,其实最重要的是:业务分析能力,由于业务是核心竞争力,它是一种结果导向型能力。接下来就是要锻炼我们的数据分析能力,这里需要锻炼我们的数据敏锐程度、统计知识等,不过这个过程是一个漫长的过程。最后就是工具的使用,这些工具虽然很好用,但是在职场的过程中,只是辅助我们得出结论的一种工具。因此,数据分析师最后往往是往业务或者是数据分析能力这一块发展的。因此,我们在学习数据分析的过程中一定要注意数据分析的思维的培养以及数据的敏锐度锻炼而不是数据工具的使用。

总结

  从本文开始,我们开始介绍数据分析,近几年的数据分析还是比较火的,这门技术需要我们熟练掌握统计学、mysql、Excel、python、机器学习的相关知识。本文着重给大家介绍了数据分析的概念、类型、方法以及为什么要学习数据分析和数据分析的结构层次。接下来的文章会给大家介绍数据分析思维、数据分析业务、Excel、数据可视化、sql数据库、统计学以及python简要介绍。让大家从宏观上把握数据分析学习的内容。通过这几篇文章希望能够给大家对数据分析有一个整体的认识。因此,下一篇文章会给大家介绍数据分析思维。生命不息,奋斗不止,我们每天努力,好好学习,不断提高自己的能力,相信自己一定会学有所获。加油!!!

你可能感兴趣的:(数据分析,数据分析,分析方法,结构层次,思维分析,业务)