1. 什么是数据分析?
数据分析是指通过某种方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律等分析结果,为特定的研究或商业目的提供参考。
从本质上看,要理解数据分析应从三个方面去把握:一是目标,数据分析的关键在于设立目标,专业上叫作“有针对性”,其实就是对业务需求的把握;二是方法,数据分析的方法包括描述性分析、统计分析、数据挖掘和大数据分析四种,不同的分析方法所使用的情景和功能都是不一样的,这需要在做数据分析时结合具体的情况选择使用;三是结果,数据分析最终要得出分析的结果,结果对目标解释的强弱,结果的应用效果如何。
2. 数据分析的步骤有哪些?
明确分析的目的和内容:数据分析的对象是谁?数据分析的商业目的是什么?最后的结果要解决什么样的业务问题?对数据分析目的的把握,是数据分析项目成败的关键。
数据收集:按照确定的数据分析和框架内容,有目的地收集、整合相关数据的过程,它数据分析的基础。
数据预处理:对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。处理的过程可概括起来包括数据审查、数据清理、数据转换和数据验证四个步骤。
第一步:数据审查
该步骤检查数据的数量(记录数)是否满足分析的最低要求,变量值的内容是否与研究的要求一致,是否全面,包括利用描述性统计分析,检查各个变量的数据类型,变量值的最大值、最小值、平均数、中位数等,数据个数、缺失值或空值个数等。
第二步:数据清理
该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进行“清理”,使“脏”数据变为“干净”数据,保证后续的数据分析得出可靠的结论。当然,数据清理还包括对重复记录进行删除。
第三步:数据转换
数据分析强调分析对象的可比性,但不同变量值由于计量单位等不同,往往造成数据不可比。对一些统计指标进行综合评价时,如果统计指标的性质、计量单位不同,则容易引起分析结果出现较大的误差,再加上分析过程中其他的一些要求,需要在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化、以及属性构造等。
第四步:数据验证
该步骤的目的是初步评估和判断数据是否满足统计分析的需要,从而决定是否需要增加或减少数据量。可以利用简单的线性模型及散点图、直方图、折线图等图形进行探索性分析,利用相关分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和有偏差的数据带入到数据分析模型中。
数据分析:需要选用特定的数据分析方法,熟练操作数据分析工具,实现从数据到知识的分析过程。常用的数据分析方法,最基本的是要了解例如方差、回归、因子、聚类、分类、时间序列等数据分析方法的原理、使用范围、优缺点和结果的解释,熟悉“1+1”种数据分析工具,一种是Excel,一种是专业分析软件SPSS、SAS、MATLAB、R等。
数据展现:数据分析的结果都是通过图、表的方式呈现的,能更直观地让数据分析师表述想要呈现的信息、观点和建议。常用的图形包括饼形图、折线图、柱形图/条形图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕累托图等。
报告撰写:是对整个数据分析成果的一个呈现。首先要有一个分析框架,并且结构清晰、主次分明、图文病猫;其次,数据分析报告需要有明确的结论、建议和解决方案,不仅仅是找出问题,更重要的是解决问题,否则称不上是好的数据分析。
3. 常用的数据分析方法有哪些?
单纯的数据加工方法:侧重于数据的加工和预处理,使用的工具一般是SQL和Excel,描述性统计分析和相关分析
基于梳理统计的数据分析方法:利用一元函数积分,根据概率论和微积分引出数据的分布,从数据的分布出发,进行数据的抽烟推断和假设检验,由此引出方差分析、回归分析、因子分析等基于数理统计的数据分析方法。
基于数据挖掘的数据分析:根据历史数据得出某种规则,根据规则进行判断,例如分类。明白算法原理,计算过程一般使用计算工具完成。常用分析方法:聚类分析、分类分析(决策树、人工神经网络、贝叶斯分类方法、支持向量机、随机森林)、关联规则、回归分析。
基于大数据的数据分析方法:理论基础是数据挖掘和分布式计算原理。大数据具有海量、快速、多样化和有价值四个方面的重要特征。
4. 数理统计与数据挖掘的区别和联系?
联系:他们都来源于统计基础理论,因此它们的很多方法在很多情况下都是同根同源的。
区别:数理统计常需要分析人员先作假设或判断,然后利用数据分析技术来验证该假设是否成立。在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设或判断,而是会让数据挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。
正确运用的思路和方法:针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需求一般都会有两种以上不同的思路和算法可以去探索,最后可以根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案。
5. 请举出数据分析的几个例子?
哪些商品该不该买、哪些客户是优质客户、哪种成分的原料更利于生产、哪个班组的生产质量更稳定