BDA初级考试第一周

DAY1:

1、BDA初级考试内容=理论+操作+报告



2、明确数据分析的基本流程:明确分析目的与架构--数据收集--数据处理--数据分析--数据展现--撰写报告。

数据分析可以分为2个阶段(描述阶段和挖掘阶段)、4种模式(what,why,how,which)和8个等级(level1:常规报表:业务问题:发生了什么,什么时候发生。level2:即席查询,类似于临时取数。level3:多维分析,问题出在哪?上哪找答案? level4:警报,什么时候该有所反应,现在该做什么。level5:统计分析,为什么出现这种情况?我错失了什么机会?level6:预报,持续这种发展趋势,未来会怎么样?还需要多少?什么时候需要?level7:预测型模型:,接下来会发生什么?它对务的影响程度如何?level8:优化:,如何把事情做得更好?对于一个复杂问题来说,那种决策是最优的?)。

DAY2:

1、互联网与数字化

随着互联网的发展,互联网已经完成第一阶段的任务:渗透到我们生活中的衣食住行。第二阶段是进行细分领域的垂直拓展。如何细分垂直拓展?利用数据,把能联网存储的数据进行数字化,生成可用数据,分析数据,进而实现驱动业务发展的目的。PS:程序是基于能解决的数学问题,不是数据问题的或者没有答案的数据问题都不能用程序解决,自然也不能拿来分析。

2、了解商业数据分析

what:什么是数据分析

从数据提取和挖掘对企业有用的规律和发展趋势,能够驱动业务决策和业务发展。

why:为什么要学习数据分析

从企业方面:数据分析能给企业决策提供帮助。从个人方面:数据分析是职场的核心竞争力力。

what:数据分析对企业有什么作用

描述问题,诊断问题背后的原因,预测未来发展趋势,提供决策建议。

DAY3:

1、数据分析的通用流程

数据分析的3个常见问题:业务背景,数据分析理论背景,数据分析工具技术的使用。

数据分析的7个通用流程:


确定分析目标和熟悉业务逻辑属于业务背景范畴。

熟悉数据和确保数据的准确性与可用性属于IT职能范畴,对于一个业务有几个表,每个表有哪些字段,哪些字段为空是否存在异常。后续数据处理需要考虑这个问题。

描述问题、诊断问题、决策 数据数据分析理论范畴。

2、确定分析目标和业务逻辑

常见的数据分析业务目标有:增加收入、降低成本、提升效率、控制风险。

如何确定分析目标:场景(发生在什么情况下),问题(存在什么问题),期望(希望解决什么问题,达到什么效果)

WHY:原始需求需要经过需求分析才能抽象出本质需求,从而明确的业务需求。因为业务提出的原始需求往往比较模糊,分析场景及分析目标不明确。业务提出的需求的角度是从用户视角出发的,并不一定是真实的需求,只是提出了现在存在的问题或者现象。

熟悉业务的重要性:数据分析是为特定的业务场景服务的,解决的是具体的业务问题。因此业务逻辑决定了分析的具体思路。快速熟悉业务逻辑,科学的进行业务逻辑梳理是分析人员必备的技能。

快速熟悉业务逻辑三步法:

1、确定描述对象

分析场景中的描述对象是什么业务事件(用户的购买行为、商品的销售情况、包裹的物流过程)

2、确定业务主体,明确业务目标

负责该业务的主体谁(部门、组织、个人),改业务的业务目标是什么。

3、分割业务环节,确定关键节点

为实现该目标,所涉及的业务环节是什么,有哪些关键节点(用户、产品、管理发生变化的地方)。

知道了业务目标,那么怎么实现业务目标?-->业务+数据+分析方法(前面的)


DAY4:

熟悉要分析的数据

认识数据、数据集、指标

什么是数据?

客观世界的记录,对客观事物的性质、状态、相互关系等进行记录的载体。

数据的分类:

定性数据:不可计算

定量数据:可计算

定时数据:日期时间

数据集:数据对象的集合。多个字段组成数据集。行记录,列字段的二维表格。

数据集分类:

定性:提供信息以区分对象

定量:对象某些特征的统计数值

定时:日期时间的统计

指标:根据数据统计或者数据分析得到的反映或者评价某一件事件结果的数据。例如KPI,OPI。

指标的属性:

业务属性:名称、描述对象、计算逻辑、时效和权限

技术属性:来源、取数字段、频率、加工逻辑

指标的分类:

按统计方式分:

基础指标:描述对象的直接统计结果,未经转化的数据。

复合指标:在基础指标之上,通过一定的运算规则形成的反映事件结果的数据。例如:完成率,合格率,利润率。(经过加减乘除四则运算)

按描述内容分:

数量指标:反映事件的规模、数量、统计结果等。例如人口总数、日销售额等。

质量指标:反映事件的质量、强度、经营管理的质量、经营效果等数据。例如:同比、环比、利润率等。

如何熟悉要分析的数据?

1、数据集描述的事件是什么

数据集记录的事件是什么业务场景、主体对象是谁。存的是什么数据。

2、数据集的结构是什么

字段的数量、记录的数据(行列数量)

3、数据集各字段的含义是什么

字段描述的内容是什么、指标的取值逻辑是什么、不同取值代表的含义是什么。需要把字符型字段转化为数值型字段。

4、数据集各字段的类型是什么

定性、定量、定时

输出:


DAY5:

确保数据的准确性、可靠性

数据的质量的含义以及对重复值、缺失值、异常值和准确性问题的识别和处理方法。

数据质量的含义:数据还原的事件与真实事件的差异。差异越大数据质量越差。数据的质量问题会导致数据失真,在分析、建模的过程中会让模型出现错误的结果,导致分析结果不可靠。

数据质量分析什么?

1、重复值:2条记录完全相同或者主键相同。

2、缺失值:数据集中若干字段缺失

3、异常值:记录中的某些值明显偏离其余的观测值

4、准确性问题:记录数据与真实数据存在差异

数据质量分析的步骤:

1、识别异常数据

2、定位原因

3、选择处理方式

重复值出现的原因:数据录入时重复录入,join时笛卡尔积

重复值识别的方法:确定数据集的主键

统计主键出现的次数(SQL:select count(1),count(distinct 主键)

EXCEL:条件格式/突出显示重复值 或者 countif函数 )。

重复值处理方法:去重

缺失值出现的原因:采集时遗漏,处理逻辑错误,属性本来就不存在

缺失值识别方法:EXCEL:countblank(A1:A10)

缺失值处理方法:重新采集数据/重新处理数据/NVL填充处理 /缺失大于30%就删除该字段

NVL填充处理方法有哪些?

NVL(字段,最近3天平均值)

NVL(字段,K最近距离),即用K个和缺失样本距离最近的样本的均值来估算缺失样本的值。计算步骤:确定最近距离的点的个数,即K的取值;计算各个样本间的距离;计算距离样本最近的K个样本的均值作为填充值。

异常值出现的原因:正常业务产生的异常值(促销)、数据采集或者计算错误。

异常值识别方法:

业务逻辑判别法:根据人们对客观事实、业务相关的逻辑判断由于外界干扰、录入错误等原因得到不合理的数据。

极值判别法:关注极大值和极小值

统计判别法:通过统计事件发生的概率识别出小概率事件。

箱型图判别法:根据数据分布,计算数据的上下线,通过绘制箱型图识别异常。

异常值处理方法:

删除:由于录入错误、采集错误导致的少量异常值可以直接删除。PS:慎重对待删除异常值,如果多个异常值应逐个删除,即删除一个异常后需进行检验后再删除下一个异常值(箱型图判别,删一个可能影响下一个)。

视为缺失值:由于录入错误、采集错误导致少量的异常值视为缺失值进行填充处理。

保留异:对于正常业务操作产生的异常需要保留

准确性问题比较隐蔽。

准确性问题出现的原因:

对数据的理解有误,字段含义与理解含义不同

指标的统计逻辑差异

数据不完整,有缺失或者遗漏

准确性问题识别方法:分析结果与已知的准确数据进行对比,与相关人员核实

准确性问题处理方法:不断修正逻辑直到获取准确的数据

输出:


你可能感兴趣的:(BDA初级考试第一周)