BDA初级分析——数据收集、清洗和整理

一、认识数据

BDA初级分析——数据收集、清洗和整理_第1张图片

 什么是数据?

数据是对客观世界的记录,用来记载事物的性质、状态、相互关系等。

BDA初级分析——数据收集、清洗和整理_第2张图片

有哪些常见的数据类型?

 BDA初级分析——数据收集、清洗和整理_第3张图片

 什么是数据集?

数据集:数据的集合,通常以表格形式出现。

BDA初级分析——数据收集、清洗和整理_第4张图片

 BDA初级分析——数据收集、清洗和整理_第5张图片

 

二、收集数据

我们都会从哪里收集数据?

BDA初级分析——数据收集、清洗和整理_第6张图片

 内部数据:

BDA初级分析——数据收集、清洗和整理_第7张图片

 外部数据:

BDA初级分析——数据收集、清洗和整理_第8张图片

 收集数据的注意事项

① 准确性:确保数据源是准确的

② 及时性:确保各数据源都反馈的是相同时间窗口的数据

三、评估数据

准确性问题:

BDA初级分析——数据收集、清洗和整理_第9张图片

 唯一性问题:

BDA初级分析——数据收集、清洗和整理_第10张图片

 一致性问题:

BDA初级分析——数据收集、清洗和整理_第11张图片

 完整性问题:

BDA初级分析——数据收集、清洗和整理_第12张图片

 收集数据后,可以直接进行分析吗?

评估数据质量,做必要的清洗和整理。

 统计基础知识——描述数据

描述数据的两个关键问题:

① 集中度:数据集中在哪个区域

② 分散度:数据有多偏离中心区域

1、数据的集中度——平均值

平均值:用所有数据的和除以数据的条数

 极大值或者极小值容易引起平均值的偏差

BDA初级分析——数据收集、清洗和整理_第13张图片

 2、数据的集中度——中位数

中位数:将数据从小到大排列之后,处于正中间位置的那个数字

 BDA初级分析——数据收集、清洗和整理_第14张图片

 3、数据的离散度——全距/极差

全距:数据中最大值和最小值的差

 BDA初级分析——数据收集、清洗和整理_第15张图片

 BDA初级分析——数据收集、清洗和整理_第16张图片

 4、数据的离散度——四分位数

四分位数:将数据按从小到大的排列“均分为”四等分后,四等分位置的数值

BDA初级分析——数据收集、清洗和整理_第17张图片

 5、数据的离散度——方差、标准差

BDA初级分析——数据收集、清洗和整理_第18张图片

 数据质量的评估标准

BDA初级分析——数据收集、清洗和整理_第19张图片

 1、完整性的评估——缺失值

缺失值: 原本应该有数据记录的位置出现了空的记录

缺失值对整体占比比较小,比如只有5%甚至更少,则可认为不影响整体分析结论,直接做删除处理。
如果数据的缺失值数量较大( 比如20%-30%),影响了整体分析效果,可以对数据做适当的填充。对于数值,可以使用平均值或者中位数,对于类别(比如前面例子里所展示的性别 ),则可以使用众数。

2、完整性的评估——异常值

异常值: 数据的情况比较异常,偏离数据较多,特别大或特别小

统计学方法判断( Z-test ) : 按照统计原理,如果数据量达到一定量级就都会满足正态分布,99.9%的数据应该落在这个数据的平均值+/-3个标准差的范围内NortmalCUrStandard Deviation

BDA初级分析——数据收集、清洗和整理_第20张图片

 

IOR判断:限定离群值下限=O1-1.5*IOR、离群值上限=Q3+1.5*IQR,在离群值上限以上或者下限以下的点会被我们作为异常数据

业务和常识理解判断:在相对较小的数量时,可能会出现多个离散在外的点就需要通过业务和常识主导判断

缺失值和异常值的处理没有绝对的对错 选择方法根据业务场景和数据丰富度来决定

四、课后小结

BDA初级分析——数据收集、清洗和整理_第21张图片

 五、随堂练习

BDA初级分析——数据收集、清洗和整理_第22张图片

 

 正确答案:错误。

这两个方法的前提都是认为数据是接近正态分布的。按照统计原理,如果数据量达到一定量级就都会满足该分布。如果数据量极小,就可以根据业务和常识理解做判断

BDA初级分析——数据收集、清洗和整理_第23张图片

 

正确答案:ABCD

评估数据质量的四个维度: 准确性、唯一性、一致性、完整性

BDA初级分析——数据收集、清洗和整理_第24张图片

 

正确答案:C

身高150米显然是常识的错误,属于准确性问题

BDA初级分析——数据收集、清洗和整理_第25张图片

 

正确答案:错误。

唯一性代表数据不应该有违背业务意义的冗余,作为一张销售记录表,业务意义的几余是指一条销售记录被登记了多次。但这一题里,两条记录的购物时间是不同的,意味着1001用户在不同时间购买了同样的商品,是两条销售记录

BDA初级分析——数据收集、清洗和整理_第26张图片

 

正确答案:A

有数据才能做分析,界定问题后,需要从内外部收集数据

BDA初级分析——数据收集、清洗和整理_第27张图片

 

正确答案:错误。

数据清洗没有绝对的标准答案。一般情况下,字段少量缺失,可以做删除处理,也可以采用平均值.中位数、众数做填充或进行其他处理。处理方式不唯一。

BDA初级分析——数据收集、清洗和整理_第28张图片

 

正确答案:错误。

在法律允许的范围之内,充分收集外部数据,例如用户、社会、行为和消费信息,对于扩展分析维度会有很好的帮助。

BDA初级分析——数据收集、清洗和整理_第29张图片

 

 正确答案:AD

及时性在这里并不是指快速拿到这个数据,而是确保各数据源都反馈的是相同时间窗口的数据

BDA初级分析——数据收集、清洗和整理_第30张图片

 

正确答案:AB

时间类数据表示日期、时间,在C选项中,2s是时间间隔而不是时间,是数值类数据

你可能感兴趣的:(BDA初级分析,算法,数据)