数据分析的过程

1. 数据分析过程组织为五个步骤:提问、整理、探索、得出结论和传达结果

2. 数据分析的用途:制作仪表盘报表,分析A/B测试结果,用机器学习和人工智能进行深入的分析

3. 数据分析步骤的具体解说:

A  提问

你要么获取一批数据,然后根据它提问,要么先提问,然后根据问题收集数据。在这两种情况下,好的问题可以帮助你将精力集中在数据的相关部分,并帮助你得出有洞察力的分析。

B  整理数据

你通过三步来获得所需的数据:收集,评估,清理。你收集所需的数据来回答你的问题,评估你的数据来识别数据质量或结构中的任何问题,并通过修改、替换或删除数据来清理数据,以确保你的数据集具有最高质量和尽可能结构化。

C  执行EDA(探索性数据分析)

你可以探索并扩充数据,以最大限度地发挥你的数据分析、可视化和模型构建的潜力。探索数据涉及在数据中查找模式,可视化数据中的关系,并对你正在使用的数据建立直觉。经过探索后,你可以删除异常值,并从数据中创建更好的特征,这称为特征工程。

D  得出结论(或甚至是做出预测)

这一步通常使用机器学习或推理性统计来完成

E  传达结果

你通常需要证明你发现的见解及传达意义。或者,如果你的最终目标是构建系统,则通常需要分享构建的结果,解释你得出设计结论的方式,并报告该系统的性能。传达结果的方法有多种:报告、幻灯片、博客帖子、电子邮件、演示文稿,甚至对话。数据可视化总会给你呈现很大的价值。

4. 包:充满类和函数的库

NumPy、Pandas 和 Matplotlib 是数据分析的三个核心包。

Python 被视为数据科学标准语言的最主要原因之一在于其强大的包

5.EDA:意味着你要探索并增加数据,从而将分析、可视化界面和模型的潜力最大化

6.数据评估完后,就需要解决数据里出现的问题,常见问题包括:数据类型错误、数据缺失、数据冗余和结构问题

你可能感兴趣的:(大数据分析,大数据分析)