数据处理流程总结

文章目录

  • 一.数据分析
    • 1.什么是数据分析?
    • 2.数据分析的分类
    • 3.数据分析的三大作用
    • 4.数据分析的流程
      • 1.问题的定义:明确目的和思路(具有数据思维)
      • 2.数据收集
      • 3.数据预处理
      • 4.数据分析
      • 5.数据展现
      • 6.报告撰写
    • 5.数据分析的四大误区
  • 二.常用的统计和建模方法
  • 三.具体的工具方法
    • 1.[python](https://github.com/coodict/python3-in-one-pic)
      • 1.1 数据爬虫
      • 1.2 数据预处理
      • 1.3 数据分析与挖掘
      • 1.4 数据可视化
    • 2.SQL
  • 四.具体的业务问题

一.数据分析

1.什么是数据分析?

数据处理流程总结_第1张图片

2.数据分析的分类

在这里插入图片描述

3.数据分析的三大作用

现状分析、原因分析、预测分析。

4.数据分析的流程

在这里插入图片描述

1.问题的定义:明确目的和思路(具有数据思维)

问正确的问题往往是成功的一半。——邱老师

首先你需要确定去分析的问题是什么?你想得出哪些结论?即,先明确分析目的:问题的定义可能需要你去了解业务的核心知识,并从中获得一些可以帮助你进行分析的经验。

然后梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标(各类分析指标需合理搭配使用)。同时,确保分析框架的体系化和逻辑性。

2.数据收集

一般数据来源于四种方式:

  • 1)内部数据:如公司的数据库;
  • 2)第三方统计数据:如专业的调研机构的统计年鉴或报告、市场调查;
  • 3)编写网页爬虫,去收集互联网上的数据;

3.数据预处理

数据处理主要包括:

  • 数据清洗:如异常值、重复值等的处理,缺失值的处理
  • 数据转化:如将男女,转化为01
  • 数据抽取:特征的选择()
  • 数据合并:几项数据的汇总成一项特定的数据项
  • 数据计算

这些处理方法,将各种原始数据加工成为数据分析所要求的样式。

4.数据分析

在这个部分需要了解基本的数据分析方法、数据挖掘算法,了解不同方法适用的场景和适合的问题。

1)常用的数据分析工具,掌握Excel的数据透视表,就能解决大多数的问题。需要的话,可以再有针对性的学习SPSS、R等工具。

2)数据挖掘是一种高级的数据分析方法,侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。

5.数据展现

一般情况下,数据是通过表格和图形的方式来呈现的。

常用的数据图表包括饼图、柱形图、条形图、折线图、气泡图、散点图、雷达图等。进一步加工整理变成我们需要的图形,如金字塔图、矩阵图、漏斗图、帕雷托图等。

一般能用图说明问题的就不用表格,能用表说明问题的就不用文字。

图表制作的五个步骤:
1、确定要表达主题
2、确定哪种图表最适合
3、选择数据制作图表
4、检查是否真实反映数据
5、检查是否表达观点

6.报告撰写

数据分析报告不仅是分析结果的直接呈现,还是对相关情况的一个全面的认识。我们经常看到一些行业分析报告从不同角度、深入浅析地剖析各种关系。所以你需要一个讲故事的逻辑,如何从一个宏观的问题,深入、细化到问题内部的方方面面,得出令人信服的结果,这需要从实践中不断训练。

一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。

  • 1)结构清晰、主次分明可以使阅读者正确理解报告内容;
  • 2)图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。
  • 3)好的数据分析报告需要有明确的结论、建议或解决方案。

5.数据分析的四大误区

1.分析目的不明确,为了分析而分析,这是菜鸟常常容易出现的问题;

2.缺乏行业、公司业务认知,分析结果偏离实际。数据必须和业务结合才有意义。摸清楚所在产业链的整个结构,对行业的上游和下游的经营情况有大致的了解,再根据业务当前的需要,制定发展计划,归类出需要整理的数据。同时,熟悉业务才能看到数据背后隐藏的信息;

3.为了方法而方法,为了工具而工具,只要能解决问题的方法和工具就是好的方法和工具;

4.数据本身是客观的,但被解读出来的数据是主观的。同样的数据由不同的人分析很可能得出完全相反的结论,所以一定不能提前带着观点去分析

二.常用的统计和建模方法

回归

分类

聚类

关联分析

降维:主成分分析、奇异值分解

三.具体的工具方法

AI算法工程师手册
机器学习100天

1.python

1.1 数据爬虫

1.2 数据预处理

数据预处理方法

pandas

numpy

1.3 数据分析与挖掘

1.4 数据可视化

matplotlib库

2.SQL

网络教程

明确每种查询函数的性质,使用方法,适用条件。

  • SQL四种连接方式详细说一下不同
  • group by 与 partition by的区别

偏向实际应用的SQL语句,而仅仅是基础的查询。

四.具体的业务问题

如何提高专车的订单量,都有什么方法
某一天订单量下降,从不同角度分析原因

问:滴滴营收突然降低,你会怎么分析?(借鉴网友)

  • 怀疑数据的正确性;
  • 查看历史出现这情况是什么原因,这些原因作为此次分析的必要部分。
  • 分析什么会影响营收?两个方面:收入 支出
  • 再进一步问:什么影响收入的?
  • 市场整体收缩(季节,地铁大面积开通) 、对手强弱(美团打车大额补贴进入)、政策(计价规则调整)、公关事件(顺风车事件)
  • 什么影响支出?
  • 主要是补贴强弱 (客户端 司机端)

你可能感兴趣的:(数据分析,数据分析)