数据分析报告制作(2)

Course3:数据获取与处理

1.内部数据获取
2.外部数据获取
3.数据处理流程
4.数据处理流程详解

数据报告中涉及的数据

image.png

数据报告常用的数据来源

image.png

1.内部数据获取

内部数据包括哪些

image.png
数据仓库
  • 是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建
  • 区别于业务系统:数据仓库整合各个行业系统生产的数据,以分析视角进行整理,按照分析所需的最细粒度存储
  • 获取方式:SQL语句提取数据
  • 获得的数据:明细行为数据,或到某一级别的统计数据


    image.png
BI工具
  • (Business lntelligence)即商业智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。
  • 在数据报告制作中,可以简单的理解为:将数据仓库中选中的数据进行可视化
  • 获取方式:从公司获取登录账号,自行登录工具提取
  • 获得的数据:图表,或到某一级别的统计数据


    image.png
报表系统
  • 区别于BI:报表系统只提供基本数据,不提供图表
  • 区别于数据仓库:报表系统提供的数据固定,灵活性差,但不需要技术知识即可提取
  • 获得的数据:明细行为数据,或到某一级别的统计数据
第三方监测数据
  • 网站数据分析、APP数据分析和营销数据分析常用第三方监测工具,如Google Analytics、CNZZ、ADMaster等
  • 获得的数据:明细行为数据,或到某一级别的统计数据


    image.png
离线报表和历史报告
  • 通常由同事处取得,可以简单理解为excel和PPT
  • 两者均用于历史数据的获取
  • 历史报告还可以作为新报告的参考

已有原始资料需要整理的数据

  • 业务系统:获取业务系统权限,然后通过报表形式下载或写SQL提取数据
  • 电子文档
  • 纸质文档

需要进行收集的数据

  • 日志:获取日志文件,并写脚本或委托程序员同学提取日志中所需的行为数据,逐级整理为数据表并入库,通常后续有持续需求时才会采用此种办法
  • 埋点:写埋点文档,向程序员提需求获取日志数据并进行统计,或是使用无埋点工具自行处理
  • 手工填写报表:零售业,金融业等有大量分支机构的行业
  • 问卷:多用于市场调研

2.如何获取外部数据

外部数据包括哪些

image.png
搜索引擎
  • 之前提到的行业市场数据,包括经济环境、行业发展情况、上下游发展情况、竞争者情况,可以通过搜索引擎作为入口,收集一切能够收集到的公开信息。
行业垂直网站
免费报告
  • 尼尔森、艾瑞、易观智库等专门的市场研究公司提供
技术手段收集
  • 爬豆瓣电影
  • API接口可获取数据拥有者开放的信息

数据获取总结

  • 对于尚未工作的各位
    要写报告,必然是外部数据为主,因为没有太多机会获取我们定义的内部数据
    学个爬虫,或者至少学个爬虫采集器的使用方法,对于获取数据的性价比很高,实在搞不定请淘宝
  • 对于工作或尚未工作的各位:
    搜索引擎是个好东西,一定要熟练使用
    平时就注意收集感兴趣领域的数据和报告,需要用的时候就会事半功倍

数据处理流程

image.png

数据清洗

image.png
预处理
  • 数据导入:100万条以下:excel,100万条以上:MYSQL、Navicat,1000万条以上:文本文件+python
  • 元数据分析:字段解释、字段来源及产生方式、代码表......
  • 人肉看数据:抽取小部分数据,人工观察;初步了解数据情况,肉眼发现一些明显可见的问题
缺失值处理
  • 首先计算各变量的缺失度,之后按缺失度和变量重要性进行相应处理
    image.png

    image.png

    缺失率50%以上就算高
  • 以业务知识或经验推测填充缺失值
    exAPP排名检测中,缺失某几天数据。根据业务经验可使用相邻数据填充
  • 以同一指标的计算结果(均值、中位数、众数等)填充
    ex年龄未填,使用占比最大的年龄填充
  • 以不同指标的计算结果填充
    ex年龄缺失,但可按身份证号计算
格式内容错误数据处理
  • 1、时间、日期、数值、全半角等显示格式不—致
    这种问题通常与输λ端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可
  • 2、内容中有不该存在的字符
    某些内容可能只包括部分字符,比如身份证号是数字+字母,中国人姓名是汉字最典型的就是头、尾、
    中间的空格,也可能出现姓名中存在数字符号、身份证号中出现汉字等问题。这种情况下,需要以半自动
    校验半人工方式来找出可能存在的问题,并去除不需要的字符
  • 3、内容与该字段应有内容不符姓名写了性别,身份证号写了手机号等等,均属这种问题。
    但该问题特殊性在于:并不能简单的以删除来处理,因为成因有可能是人工填写错误,也有可能是前端
    没有校验,还有可能是导入数据时部分或全部存在列没有对齐的问题,因此要详细识别问题类型。
去除逻辑错误
  • 去重
  • 去除不合理值(箱图)
  • 修正矛盾内容


    image.png
去除不需要的字段和关联性验证

数据规范化

image.png

指标和格式计算

  • 指标计算:根据原始数据计算一些指标,如变化率等
  • 格式转换:把数据改成做表or做图的格式,例如将列数据转为交叉表


    image.png

Course4:分析场景与常用图表

1.常见分析场景
2.常用图表

常见数据分析场景

image.png

经营分析

image.png

经营分析案例

目录
一、XX业务总体经营情况
二、XX业务重点产品经营情况
(一)子业务A
(二)子业务B
(三)子业务C
三、专题分析
四、下阶段重点工作安排


image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

市场分析

image.png

市场分析案例

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

销售数据分析

image.png

销售数据分析案例

image.png

image.png

image.png

image.png

客户数据分析

image.png

用户分析案例——香水行业用户

image.png

image.png

image.png

image.png

image.png

互联网产品数据分析

image.png

互联网产品分析案例

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

数据分析场景总结

image.png

Course4:分析场景与常用图表

1.常见分析场景
2.常用图表

使用图表表示的内容类型

image.png

常见图表适用范围速查

image.png

条形图

image.png

柱状图

image.png

折线图

image.png

饼图

image.png

散点图,气泡图

image.png

雷达图

image.png

面积图

image.png

直方图

image.png

高级可视化

  • 所要展示的内容基本图表无法满足时(词频统计)用高级可视化
  • 饼图升级:树图,南丁格尔玫瑰图
  • 折线图升级:平行坐标轴图,热力图
  • 文本展示:词云
  • 关系展示:和弦图
  • 其他:地图

高级可视化工具有

  • 离线界面型:Excel,Powerpoint,PS,Tableau
  • 离线代码型:R,SAS,Python,D3.js,Process
  • 在线型:Echarts,Tagxedo
树图
image.png
南丁格尔玫瑰图
image.png
平行坐标轴图
image.png
热力图
image.png
词云
image.png
和弦图
image.png
地图
image.png

你可能感兴趣的:(数据分析报告制作(2))