《从1开始数据分析师成长之路》学习笔记

《从1开始数据分析师成长之路》学习笔记

    • 一、描述、概括、分析
      • 1. 描述
      • 2. 概括
      • 3. 分析
      • 4. 小结:
    • 二、传统数据VS大数据
      • 1. 数据获取方式
      • 2. 传统数据与大数据的区别
    • 三、数据分析与数据挖掘
      • 1. 数据分析的大致模块:
      • 2. 数据挖掘的理论知识体系
    • 四、数据分析的主要工作内容
      • 1. 制作报表
      • 2. 异常数据分析
        • 数据异常的监测及处理
      • 3. 数据需求处理
      • 4. 项目性分析
        • 任务VS 项目
    • 五、数据分析师进阶
          • 格局的培养
    • 六、数据分析实战
      • 1. 报表系统制作
      • 2. 发现异常
      • 3. Logistic回归建模方法过程
    • 七、总结
    • 八、参考资料

一、描述、概括、分析

1. 描述

描述是对事物或是对象的直接描写。
描述性的统计变量:

  1. 平均数:所有数据之和除以数据的个数。表示整体平均水平
  2. 众数:数据中出现频率最高的数值。展示数据的主要集中范围
  3. 中位数:将数据从小到大排列,位置处于中间的数值。用来与平均数进行对比,判断数据是否平滑
  4. 方差:每个数据与平均值的差值的平方,再取平均值。用来判断数据波动情况
  5. 极差:最大值-最小值
  6. 上/下四分位点:将数据从大到小排列,位置处于前1/4或是后1/4的数值。

2. 概括

概括是在具象描述的基础上抽离出的概念与总结。
比如有:正态分布、均匀分布、泊松分布等。、

3. 分析

分析是将研究对象的整体分为各个部分、方面、因素和层次,并分别加以考察的认识活动。分析的有效性建立在一个共识之上:一切结果都是有原因的。数据分析一定是以目标为前提,以结果为导向

4. 小结:

  1. 描述的意义在于让我们知道这个人的外形,这个数据集的长相。
  2. 概况的意义在于从整体上对对象有一个进一步的了解和认识。
  3. 分析的特点在于为了达成一个目标而对对象进行一步步地探索和挖掘。

二、传统数据VS大数据

1. 数据获取方式

数据的获取方式:自有数据和外部数据。

  1. 自有数据包括:爬虫抓取、用户留存、用户上传。
  2. 外部数据:数据交易、数据共享。

2. 传统数据与大数据的区别

  1. 大数据记录的是一个过程,传统数据的记录方式更倾向于对结果的简单描述。
  2. 大数据与传统数据的核心差异在于其价值的不可估量。
  3. 传统数据的价值体现在信息传递和表征,是对现象的描述和反馈,让人通过数据去了解数据。
  4. 大数据是对对象发生过程的全纪录,通过数据不仅能够了解对象,还能够分析对象,掌握对象运作的规律,挖掘对象内部的结构与特点,甚至能了解对象自己都不知道的信息。

三、数据分析与数据挖掘

1. 数据分析的大致模块:

  1. 明确分析目标:更注重解决业务上的问题。目的性极强,区别于数据挖掘的找关联、做分类、搞聚类。
  2. 数据收集:来源广,可以是数据库、信息采集表、走访等各种形式。数据挖掘则偏向于对数据库数据的读取。
  3. 数据清洗:由于数据来源广,数据格式字段不一,需要根据目的进行归类、整合、预估和填补等。
  4. 数据分析:最重要的过程,时刻以目标为前提,结果为导向。数据挖掘更倾向使用贝叶斯、决策树、聚类分类等几个算法进行数据操作。
  5. 数据报告:最简单、最通俗易懂的阐述结果,做这件事有xx%的概率收获XX元。
  6. 执行与反馈。
    自学数据分析或者数据挖掘的关键是构建应用场景!

2. 数据挖掘的理论知识体系

  • 概率基础
    随机变量、数字特征、概率、参数估计、假设检验
  • 算法逻辑
    聚类分析、决策树、关联算法、贝叶斯、回归分析、神经网络。

四、数据分析的主要工作内容

1. 制作报表

格式、函数、图表、VBA。
基础的数据透视表和数据透视图必须非常熟练。
图表是一种表达方式。制作图表的核心标准是:受众能迅速准确地获得你想表达的内容。因此我们要知道每一个图表的特点、优势、特征。
专业报表格式:微软雅黑9号字体,字段行底色浅色35%灰色底色,字体白色加粗,上下居中,左右居中,首行首列做冻结窗格。

  • 折线图传递变化趋势的信息
  • 饼状图传递组成成分的信息
  • 柱状图传递数值大小的信息
  • 散点图传递数据集中度的信息
  • 面积图传递数值积累的信息
    制作报表必须非常严谨客观,数据分析只有100%和0%!
    熟练掌握VBA有助于提高工作效率。

2. 异常数据分析

敏感度、逻辑性、执行力。
异常数据:不符合随机波动的数据。通过背数据可以培养我们的数据敏感性。
统计学中6西格玛概念
其来自正态分布。

  • 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
  • 95.449974%的面积在平均数左右两个标准差的范围内。
  • 99.730020%的面积在平均数左右三个标准差的范围内。
  • 99.993666%的面积在平均数左右四个标准差的范围内

数据异常的监测及处理

发现异常–>分析原因–>给出方案–>推动执行–>监控效果–>反思总结

3. 数据需求处理

MySQL、目的性、全局思维

流程 说明
需求方 明确想要实现的目标
分析师 与需求方沟通、确认目标
目标数据拆分 对目标进行数据字段拆解、评估可行性
需求审批 需求方发审批邮件
数据反馈 数据提供数据支持
效果追踪 跟进是否实现预期

小建议:数据分析师一定要有自己的需求表,并且做一个优先级排序!

4. 项目性分析

扩展项目、优化项目、主动项目、框架性
项目分类:主动项目好被动项目。
被动项目:扩展类和优化类。
主动项目:用户分析、商户分析、其他。
建议先搭好框架,然后执行。自顶向下的思维。
项目性分析的核心:制定方案。
制定方案的思路(本质就是找最优解,利润最大化的方案):找到问题原因–>穷举所有可能的方案–>比较每个方案的优劣–>比较筛选方案的可行性–>找到最优解。

任务VS 项目

  • 任务
    单一的执行和服从命令。
  • 项目
    一系列任务的合集。

五、数据分析师进阶

数据分析思维:逻辑性、方向性、绝对客观与绝对理性。
要自信:没有解决不了的问题,没解决只是因为投入大于产出。
做错事时的态度:客观理性,第一时间先把问题解决、找到错误的原因,再自己检讨。

格局的培养
  • 站在员工的角度考虑问题
  • 站在管理者的角度考虑问题
  • 站在公司的角度考虑问题
  • 站在行业的角度考虑问题
  • 站在国家的角度考虑问题
  • 站在历史的角度考虑问题

六、数据分析实战

1. 报表系统制作

报表系统制作环节:

  1. 业务逻辑
  2. 数据埋点
  3. 报表结构
  4. 数据调取
  5. 报表系统

数据报表体系三大模:获客模块、转化模块、交易模块
图表制作的一个重要准则——保持客观性。

2. 发现异常

同比:一般情况下指今年第n月与去年第n月比。同比发展速度主要是消除季节变动的影响,用以说明本期发展水平比去年同期发展水平对比而达到的相对发展速度。
环比:一般指报告期水平与前一时期水平之比,表明现象逐期发展速度。
注意那些应该异常但是没有异常的数据!

3. Logistic回归建模方法过程

  1. 数据调取与数据清洗
  2. 数据准备
  3. 回归建模
  4. 模型检验
    衡量模型好坏的指标
  • VIF(方差膨胀因子)
    容忍度的倒数,VIF越大,显示共线性越严重。0=100存在严重多重共线性。
  • 预测
  • ROC曲线
    用来确定判定为0/1的分割点位置。
  • K-S值计算
    用来衡量模型区分度的重要标准。logistic回归模型一般要求K-S值在30%以上才算做有效。
    增大样本量的一种方法:从样本中多次随机选择记录组成一个新的数据组。
  • 模型使用

七、总结

读完这本书,对于数据分析有了一个大致的了解,算是小白入门阶段。数据分析是以目的为前提,结果为导向的。一切思考要始终围绕这个出发。
后期的学习要以实战为基础,培养自己的思维能力、数据敏感度、处事态度,在实战中提升技能和软实力。

八、参考资料

张旭东老师的《从1开始数据分析师成长之路》

后记:
我从本硕药学零基础转行计算机,自学路上,走过很多弯路,也庆幸自己喜欢记笔记,把知识点进行总结,帮助自己成功实现转行。
如果想和我一起交流学习,欢迎大家关注我的微信公众号No Bug编程笔记,通过扫描下方二维码或者搜索NoBugNotes关注。这个公众号主要是分享和记录自己学习编程的笔记,如:C – > Python – > Java等,后续还会分享自己面试以及职场上的成长心得。
《从1开始数据分析师成长之路》学习笔记_第1张图片

你可能感兴趣的:(数据分析)