写在最前面的一些碎碎念:对于《数据分析师求职面试指南》的阅读记录,大概会按照个人的阅读进度来更,所以每篇结束的地方可能不是章节结束的地方(●'◡'●)
目录
第一章 面试前的准备
第二章 直面数据分析师面试
第三章 基础知识考察
统计及数据分析知识
基础概念:随机变量、分布函数、概率密度函数
随机变量的常用特征
正态分布与大数定理、中心极限定理
假设检验
第一章首先介绍了常见的数据类岗位,具体分为算法工程师、数据挖掘工程师、数据分析师、数据产品经理和数据仓库工程师,算法工程师侧重技术支持,数据产品经理侧重业务落地。具体的岗位选择则需要根据自己的能力及偏好筛选。而通用的要求具备以下几点:
1.具备扎实的基础知识/编程能力
2.拥有丰富的项目经验
3.具有积极的学习态度
接着作者针对数据类岗位的简历提出建议,包括如何描述数据类项目:以数据为导向、流程明确、突出技术点;最后作者给出了求职可用的一些软件:猎聘、拉勾、BOSS直聘等。
首先介绍了通用的面试流程:笔试→部门内部成员面试→部门负责人面试→总监面试→HR面试
接着作者给出了一些常见的数据分析师面试问题,涉及概率论与数理统计、数据挖掘方面
什么是随机变量?
随机变量是用来描述随机试验结果的,而随机试验指的是在同等条件下能够对某随机现象进行重复观测,具备三个条件:结果的不可预见性,但可以列出全部可能结果;同等条件下可重复实验;实验结果以随即方式出现。
举例:例如某个APP发放优惠券,用户是否使用则是一个随机试验,而对于优惠券转换率X而言,就是一个随机变量
如何区分不同的随机变量?
可以根据随机变量的分布来区分不同的随机变量
什么是样本?样本和随机变量之间有什么关系?
样本是每次随机试验的结果,也称”观测值“
举例:例如,优惠券转化率为X,而每张优惠券是否被使用可以记为x1,x2,……,X就是这些样本的均值
随机变量是怎么进行分类的?分类依据是什么?
随机变量可以分为离散型和连续型,二者区别是是否可数,例如网站点击率可以计数为0,1,2,3,则是可数的离散型变量,而转化率可以是【0,1】之间任意数,不可以枚举出来,则为不可数的连续型变量
常见的离散型随机变量有哪些?各自有什么样的分布律?
对于离散型随机变量,通常用Pr来描述某个试验结果发生概率,不同的分布律对应不同分布
常见的连续型随机变量有哪些?各自有什么样的概率密度?
首先需要定义分布函数,通常用F(x)表示,F(x)=Pr(X≤x),因此也称累积分布函数(CDF),如果存在f(x)为F(x)的导数,则称f(x)为概率密度函数(PDF)
用来描述随机变量的数字特征有哪些?
随机变量X+Y、XY的期望与X、Y期望的关系?
E(X+Y)=E(X)+E(Y):对于XY无约束;E(XY)=E(X)E(Y):XY一定是独立变量,反之不一定成立,只能证明XY不相关,不能证明独立(不相关与独立的区别之后会讲到)
分布的期望和中位数的大小关系?
二者大小关系根据分布的不同而变化,正态分布下二者相等,正偏态情况下中位数小于期望,负偏态情况下中位数大于期望。
简述变量独立与变量不相关的区别?
不相关指的是二者没有线性关系,但不排除其他关系的存在,独立则是二者毫无关系
常见分布的期望和方差是什么?
离散型
连续型
正态分布又称高斯分布
正态分布的基本特性是什么?
概率密度函数以期望为中心左右对称,期望=中位数,呈现“中间高、两边低”的情形
3σ方法与正态分布之间存在怎样的关联?
样本落在3σ之外的概率仅有0.27%,因此这部分误差不再属于随机误差,而是粗大误差,应将这部分数据予以剔除
大数定律:核心在于随着试验次数增加,X均值会愈发趋近于期望
简述常见的大数定律,以及它们之间的区别
辛钦大数定律、伯努利大数定理、切比雪夫大数定律,涉及到中心极限定理(对于一组足够大的样本,无论其原本服从什么分布,最终都能转换为正态分布)
通常需要对一些项目或产品的效果进行分析,判断新功能上线后是否会带来负面影响,因此需要假设检验
假设检验中,原假设和备择假设常用的划分方法是什么?
原假设即为H0,备择假设记为H1,二者选择是基于实际需要。检验统计量是用于接受或拒绝原假设的,常用的有t统计量和z统计量
假设检验的基本思想?
通过证明该样本对应的p-value小于α,以此推翻原假设,接受备择假设