20200403丰巢科技一面(电话面试)

1、抽样有哪几种?

简述:抽样分为 概率抽样 和 非概率抽样
1、概率抽样:遵循随机原则进行的抽样,也称随机抽样。
(1)简单随机抽样
(从N中随机的、一个个的抽出n个单位作为样本,总体中每个元素都有相同机会被抽中)
(2)分层抽样
(将总体单位按某种特征or某种规则划分为不同的层,然后从不同的层中独立、随机的抽样)
(3)整群抽样
(将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的左所有单位全部实施调查)
(4)系统抽样
(先从数字1到k之间随机抽一个数字r 作为初始单位,以后依次取 r+k,r+2k,...等单位)
(5)多阶段抽样
(首先抽取群,但不是调查群内全部单位,而是再进一步抽样,从选中的群中抽取若干个单位(群)进行调查(再抽样)。——分层抽样与整群抽样的有机结合)

2、非概率抽样:抽取样本不是依据随机原则而是根据研究目的对数据的要求,采用某种方法从总体中抽出部分单位对其实施调查。
(1)方便抽样
(由调查员依据方便的原则,自行确定入样单位)
(2)判断抽样
(研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本。例如:重点抽样、典型抽样、代表抽样等...)
(3)自愿抽样
(被调查者自愿参加的抽样)
(4)滚雪球抽样
(首先选择一组调查单位,对其实施调查后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查)
(5)配额抽样
(首先将总体中的所有单位按一定的标志(变量)分为若干类;然后在每个类中采用方便抽样or判断抽样的方式选取样本)

  • 引申
    ①整群抽样 和 分层抽样 的区别
    整群:群内差距越大越好,群间差异越小越好;
    分层:层间差距越大越好,层内差异越小越好。
    ②概率抽样 和 非概率抽样 的比较
    a.非概率抽样特点:操作简便、时效快、成本低;对于抽样中的统计学专业技术要求不高;适合探索性研究or预备性研究,调查结果用于发现问题。
    b.概率抽样特点:调查成本高;抽样的技术含量更高,需要较高的统计专业知识;适用于各种推断总体的研究。
    c.实际应用中,二者往往结合使用。

2、pandas包里常用哪些?

(1)基本操作:
读取、写入数据(Excel、CSV)
数据展现形式的转换和存储(存成json\ xml\ list\ dict)
对索引和列名 的转换和替换(reset_index\ rename)
数据基本操作如 增删改查\ 取出固定的行列、元素、表\ 数据过滤(正则方法等)
数据的描述性统计分析如 describe\ unique 等
(2)其他操作
分组数学统计如 groupby
对每行或每列进行元素的遍历处理\ 多层分组统计等如 apply
列和行数据的合并如 map
列或行方向的表连接如 concat\ merge
对时间进行处理(日期的推算和时间序列类的计算)

3、numpy包里常用哪些?

(1) 创建数组
array 可以直接将 Python 的 list 类型转化为 Numpy 的数组类型 ndarray
zeros 可以创建元素值全为 0 的矩阵
ones 可以创建元素值全为 1 的矩阵
empty 可以创建一个元素值任意的一个空矩阵
arange 函数可以生成一个等差数列的数组,例如
np.arange(5, 10, 2) # 生成一个从 5 到 9 之间的数组,且步长为 2
linespace 不同的地方在于:arange 函数中第三个参数表示等差数组的步长,而 linespace 函数第三个参数表示一共生成的元素个数。若生成一系列等差的浮点数,则用 linespace 更好些
np.linspace(0, 2, 9 ) # 生成从 0 到 2 之间共 9 个数
(2) 数组索引与切片
索引切片类似 Python list 类型的索引切片
a[3:6:2] = 4 # 将数组 a 从第 4 到 第 6 个元素间隔为 2 赋值为 4
数组的索引和切片用逗号分隔不同维度
b[1:3, 2] # 二维数组第 3 列中, 第 2 行到第 3 行的元素
(3)数组运算
对数组进行加减,幂运算,判断大小等
也支持二维数组的一些运算,包括矩阵的转置,逆矩阵,矩阵的乘积等
a.transpose() # a 的转置矩阵
np.linalg.inv(a) # a 的逆矩阵
np.linalg.eig(a) # a 的特征值与特征向量
np.multiply(a, b) # 矩阵 a 与 b 对应元素相乘,有两种方式:使用 multiply 函数或用乘积符号 *
np.dot(a, b) # 矩阵 a 与 b 的点积,使用 dot 函数

4、ETL(extract-transform-load)工程有哪些?

(1)数据抽取
从MongoDB中取数,拉平的数据和数组
(2)清洗和转换
第一,异常值分析
例如:
空值(删除或者填补,填补可用相似业务含义的字段和相关法律法规推测后填补,或中位数平均值众数等)
重复值
逻辑异常值(例如,性别:汉族)
分布异常值(IQR分析法:箱线图)
第二,对比分析
绝对值和相对值
第三,分布分析
(当前数据属性分布;当前属性分布和常见分布的关系)
例如:离散数据 进行分箱 ---> 等深 或 等宽
4 8 | 15 21 21 24| 25 28 34
(34-4)/3 = 10
4+10 = 14
第四,结构分析
(分析属性的组成结构,例如:第一二三产业 + 实际意义)
第五,数据转换
a. 对指化(若太小或是太大,看不出来差别,可将数据字段取对数或是指数)
b.离散化:把连续数字转化为离散值
c.归一化:x' = (x - min)/(max - min) (0-1范围内,相对值)
d.标准化:x' = (x - x平均值)/ 方差
e.数值化:离散值转连续值(label encoding & one-hot encoding)
f.正规化:可以减少异常大值和异常小值对整体数值群的影响

image.png

总结: 匹配模式---->分布; 组合模式---->结构
(3)加载数据
json格式
xml格式
MongoDB数据库
CouchDB数据库
消息队列
es数据库

5、机器学习用哪个包?

sklearn

6、逻辑回归讲一下?

是一种广义的线性回归分析模型,logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归。
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。

  • logistic回归是分析因变量取某个值的概率与自变量的关系;
  • 对变量分布没有要求;
  • 要求因变量是分类型变量;
  • 不要求自变量和因变量呈线性关系。
    具体如下图所示:
1.jpg

7、随机森林模型讲一下?

是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。
(1) 用N来表示训练用例(样本)的个数,M表示特征数目。
(2)输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M
(3)从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。
(4)对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。
(5)每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用)。

说随机森林,必须先讲决策树。决策树是一种基本的分类器,一般是将特征分为两类(决策树也可以用来回归,不过本文中暂且不表)。构建好的决策树呈树形结构,可以认为是if-then规则的集合,主要优点是模型具有可读性,分类速度快。
在决策树的算法中,建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有一下三种算法: 主要的区别就是选择的目标函数不同,ID3使用的是信息增益,C4.5使用信息增益率,CART使用的是Gini系数。
选择分裂属性是要找出能够使所有孩子节点数据最纯的属性,决策树使用信息增益或者信息增益率作为选择属性的依据。
引申:
(1)信息增益
用信息增益表示分裂前后跟的数据复杂度和分裂节点数据复杂度的变化值,计算公式表示为:
其中Gain表示节点的复杂度,Gain越高,说明复杂度越高。信息增益说白了就是分裂前的数据复杂度减去孩子节点的数据复杂度的和,信息增益越大,分裂后的复杂度减小得越多,分类的效果越明显。
节点的复杂度可以用以下两种不同的计算方式:
a)熵
熵描述了数据的混乱程度,熵越大,混乱程度越高,也就是纯度越低;反之,熵越小,混乱程度越低,纯度越高。 熵的计算公式如下所示:
其中Pi表示类i的数量占比。以二分类问题为例,如果两类的数量相同,此时分类节点的纯度最低,熵等于1;如果节点的数据属于同一类时,此时节点的纯度最高,熵 等于0。
b)基尼值
基尼值计算公式如下:
其中Pi表示类i的数量占比。其同样以上述熵的二分类例子为例,当两类数量相等时,基尼值等于0.5 ;当节点数据属于同一类时,基尼值等于0 。基尼值越大,数据越不纯。
例:
以熵作为节点复杂度的统计量,分别求出下面例子的信息增益,图3.1表示节点选择属性1进行分裂的结果,图3.2表示节点选择属性2进行分裂的结果,通过计算两个属性分裂后的信息增益,选择最优的分裂属性。

image

属性1:
image

属性2:
image

由于 ,所以属性1与属性2相比是更优的分裂属性,故选择属性1作为分裂的属性。
(2)信息增益率
使用信息增益作为选择分裂的条件有一个不可避免的缺点:倾向选择分支比较多的属性进行分裂。为了解决这个问题,引入了信息增益率这个概念。信息增益率是在信息增益的基础上除以分裂节点数据量的信息增益(听起来很拗口),其计算公式如下:
其中 表示信息增益, 表示分裂子节点数据量的信息增益,其计算公式为:
其中m表示子节点的数量,表示第i个子节点的数据量,N表示父节点数据量,说白了, 其实是分裂节点的熵,如果节点的数据链越接近,越大,如果子节点越大,越大,而就会越小,能够降低节点分裂时选择子节点多的分裂属性的倾向性。信息增益率越高,说明分裂的效果越好。
还是信息增益中提及的例子为例:
image

属性1的信息增益率:
image.png

属性2的信息增益率:
image

由于 ,故选择属性2作为分裂的属性。
3.3 停止分裂的条件
以下是决策树节点停止分裂的一般性条件:
(1)最小节点数
当节点的数据量小于一个指定的数量时,不继续分裂。两个原因:一是数据量较少时,再做分裂容易强化噪声数据的作用;二是降低树生长的复杂性。提前结束分裂一定程度上有利于降低过拟合的影响。
(2)熵或者基尼值小于阀值。
由上述可知,熵和基尼值的大小表示数据的复杂程度,当熵或者基尼值过小时,表示数据的纯度比较大,如果熵或者基尼值小于一定程度数,节点停止分裂。
(3)决策树的深度达到指定的条件
节点的深度可以理解为节点与决策树跟节点的距离,如根节点的子节点的深度为1,因为这些节点与跟节点的距离为1,子节点的深度要比父节点的深度大1。决策树的深度是所有叶子节点的最大深度,当深度到达指定的上限大小时,停止分裂。
(4)所有特征已经使用完毕,不能继续进行分裂。
被动式停止分裂的条件,当已经没有可分的属性时,直接将当前节点设置为叶子节点。

8、随机森林模型主要有哪些参数?

(1)max_features:随机森林允许单个决策树使用特征的最大数量。
①Auto/None :简单地选取所有特征,每颗树都可以利用他们。这种情况下,每颗树都没有任何的限制。
②sqrt :此选项是每颗子树可以利用总特征数的平方根个。 例如,如果变量(特征)的总数是100,所以每颗子树只能取其中的10个。“log2”是另一种相似类型的选项。
③0.2:此选项允许每个随机森林的子树可以利用变量(特征)数的20%。
(2)n_estimators:在利用最大投票数或平均值来预测之前,你想要建立子树的数量。
较多的子树可以让模型有更好的性能,但同时让你的代码变慢。 你应该选择尽可能高的值,只要你的处理器能够承受的住,因为这使你的预测更好更稳定。
(3)max_depth: 默认可以不输入,如果不输入的话,决策树在建立子树的时候不会限制子树的深度。
一般来说,数据少或者特征少的时候可以不管这个值。如果模型样本量多,特征也多的情况下,推荐限制这个最大深度,具体的取值取决于数据的分布。常用的可以取值10-100之间。
(4)min_samples_split: 内部节点再划分所需最小样本数。
这个值限制了子树继续划分的条件,如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分,默认是2。如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。
(5)min_samples_leaf: 叶子节点最少样本数。
这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝。 默认是1,可以输入最少的样本数的整数,或者最少样本数占样本总数的百分比。如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。

9、因子分析 以及 主成分分析 区别?

(1)主成分分析:数据的压缩和解释。
通过矩阵变换知道原始数据能浓缩成几个主成分,但无法明确表示哪个主成分代表哪些原始变量,即主成分无法清晰解释其代表的含义。
(2)因子分析:在提取公因子分析时,不仅注意变量之间是否相关,且考虑相关关系的强弱,使得公因子不仅起到降维作用,且能很好地被解释。
因子轴旋转可以使原始变量在公因子上的载荷重新分布,从而使原始变量在公因子上的载荷两极分化,这种公因子能够用哪些载荷大的原始变量来解释。

10、业务分析常用模型?

(1)AARRR(ROI投资回报率)
获取用户-->提高活跃度-->提高留存率-->获取收入-->病毒式传播
订单-->咨询-->访问-->点击-->展现
(2)OLAP(多维)
钻取(上钻、下钻)
上卷
切片
切块
旋转
(3)RFM
(Monetary消费金额--> Recency最近一次消费--> Frequency消费频率)

11、有哪些图形?

直方图
柱状图
折线图、面积图
饼图、雷达图
散点图、气泡图
热力图、等高线图、弦图
(matplotlib\ seaborn\ echarts\ tableau\ 词云wordart)

12、时间序列模型讲一个

(1)ARMA模型
ARMA模型的全称是自回归移动平均(auto regression moving average)模型,它是目前最常用的拟合平稳序列的模型,它又可细分为AR模型(auto regression model)、MA模型(moving average model)和ARMA模型(auto regression moving average model)三大类。
(2)ARIMA模型
ARIMA模型又称自回归求和移动平均模型,当时间序列本身不是平稳的时候,如果它的增量,即的一次差分,稳定在零点附近,可以将看成是平稳序列。在实际的问题中,所遇到的多数非平稳序列可以通过一次或多次差分后成为平稳时间序列,则可以建立模型:
这说明任何非平稳序列只要通过适当阶数的差分运算实现差分后平稳,就可以对差分后序列进行ARIMA模型拟合了。

13、数据分析报告

展示分析结果、验证分析质量,以及为决策者提供参考依据
1、展示分析结果
报告以某一种特定的形式将数据分析结果清晰地展示给决策者,使得他们能够迅速理解、分析、研究问题的基本情况、结论与建议等内容。
2、验证分析质量
从某种角度上来讲,分析报告也是对整个数据分析项目的一个总结。通过报告中对数据分析方法的描述、对数据结果的处理与分析等几个方面来检验数据分析的质量,并且让决策者能够感受到这个数据分析过程是科学并且严谨的。
3、提供决策参考
大部分的数据分析报告都是具有时效性的,因此所得到的结论与建议可以作为决策者在决策方面的一个重要参考依据。虽然,大部分决策者(尤其是高层管理人员)没有时间去通篇阅读分析报告,但是在决策过程中,报告的结论与建议或其他相关章节将会被重点阅读,并根据结果辅助其最终决策。所以,分析报告是决策者二手数据的重要来源之一。

你可能感兴趣的:(20200403丰巢科技一面(电话面试))