数据分析面试

数据分析相关的职位面试可以拆解为以下三块:

1)技术基础

2)项目经验提问

3)业务问题

【数据分析与挖掘(二)】面试题汇总(附答案)_数据分析面试常见问题及答案_youthlost的博客-CSDN博客

我裸辞去面试python岗位了_Python_金钱豹的博客-CSDN博客

sql

py编程

面试:

02 为什么通过统计指标处理特征缺失值时,针对连续型字段经常采用平均值、中位数来填充,而不采用最大值、最小值、众数?
答:采用平均值、中位数可以在一定程度上保证数据的平衡,很多情形下可以维持原有数据的分布形态,若采用最大值、最小值等方式填充,很可能导致处理后的数据分布趋势发生变化,尤其是在缺失值数量较多的情况下,直接导致出现偏峰分布的现象,同时填充后的数据也不符合实际业务的客观理解。当然,在某些特定场景下采用最大值、最小值等填充也是完全合理的,但一般情况下针对连续型特征,采用平均值、中位数相对更合适些。

03 为什么在特征缺失值与异常值处理过程,往往异常值处理在前?
答:如果缺失值处理在前,若通过常用的统计指标(最大值、最小值、平均值等)来填充,会将异常值数据考虑在内,这相当于将噪音数据成分植入到缺失单元,在一定程度上将异常值成分扩散,直接影响数据的合理分布。如果异常值处理在前,可以先将噪音数据影响的排除,然后采用合适的缺失值填充方法处理,可以较好保证特征数据分布的原有形态,对后续模型训练的影响也明显更小。

04 为什么离散型数值特征在异常值处理不采用箱线图方法来实现?
答:从箱线图的原理逻辑来讲,离散数值型特征是完全支持通过箱线图来识别异常值的,而且也具有一定的解释意义,但相对连续型特征的箱线图处理,离散数值型特征处理过程的合理性有明显欠缺。例如,某离散型特征的取值分布为1,2,3,4,10,若采用箱线图来判断,则10会认为异常值,若此特征的标签含义是电商会员卡等级,10是很有意义的,作为异常值处理是不合理的。因此,离散数值型特征往往通过取值占比或人为经验来判断异常值。

05 为什么在数据建模前的特征探索分析很有必要?
答:样本数据探索的主要目的,是为了给后续的数据清洗与特征工程等环节提供信息参考。其中,针对数据清洗方面,我们可以根据数据的统计分析,了解到样本特征的分布类型(连续型、离散型)、取值类型(varchar、int、float、date)、缺失值情况、异常值情况等,可以进一步决定数据清洗的具体方法,例如对于连续型与离散型特征的缺失值处理,选取的处理逻辑是有很大区别的,连续型采用平均值,而离散型采用众数等。针对特征工程方面,由于已知特征字段的不同取值类型,在特征编码、特征标准化、特征相关性等处理方法的选择上也有很大差异。因此,在数据分析任务中,导入数据后的样本探索分析,对于我们熟悉样本特征情况与把握后续处理环节是很有帮助的。

06 为什么特征衍生时字段维度不要太多?
答:特征衍生是数据建模过程中经常采用的一项特征工程,尤其是针对特征变量池较小的情况,但是对原始特征进行衍生的过程中,不能一味追寻加工特征的数量,务必要考虑特征的业务含义与应用价值,在银行等传统金融机构更需要注意这个要点。同时,根据原始特征的不断衍生,例如通过统计学的差分、占比等维度,理论上可以加工出无穷的字段,但新字段之间的相关性是很强的,在后续特征筛选的环节会很大概率的删除,这对工作效率来讲显然是没有必要的,即使不进行特征相关性筛选,在模型拟合过程中会直接导致模型的共线性,而这也并不是我们希望的结果。因此,在特征衍生环节,要客观分析把握一定的衍生维度与方法是最重要的。

07 为什么特征变量之间的相关性分析很有必要?
答:特征变量的相关性分析在数据测试、数据建模等场景中是非常重要的,对于三方数据测试,我们可以根据特征的相关性分析,得到相关字段联系的量化指标,从而为字段选择与特征引入提供很直观的参考价值;对于数据建模,特征的相关性分析已经成为一种标配,根据字段之间的相关性系数大小,可以筛选保留信息度较大的字段,不仅可以较大程度减弱模型拟合的共线性,而且可以提 

面试题:在实施A/B test时,流量该如何进行分流?

答:实施A/B test的核心思路有3点,一是多个方案同时并行,二是控制变量,每个方案之间只有一个变量有差异,三是明确方案的评价标准,即实验组的效果要超过对照组多少才认为是显著的。如果只对一个环节进行A/B test,那么每个方案之间的流量是要互斥的,并且是随机划分的,这样可以保证每个方案的流量都来自于同一个样本空间。

面试题:我们公司有一款产品是与银行合作推出的“联名信用卡”,这种信用卡可以取现。你认为其中存在的风险点有哪些?该如何降低这些风险?

答:我对您提到的这款“联名卡”的具体业务流程不是特别清楚,这里我就假定它和银行的信用卡是类似的。

区别在于贵公司作为资金提供方和流量入口,而银行作为发卡机构。我认为存在的风险有3点。

第一是逾期风险,这个风险普遍存在于金融领域。解决的方法是不断对风控规则进行迭代,定期对模型进行重新训练,适应客群的变化。如果可能的话,还可以与合作银行进行数据方面的共享,降低数据孤岛带来的影响。

第二是欺诈风险。可以采取“面签”的方式降低风险。银行在发放信用卡时几乎都会要求去线下网点面签,与银行合作刚好可以发挥这方面的优势。

第三是政策风险。这个风险点在于银行方面出于合规的考虑与贵公司解除合作。
 

你可能感兴趣的:(数据分析,机器学习)