数据分析试题集+答案

做题不易,随手点赞
一、 选择题(每题2分,合计20分)
1、 请找出数列11,18,38,83…的下一项(C)
a.146
b.168
c.171
d.203
3^2+2,4^2+2,6^2+2,9^2+2,13^2+2
2、 有一组数据的众数>中位数>均值,请问这组数据的分布(A)
a.左偏
b.右偏
c.对称
d.以上都不对

3、 下列的抽样方法中,抽样误差最小的是(C)
a.单纯随机抽样
b.系统抽样
c.分层抽样
d.以上都不是

4、 关于标准差与标准误,以下说法正确的是(D)
a.样本数增大时,样本差减小,标准差不变
b.可信区间大小与标准差有关,而参考值范围与标准误有关
c.样本数增大时,标准差与标准误均减小
d.总体标准差一定时,增大样本数会减小标准误

5、 希望描述一群用户在某页面停留时长的集中趋势,最好采用(C)
a.均值
b.众数
c.中位数
d.均值和中位数
停留时间通常为右偏分布,即停留时间短的远大于停留时间长的人数
6、 随机抽取2个在JollyChic上购物的人群,检验他们的平均消费水平是不是一致,可以用以下哪种检验方法(C)
a. F检验
b.单样本T检验
c.多样本T检验
d.单位根检验
单样本t检验用于样本与总体的比较,检验该样本是否来源于总体;
两独立样本t检验用于两个来自于不同总体的样本,检验两总体是否有统计学差异;

7、 以下关于k-means聚类分析方法说法正确的是(C)
a.能自动识别类的个数,随即挑选初始点为中心点计算
b.能自动识别类的个数,不是随即挑选初始点为中心点计算
c.不能自动识别类的个数,随即挑选初始点为中心点计算
d.不能自动识别类的个数,不是随即挑选初始点为中心点计算

8、 在R中定义函数exec_str <- function(str) {eval(parse(text=str))},并执行exec_str(“5^3”),得到的结果是(C )
a.5^3
b.15
c.125
d.以上都不对

9、 在Excel中有2个表格,表a有两列uid、gender,表b中有一列uid,需从表a中找到与表uid对应的gender,可使用函数(B)
a.match
b.vlookup
c.hlookup
d.if

10、 在Excel工作表中,正确表示if函数的表达式是(B)
a.if(“平均成绩”>60,”及格”,”不及格”)
b.if(a1>60,”及格”,”不及格”)
c.if(a1>60、及格、不及格)
d.if(a1>60,及格,不及格)

二、 问答题(合计80分)
1、 数据分析师是做什么的?自己目前应聘数据分析师职位的优势是什么?(10分)

2、 异常值是什么?请列举至少一种识别连续型变量异常值的方法?(10分)
异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。
Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。
未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

3、 聚类分析是什么?分类算法是什么?分别有哪几种常规的算法?聚类与分类有什么异同点?(15分)

4、 通过支付表jc_pay_fact,计算近7天城市city 为Dubai且支付金额gmv大于60的支付客户数和支付金额
注:jc_pay_fact表数据示例:
pay_date,city,buyer_id,order_id,gmv
2017-9-24,dubai,001,11001,100.21
2017-9-26,new york,003,12085,90.21
请写出查询SQL语句(10分)

5、 作为一个APP需要在各个渠道进行推广安装,作为分析师可以从哪些角度对渠道用户的质量进行评估分析?(15分)

6、 影响一个平台销售额的因素是多方面的,请列举出5个以上的影响因素并简单说明是如何影响的,以及针对性的策略建议?(20分)

你可能感兴趣的:(数据分析,数据分析)