今天是7月5日,进入「数据分析真题日刷」的第五套题啦,继续保持。
❤️ 「更多数据分析真题」
《数据分析真题日刷 | 目录索引》
1. 想要了解上海市中学生的身高,从中抽取了1000个样本,这项调查中的样本是
A. 上海市全部中学生
B. 上海市全部中学生的身高
C. 从中抽取的1000名中学生
D. 从中抽取的1000名中学生的身高
正确答案:D
2.偏态分布一般用以下哪个指标描述集中趋势
A. 标准差
B. 平均值
C. 中值
D. 方差
正确答案:C
「题目解析」
正态分布用「期望」描述集中趋势;
正态分布用「标准差」描述离散程度;
?
偏态分布用「中值median」描述集中趋势。
3. 在以下不同的场景中,使用的分析方法不正确的有
A. 根据商家最近一年的经营及服务数据,用聚类算法判断出小红书商家在各自主营类目下所属的商家层级
B. 用关联规则算法分析出对护肤内容有兴趣的用户,是否对彩根据妆内容感兴趣
C. 根据用户最近购买的商品信息,用决策树算法识别出用户是男是女
D. 根据商家近几年的成交数据,用聚类算法拟合用户未来一个月可能的消费金额公式
正确答案:D
「题目解析」
D应当用回归分析拟合。
4. 用算法拦截可疑笔记,描述拦截的笔记中有多少是真的可疑笔记是
A. AUC
B. ROC
C. Recall
D. Precision
正确答案:D
横轴:(1-Specificity)
纵轴:Sensitivity(正类覆盖率)
Specificity = TN / Total actual negative
Sensitivity = TP / Total actual positive = TP / (TP+FN)
AUC
ROC曲线与轴围成的面积
Recall
Recall 即 Sensitivity = TP / Total actual positive
Precision
Precision = TP / Total predicted positive
Accuracy
Accuracy = (TP+TN) / Total
F1:Precision和Recall的调和均值
2/ F1 = 1/Precision + 1/Recall
5. 当总体分布未知的情况下,可以采用以下哪种检验方法?
A. T检验
B. 方差分析
C. F检验
D. KS检验
正确答案:D
「题目解析」
- t检验 适用小样本,总体标准差未知的正态分布;比较两个平均数的差异是否显著。
- 方差分析 方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,用于两个及两个以上样本均数差别的显著性检验。
- F检验 F检验(F-test),最常用的别名叫做联合假设检验(英语:joint hypotheses test),此外也称方差比率检验、方差齐性检验。它是一种在零假设(null hypothesis, H0)之下,统计值服从F-分布的检验。
- ks检验 Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max|
f(x)- g(x)|,当实际观测值D>D(n,α)则拒绝H0,否则则接受H0假设。
6. 在做数据分析中,如何处理异常或是缺失数据,请选择一下你认为正确的答案
A. 不处理
B. 删除元组
C. 数据补齐
D. 以上全对
正确答案:D
?处理缺失值
7. 下列哪一项不是描述连续变量的
A. 二项分布
B. 泊松分布
C. 超几何分布
D. 正态分布
正确答案:A B C
?常用离散随机变量分布
(这是我自己的笔记hhhh,所以是扫描的插图~)
来源:https://zhidao.baidu.com/question/553517282652454532.html
8. 下列关于相关系数的说法,正确的是
A. 相关系数的数值越大,说明两个变量之间的相关程度越高
B. 若相关系数r=0,则表明两个变量之间不存在任何相关关系
C. 若相关系数>0,则称两个变量正相关;若相关系数<0,则称两个变量负相关
D. 相关系数取值范围是(-1,1)
正确答案:A C
「题目解析」
B: r=0,只说明线性无关,不明确非线性关系;
D:-1和1可取,所以应该是闭区间。
9. 如下SQL建表语句:
create table goods_info(goods_id INT primary key, goods_name char(8) not null,category char(20),amount INT),那么可以插入到该表中的数据是?
A. (1234, ‘口红’, ‘化妆品’, 5)
B. (NULL, ‘口红’, 化妆品, ‘5’)
C. (‘1234’, NULL, NULL, ‘5’)
D. (1234, ‘口红’, NULL, NULL)
正确答案:A D
「题目解析」
主键不能为空,故排除B;根据代码,goods_name不能为空,故排除C。
10. 已知一个家庭有两个小孩,且已知家中至少有一个男孩,则家中至少有一个女孩的概率是(填分数)
正确答案:2/3
?条件概率
「题目解析」
一个家庭中有两个小孩只有4种可能:{(男,男),(男,女),(女,男),(女,女)}。
设事件A为“至少有一个男孩”,事件B为“至少有一个女孩”,则
A = {(男,女),(男,男),(女,男)},
B = {(男,女),(女,男),(女,女)},
AB = {(男,女),(女,男)}
故,P(A) = 3/4; P(AB) = 2/4
P(B | A) = P(AB) / P(A) = 2/3。
11.having、where、group by语句同时出现在一段sql代码中,那么他们正确的出现的顺序是
正确答案:
(1) where
(2) group by
(3) having
12. 某地区居民以同样多的人民币,2006年比2005年少购买5%的商品,则该地的物价上涨了?%(保留一位小数)
正确答案:5.3
「答案解析」
今年100块钱,买100个鸡蛋,每个1元,明年100块钱买95个鸡蛋,每个100/95元,物价上涨率:(100/95-1)/1
来源:https://www.nowcoder.com/test/question/done?tid=24882592&qid=363020#summary
作者:等offer啊啊
参考答案:
清洗->(以xx维度拆分->组合->)计算人群特点->统计整体不同特征人群人数,计算总体入口点击率->描述趋势->拆分计算入口点击率->细分对比,描述每个细分人群的特点->挑出重点进行阐述(希望知道候选人拿到任务之后如何开展自己的工作,对工作步骤是否能有自己的思路)
举例:能够使用:excel-图表-柱状图-作图说明不同年龄群有多少人;能够使用:R-ggplot2-plot+pie_chart-可视化,说明不同城市的人群占比;知道了解:R-dplyr-数据清洗(希望可以知道候选人在数据分析这个方面技能上是否有积累、过去的水平)
14. 假设:浦东机场近日因车位紧张导致车流堵塞;为了解决这个问题,领导打算扩建停车场并且让你预估需要添加的车位数量。
1、请写出你认为需要的辅助数据
2、如果给你题1中你需要的数据,请阐述你如何使用这些数据预估车位数量。
「民间答案」
1.已有车位数量N1
2.平均每个小时进入停车场的车的数量N2
3.历史停车时长数据
到达的车辆数服从泊松分布,根据停车时长数据得到经验分布函数,仿真模拟停车,得到平均等待时间最短的车位数量,再减去已有车位数量N1
来源:https://www.nowcoder.com/test/question/done?tid=24882592&qid=363022#summary
作者:Vv201902202104817