2019年 第一批
1. 想要了解上海市中学生的身高,从中抽取了1000个样本,这项调查中的样本是 从中抽取的1000名中学生的身高
2. 偏态分布一般用以下哪个指标描述集中趋势 中值 (偏态分布,平均值的代表性比较差 ,所以使用中值)
3. 在以下不同的场景中,使用的分析方法不正确的有 D
A. 根据商家最近一年的经营及服务数据,用聚类算法判断出小红书商家在各自主营类目下所属的商家层级
B. 用关联规则算法分析出对护肤内容有兴趣的用户,是否对彩根据妆内容感兴趣
C. 根据用户最近购买的商品信息,用决策树算法识别出用户是男是女
D. 根据商家近几年的成交数据,用聚类算法拟合用户未来一个月可能的消费金额公式 (聚类时无监督聚类算法,应该用回归)
4. 用算法拦截可疑笔记,描述拦截的笔记中有多少是真的可疑笔记是 准确率
解释:在预测为可疑笔记中有多少是真的可疑!
5. 【查几种检验方法】当总体分布未知的情况下,可以采用以下哪种检验方法? D
A. T检验 (F检验可以判断是否齐方差,T检验则需要根据是否齐方差决定使用T检验还是T'检验)
B. 方差分析
C. F检验
D. KS检验
6. 在做数据分析中,如何处理异常或是缺失数据,请选择一下你认为正确的答案D
不处理
删除元组
数据补齐
以上全对
7. 下列哪一项不是描述连续变量的 ABC
二项分布
泊松分布
超几何分布
正态分布 (连续变量的描述)
离散变量的概率分布,常用的有二项分布、泊松(Poisson)分布。其余的还有两点分布、几何分布、超几何分布等概率分布。
8. 下列关于相关系数的说法,正确的是 AC
A. 相关系数的数值越大,说明两个变量之间的相关程度越高
B.若相关系数r=0,则表明两个变量之间不存在任何相关关系 (R=0只是表示无线性相关,也可能存在非线性相关 )
C. 若相关系数>0,则称两个变量正相关;若相关系数<0,则称两个变量负相关
D. 相关系数取值范围是(-1,1)
9. 如下SQL建表语句:
create table goods_info(goods_id INT primary key, goods_name char(8) not null,category char(20),amount INT),那么可以插入到该表中的数据是?AD
(1234, '口红', ‘化妆品’, 5)
(NULL, '口红', 化妆品, '5')
('1234', NULL, NULL, '5')
(1234, '口红', NULL, NULL)
10. 已知一个家庭有两个小孩,且已知家中至少有一个男孩,则家中至少有一个女孩的概率是1(填分数) 2/3
解释:
B: (Boy);G: 女(Girl)
BB: 1/4 ; GG: 1/4 ; BG: 1/4 ; GB: 1/4;
已知GG不可能,因此 (BG + GB) / (BB + BG + GB) = 2/3
11. having、where、group by语句同时出现在一段sql代码中,那么他们正确的出现的顺序是where——group by ——having
12. 某地区居民以同样多的人民币,2006年比2005年少购买5%的商品,则该地的物价上涨了1%(保留一位小数) 5.3%
假设钱为x,去年买了m数量,今年则买了m(1-5%)数量;则单价上涨:
问答题:
1.
需求:当前希望分析产品上线两周后,页面的使用人群特点(年龄、性别、城市)和页面上不同入口点击率(页面上各种按钮、超链接等等的点击次数/页面访问次数)的关系。
拿到的数据格式为csv格式,每行数据包括:用户操作时间、用户id、用户对应的信息(好几列,年龄、性别、城市)、操作行为(访问、点击)、被操作模块名称(访问行为此列为空,点击行为此列为被点击入口的名称),示例如下
任务:对过去两周产品的使用人群特点和入口点击率进行描述和可视化作图,说明上两周的现状情况。要求:从整体角度描述提到两个指标的变动情况;将不同入口点击率按照人群特点进行划分,描述不同人群的入口点击偏好、对某个入口点击率的差异。
问题1:简述一下拿到这个数据文件后你根据任务所规划的处理步骤(画图or文字描述皆可,文字描述需要写清步骤序号)。
问题2:列出你能够使用以及知道了解的软件名称-对应功能名称-用来处理什么内容(功能名称可以是程序包、具体某个包后插件下的function、使用的图的类型名称等),请把答案是属于“掌握”(知道名字,辅以简单查询后可以自己做出来)还是“了解”(听过这个名字,但没有实践应用过)分成两个部分。
(举例:掌握:excel-图表-柱状图-作图说明不同年龄群有多少人)
我的回答:
1. 数据清洗,删除或者填充确实值,对于不合理的数据进行筛选并处理。
2.对于使用人群特点,主要是针对年龄、性别、城市这几列数据进行统计分析:1)首先针对其中的某一特征如年龄进行划分group,然后对于剩下的两组特征,进行组合情况的分析,可以探讨在不同年龄阶段的(性别、城市)情况,2)或者根据城市进行数据的划分group,然后组合剩下的特征进行划分,3)可以从上述情况中分析出,那一组特征下的频率属于高频率,进而针对性的加强优化!
3入口点击率的分析:首先过滤掉所有操作行为为访问的数据条,然后基于所有的'点击'数据,进行操作对象的统计和分布图可视化,凸显出页面上所有按钮的点击率分布,进而进行针对性的优化、全局分布和引导资源的超链接。
别人贡献:
首先进行数据预处理过程,进行必要的检查,数据重复,缺失值,异常值等问题
分析人群特点:可以按照总体特征的分布情况对人群进行分类,总结人群特点,比如按年龄或者城市分档,也可以两者结合起来作为一个人群特点进行分析。
入口点击率:对总体入口点击率进行趋势分析;然后拆分计算入口点击率,进行细分对比。可以结合人群特点进行分析,挑出重点进行阐述。比如点击率最高的集中是哪个年龄层的用户,某个年龄层内最高的点击率的操作对象是什么,等等。
掌握:excel-图表-柱状图、折线图、甘特图、双层饼图-作图说明用户年龄分层情况和点击率的分布情况
掌握:excel-数据透视表-(切片器)-通过数据透视表进行用户年龄分布和入口点击率的分布情况
掌握:python-matplotlib-hist-作图说明用户人群特点的年龄、城市分布情况
2.
假设:浦东机场近日因车位紧张导致车流堵塞;为了解决这个问题,领导打算扩建停车场并且让你预估需要添加的车位数量。
1、请写出你认为需要的辅助数据
2、如果给你题1中你需要的数据,请阐述你如何使用这些数据预估车位数量。、
别人贡献参考:
1.需要历史访问车次数据,访问的时间,离开的时间+现有车位数量
2.
统计平均每辆车停车时长t1
以t1作为time interval统计平均每t1时间段内访问车辆数量lambda
以t1作为时间区间,每区间内访问车辆数量为k的概率P(k)满足泊松分布P(k) = exp(-lambda)*lambda^k/k!
此时,我们有,下一个时间段t1内访问车次的数量为k1的概率P(k1),此时上一个时段进来的车辆已经开始陆续离开(平均停留时间t1)
因此,假如我们要求95%的概率不会出现拥堵,则可以让p(k1) = 0.95 求出 k1。则k1 - 现有车位,就是我们要扩建的数量。
2019年 第二批
1. 从含有N个元素的总体中抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中,这样的抽样方式称为 简单随机抽样
解释:
简单随机抽样:对总体不做任何划分,随机抽取
分层抽样:挑选对总体影响较大的特征作为分层依据,在每层中抽取一定比例的样本,比如:抽取某小学学生的身高,可按照年纪划分成6层,在每层中抽取一定比例的学生组成样本。
系统抽样:比如100个学生,给每个学生编号,平均分成5等分,每一份都选编号为1,5,9的学生
整群抽样:100个学生分成4个群,随机选择其中的2个群,群里所有学生都要参与抽样。
2. 一组数据,均值>中位数>众数,则这组数据 右偏态
解释:(从小到大:众中平:右)
左偏分布(负偏态)中:mean(平均数) 右偏分布(正偏态)中:mode(众数) 3. 对一个特定情形的估计来说,置信水平越低,所对应的置信区间 越小 解释: 置信区间小,置信水平低(发生的概率越低),但精度高, 置信区间大,置信水平高,精度低 4. 关于logistic回归算法,以下说法不正确的是 B (逻辑回归是一个二分类问题) 5. 下列关于正态分布,不正确的是C 6. 以下关于关系的叙述中,正确的是( )。 B 7. 想要了解一个地区人群的一般收入水平,以下什么指标不能使用?AE (有争议,答案给的BE) 8. 以下属于聚类算法的是 D 9.样本中各观察值均加5后 平均值、中值、众数加5,但是标准差、方差不改变 10. 一批零件共10个,其中有3个不合格品,从中一个一个不放回取出,则第三次才取得不合格品的概率是1(填小数) 0.175 11. 某业务线的营业收入为:200,220,250,300,320万元,则平均增长量为()万元 30 平均增长量 = (末段值-首段值)/ 时间差 (320-200)/4=30 12. 请写sql语句: 想要了解班级内同学的考试情况,现有一张成绩表表名为A,每行都包含以下内容(已知表中没有重复内容,但所有的考试结果都录入在了同一张表中,一个同学会有多条考试结果): student_id,course_name,score 现在需要知道: 1. 每门课程得到成绩的同学人数 2. 每门课程的平均成绩 3. 如果对于每门课程来说,60分以下为不及格,高于60为及格,统计每门课程及格和不及格的人数 13. 经一番研究后,我们开发出了一个新的商品详情页中'相关商品'模块的算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来进行评估。假如你是此次实验的数据分析师,请问你会怎么评估控制组和实验组的表现?请按重要性列出最重要的三个指标并给出你的分析过程。 参考: 1.相关商品的点击率=相关商品链接点击次数/当前页面浏览次数 2.相关商品的购买率=购买行为发生次数/相关商品浏览行为次数 3.当前商品与相关商品一同购买的概率=共同购买/当前商品购买 考察大条知识点:需要复习 1 抽样知识 2 偏态(左偏态 右偏态:众中平)的集中趋势反映用:中值; 正态分布的众数=平均值=中值 3 P R F1 4 检验方法 (T检验 F检验 KS检验 方差分析) 5 数据预处理 6 离散变量 连续变量 及其常用的分布;离散:二项+泊松+几何+超几何 连续:正态分布 7 相关系数 8 置信区间 置信度 9 逻辑回归 (二分类模型,输出一定是离散的,但输入可离散可连续) 10 SQL语句 logistic回归是当前业界比较常用的算法,用于估计某种事物的可能性
B. logistic回归的目标变量可以是离散变量也可以是连续变量
logistic回归的结果并非数学定义中的概率值
logistic回归的自变量可以是离散变量也可以是连续变量 (工业界中我们通常将连续变量离散化再带入logistic回归。 )
正态分布具有集中性和对称性
期望是正态分布的位置参数,描述正态分布的集中趋势位置
C 正态分布是期望为0,标准差为1的分布 (期望为0,标准差为1的是标准正态分布 )
正态分布的期望、中位数、众数相同
表中某一列的数据类型可以同时是字符串,也可以是数字
B. 关系是一个由行与列组成的、能够表达数据及数据之间联系的二维表
表中某一列的值可以取空值null,所谓空值是指安全可靠或零
表中必须有一列作为主关键字,用来惟一标识一行
A. 方差
B. 几何平均数
众数
中位数
E. P值 (P值是假设检验中衡量显著性的)
ARIMA
朴素贝叶斯
支持向量机
D. K-MEANS
1.2.
select
course_name
,count(distinct student_id) as student_num
,avg(score) as avg_score
from A
group by 1
3.
select
course_name
,case when score < 60 then '不及格'
else '及格' end as level
,count(student_id) as student_num
from A
group by 1,2