白嫖一番!!!!如果院校与CDA合作,就专门有免费报考通道,是不是白嫖一番嘛,
CDA一级考试知识点考得基础,考试形式中国式考试,单选+多选+案例分析题形式。
涉及到数据分析概述、数据结构、数据库基础、描述性统计分析、多维数据透视分析、
业务数据分析、业务分析报告与数据可视化报表。话不多说直接上题哦
整理不易,记得一键三联(关注哦,模拟二正在整理中,在评论框发“资料”两个字给你们发word版哈)
1.卡方检验是用途非常广的一种假设检验方法,卡方检验中,将任意两行互换,卡方值( )
A.变大
B.变小
C.不变
D.不确定
解析:卡方检验的结果与分类变量的顺序无关,将任意两行进行互换,卡方值不变。
2,在研究数据中,有一个变量“饮料类型”有4 个水平“果汁”、“碳酸饮料”、
“能量饮料”和“其他”,由于该变量的少量数据缺失,那么缺失值用哪种填充
方式会比较好?A.均值
B.中位数
C.众数
D.调和平均数
解析:这是分类数据,只能用“众数”。
3.在进行缺失值填补时,若数据呈明显的偏态分布,则可考虑采用下列哪种方
法?( )A.将存在缺失值的样本删除
B.将存在缺失值的变量删除
C.中位数填补
D.均值填补
解析:中位数不受具体数据分布的影响
4.教育水平作为定序型变量,若要描述其离散程度,可选用以下哪种方法( )
A.平均差
B.四分位差
C.方差
D.标准差
解析:另外三种都只能用于描述数值型数据。
5.以下哪个函数用来返回当前的日期及时间
A.NOW
B.TIME
C.DATE
D.TIMENOW
解析:NOW函数用来返回当前的日期及时间信息。
6.以下哪个 SQL 函数可以完成对数字的四舍五入
A.FLOOR
B.CEILING
C.ROUND
D.TRUNCATE
解析:floor(x)表示返回小于 x 的最大整数值(去掉小数取整),ceiling(x)表示返
回大于 x 的最小整数值(进一取整),round(x,y)表示返回参数 x 的四舍五入的
有 y 位小数的值(四舍五入),truncate(x,y)表示返回数字 x 截短为 y 位小数的
结果。7.以下聚合函数中,使⽤正确的是
A.COUNT(*)
B.MIN(*)
C.MAX(*)
D.SUM(*)
解析:COUNT()函数对给定数据进⾏计数,COUNT(*)表示对表中所有记录进⾏计数;⽽其他聚合函数
只能对给定字段的值进⾏计算。8.求两个判断条件的交集结果时使用的运算符是
A.加号(+)
B.等号(=)
C.且(AND)
D.或(OR)
9.子查询如果在SQL语句中放错位置是会报错的,子查询可以出现在以下哪个子句中
A.GROUP BY
B.ORDER BY
C.HAVING
D.LIMIT
解析:子查询可以出现在SELECT、WHERE、HAVING、FROM、JOIN子句中。
10.子查询使用的运算符ALL, 表示的意思是
A.满足所有条件
B.满足任意一个条件
C.一个都不满足
D.满足一个条件
解析:IN或NOT IN表示是否在其中,等于其中任意一个条件即可,ALL表示每一个,全部条件都满足。
11.关于子查询的语法规则,正确的是
A.子查询必须放在圆括号里
B.由外到内执行,先执行外部的主查询,再执行内部的子查询
C.可以嵌套无数个子查询
D.所有的子查询都必须添加别名
12.子查询是SQL语句中常用语法,合理的使用子查询可以让代码更简洁。以下关于子查询,说法不正确的是
A.表子查询必须添加表别名
B.引用表子查询中的计算字段,必须添加列别名
C.所有的连接查询都可以替换为子查询
D.所有的子查询都可以替换为连接查询
解析:当WHERE子句的查询条件是聚合函数时,子查询不能替换为连接查询。
13.使用“select * from 表 1 inner join 表 2 on 表 1.员工 id = 表 2.员工id”语句对下边两个表进行查询,查询结果中应有几行数据
A.2
B.3
C.4
D.5
解析:在连接两表的字段中有重复值且两个字段的值不是一对一匹配关系时
,内连接的结果是把两表中都有的值列出来,并且有重复值的地方进行多对多匹配。
14.使用SQL合并数据简单方便,以下关于SQL中UNION关键字的描述,不正确的是
A.UNION合并数据集的字段个数必须相同
B.UNION合并数据集的字段数据类型必须相同
C.UNION合并数据集的字段顺序必须相同
D.UNION合并后的数据集的行数是合并前的总行数
解析:UNION合并后的数据集的行数是合并前的总行数
15.SQL连接查询时,建⽴连接的关键字段可以有⼏个
A.一个
B.两个
C.多个
D.一个或多个
解析:
连接查询时的连接条件可以是⼀个或多个。
16.别名是SQL中常用的内容,通过别名可以区别不同的表、可以让查询结果可读性增强。在SQL语句中,别名不能出现在哪个⼦句中呢?
A.SELECT
B.WHERE
C.FROM
D.JOIN
解析:在SQL中可以设置表别名和列别名,SQL语句的执⾏顺序是FROM-->-->ON-->JOIN-->WHERE-->GROUP BY--
>HAVING-->SELECT-->ORDER BY,别名是在WHERE⼦句后计算的,所以WHERE⼦句中不能⽤列别名,
FROM和JOIN⼦句中可以⽤表别名。17.SQL语言中每个函数出现的位置都是有要求的,稍有错误就会导致语法错误或者结果数据的计算错误。SQL中的COUNT、SUM、AVG、MAX、MIN等函数,不可以出现在()子句中
A.SELECT
B.WHERE
C.HAVING
D.oRDER BY
解析:由于SQL语句的执行顺序:FROM -> ON -> JOIN -> WHERE -> GROUP BY -> HAVING -> SELECT -> DISTINCT -> UNION -> ORDER BY -> LIMIT,WHERE子句中不能用聚合函数。
18.某数据表中包含name字段,现要查找name字段中包含"a"的姓名,下面哪个选项获取的结果最准确().
A.name LIKE ’%a%’
B.name LIKE ’a%’
C.name LIKE ’%a’
D.name LIKE ’_a%’
解析:
’%’可以匹配0个或多个字符,’_’可以匹配一个字符。因此 D选项不如A选项匹配的范围广,比如“huater” 这样的名字 通过'%a%'可以匹配到,但是用'_a%'是匹配不到的。19。在SQL语句中我们判断数据是否在某个范围内可以使用BETWEEN关键字,现有语句 X BETWEEN 10 AND 20 ,下列与其等价的表达式是()
A.X>10 AND X<20
B.X>10 AND X<=20
C.X>=10 AND X<20
D.X>=10 AND X<=20
解析:⽐较运算符BETWEEN ... AND ...表示在某个范围值之间,包括范围值在内。
20.在SQL语言中对查询结果排序可以使用ORDER BY语句,在ORDER BY子句中如果指定了多个字段,则()
A.只按第一个字段排序
B.只按最后一个字段排序
C.按从左至右优先依次排序,前一个字段取值相同时,再按照后一个字段排序
D.无法进行排序
解析:
order by可以按照从左至右顺序多层级排序,所以答案是C
21.数据库中的数据不要随意修改,如必须修改更新表中数据的命令是()
A.CLEAR
B.UPDATE
C.DELETE
D.ADD
解析:
update是更新数据命令,clear用于清除sql语句和结果窗格,delete用于删除记录,add为添加字段命令,所以选B
22.在SQL命令中关于删除命令DELTE的用法中,DELETE FROM后跟
A.表名
B.字段名
C.记录行号
D.数据库名称
解析:
delete from+表名,所以选A
23.SQL 语言可细分为数据定义语言、数据操作语言、数据控制语言、数据查询语言,下面哪项不属于数据操作语言()
A.INSERT
B.UPDATE
C.ALTER
D.DELETE
解析:
alter是修改对象属性的命令属于DDL语言,所以C是错误描述
24.向数据库的表中添加数据时必须小心谨慎,使用关系型数据库向数据表中添加数据时应注意()
A.字段的个数和添加的数据取值个数可以不一致
B.字段的顺序和添加的数据取值的顺序可以不一致
C.字段的数据类型和添加的数据取值的数据类型可以不一致
D.以上都不对
解析:
字段和添加数据的字段个数,数据类型,字段顺序都要一致才能正确添加,所以选D
25.完整性约束是为了防止不符合规范的数据进入数据库,在用户对数据进行插入、修改、删除等操作时,DBMS自动按照一定的约束条件对数据进行监测,使不符合规范的数据不能进入数据库,以确保数据库中存储的数据正确、有效、相容。请问关系型数据库的完整性约束条件有( )。
A..主键约束
B.非空约束
C唯一约束
D.以上都是
解析:
完整性约束条件可以对字段进行限制,规定字段内容。
26.分析师小A想要在数据表中查询名称里包含“新款”的产品。那么在进行查询时,可以选择以下哪种方式用来进行模糊匹配
A.like
B.<>
C.distinct
D.between
解析:
可以通过使用like‘%字符串%’的形式来进行模糊匹配,寻找包含字符串取值的所有记录。
27.删除数据表中的数据有多种方法,在以下SQL语句中删除表中所有数据但保留表结构的命令是
A.DELETE
B.DROP
C.CLEAR
D.REMORE
解析:
Delete是删除记录但不删除数据库对象,所以选A
28.在关系型数据库中,最小的存储单位是
A.数据库
B.表
C.字段
D.记录
解析:
数据库存储层级自上而下分别是数据库、数据表、字段,字段是最小存储单位,所以选C
29.想要将不同数据表中的数据进行关联时,我们可以采用表的横向连接。以下不是sql表横向连接方式的是( )
A.right join
B.inner join
C.union
D.all join
解析:
C是纵向连接,不是横向连接命令,所以选C
30.对student1和student2两张表进行inner join连接后,形成的新表中()
A.一定包含student1中的所有行,不一定包含student2中的所有行
B.不一定包含student1中的所有行,一定包含student2中的所有行
C.一定包含student1中的所有行,一定包含student2中的所有行
D.不一定包含student1中的所有行,不一定包含student2中的所有行
解析:
Inner Join只匹配两表中匹配项,所以D是正确选项,A是左连接,B是右连接,C是全连接的描述
31.透视分析就是维度对度量的汇总观测,关于汇总描述错误的是
A.度量用来描述业务结果程度
B.维度用来描述业务不同侧面
C.汇总结果由维度、度量、汇总规则决定
D.出度量的表称为维度表
解析:
汇总分析中事实表出度量值,所以D是错误描述
32.数据透视分析是业务描述性分析中的重要方法之一,关于透视分析中维度概念描述错误的是
A.业务观测角度
B.多为文本型字段
C.维度筛选度量
D.度量筛选维度
解析:
维度筛选度量而度量被维度筛选,所以描述错误的是D
33.多维数据模型是数据仓库中数据组织的一种模型,多维数据模型工具功能定位是
A.OLAP
B.OLTP
C.DW
D.ETL
解析:OLAP是联机分析处理,是搭建多维数据模型的处理过程,所以答案是A
34.关系型数据库在系统搭建以及数据分析过程中都发挥着重要作用,对于关系型数据库功能的核心定位应属于
A.OLTP
B.OLAP
C.DW
D.Cube
解析:
数据库主要功能是事务处理用的,所以定位是OLTP,联机事务处理,所以答案是A
35.横向合并两表时不太可能遇到的连接关系是
A.一对一
B.一对多
C.多对多
D.多对一
解析:
一对一指的是两表具有相同主键,在数据库中基本不会出现这种情况,所以答案是A
36.在整合多表数据源进行横向合并操作时两表通过__进行连接
A.公共字段
B.主键
C.维度字段
D.度量字段
解析:
主键、维度字段以及度量字段与两表横向合并操作无关,两表通过公共字段进行连接,正确答案是A
37.表结构数据分析过程中,ETL发挥着重要作用,以下关于ETL功能描述错误的是
A.抽取
B.转换
C.加载
D.分析
解析:
ETL包含抽取、转换以及加载功能,不包含分析功能,所以答案是D
38.横向合并多表信息、完善数据源内容是利用表结构数据的重要方法之一,在横向合并两个数据表时的对应关系决定合并结果的什么
A.主附关系
B.合并结果行数
C.合并结果数据范围
D.合并结果数据类型
解析:
表的合并行数是对应项乘积的结果,所以B是正确选项
39.关于使用表结构数据时的注意点以下描述错误的是
A.null值影响计算精度
B.一个表中字段名不能重名
C.不同字段记录行数可以不同
D.不同表中记录可以合并在一起
解析:
表中所有字段记录行数相同,C是错误描述
40.表结构数据分析工具不自己产生数据而是通过获取其他数据源数据进行分析,表结构数据分析工具获取其他数据源的方式是
A.应用
B.引用
C.复制
D.汇总
解析:
表结构数据分析工具通过ETL功能引用数据源数据,所以答案是B
41.关于表结构数据使用及分析特征,描述错误的是
A.可以引用多数据源数据
B.可以进行单元格计算
C.可以搭建多维数据环境
D.可以合并不同表中不同字段信息
解析:
单元格计算是表格结构数据特征,所以描述错误的选项是B
42.熟悉表结构数据特征是使用表结构数据的前提,以下不属于表结构数据特征的描述是
A.表是由不同字段构成的
B.表结构的第一行称为字段名
C.表的第一行称为标题行
D.不同字段的行数可以不同
43.理解主键的业务意义是使用表结构数据进行分析的前提,主键的业务意义指的是
A.表的业务记录单位
B.表的行识别符
C.表中非主键字段的计算对象
D.表的业务逻辑
解析:
B是主键的物理意义,C与D是错误描述,所以A是主键业务意义,是正确答案
44.主键是表结构数据中重要概念之一,针对主键描述错误的是
A.一个表只能有一个主键
B.主键中不能有null值
C.主键只能是一个字段
D.主键中不能有重复值
解析:
由多个字段构成的主键称为多字段联合主键,所以C是错误描述
45.理解表结构数据特征是使用表结构数据的前提,以下关于表结构数据特征描述正确的是
A.一个表只能有一种数据类型
B.字段中不能有null值
C.一行记录只能有一种数据类型
D.主键可以由多个字段构成
解析:
一个字段只能有一种数据类型,字段中可以出现null值,一行记录可以有不同数据类型,前三项都是错误的,所以描述正确的是D
46.表结构是常用的数据组织结构,下面不属于表结构数据的引用参照对象的是
A.字段
B.记录
C.单元格值
D.数据表
解析:
表结构数据中不能引用单元格值,C是错误的
47.表格结构数据先引用再计算,以下针对表格结构数据引用计算方式描述错误的是
A.可以引用其他工作表中的单元格值进行计算
B.单元格是基本引用、计算单位
C.可以进行单元格区域与单元格区域间的计算
D.不能引用其他工作簿中的单元格进行计算
解析:
可以引用其他工作不中的单元格,D描述是错误的
48.电子表格工具中存在大量处理计算表格结构数据使用的函数,以下属于电子表格工具中文本函数的是
A.date
B.vlookup
C.left
D.count
解析:
left是从左侧取连续字符串的函数,是文本函数,所以答案是C
49.在电子表格工具中引用Sheet2工作表中单元格方法正确的是
A.Sheet2!B2
B.Sheet2?B2
C.Sheet2&B2
D."Sheet2:B2"
解析:
工作表名+!+单元格地址是正确单元格引用方法,所以A是正确的
50.在电子表格工具中可以使用公式引用数据,下面哪个引用公式写法是错误的
A.A:A
B.B1:C17
C.1:19
D.A4:19
解析:
从单元格地址到单元格地址,不能从单元格地址到行号,所以D是错误的
51.表格结构数据是应用与电子表格工具上的数据,以下不属于表格结构数据函数类型的是
A.查找类函数
B.数学类函数
C.文本类函数
D.筛选器类函数
解析:
D选项的筛选器类函数是Power BI工具中DAX表达式使用的函数类型,是针对表结构数据进行计算的类别,所以是错误的
52.表格结构数据是应用与电子表格工具上的数据,作为表格结构数据数据源描述错误的是
A.主要来自数据库
B.全部来自数据库
C.部分来自数据文件
D.部分来自数据仓库
解析:
数据库只是数据的主要来源之一而不是全部来源,所以B是错误的
53.表格结构数据是业务工作中最为常见的数据类型,表格结构数据的基本引用单位是
A.字段
B.表
C.单元格
D.列表
解析:
表格结构数据引用的基本单位是单元格,答案是C
54,电子表格工具是表格结构数据的载体,以下属于表格结构数据处理工具的是
A.Numbers
B.Power BI
C.MySQL
D.Tableau
解析:Numbers是苹果公司的电子表格工具,其余三项都是表结构分析工具,答案是A
55.数据分析师应严格遵守职业操守,以下关于数据分析师应遵守的职业道德操守描述错误的是
A.坚持诚信、公平、尊重、敬业的原则
B.遵法守纪、严于律己
C.保护数据资产的安全性
D.不使用不完善的算法模型
解析:
D选项,算法模型应在应用过程中不断改善,不存在100%完善模型
56.数据安全是从事数据分析工作人员必须要严格保障的事项,以下对于保护数据信息安全不利的错误做法是
A.将机密数据U盘随身携带
B.对机密数据载体进行加密保存
C.不在咖啡厅等公共场所使用机密数据电脑办公
D.不使用能够连入外网的电脑处理企业机密数据
解析:
机密数据U盘随身携带可能出现遗失风险,对机密数据应更加谨慎处理,确保万无一失,所以选A
57.数据分析师是一个科学严谨的岗位,对于从业人员专业性的要求非常高,以下行为中不能体现数据分析师专业性的是
A.在分析成果完整交付后不断改进算法
B.充分了解业务需求后展开分析任务
C.不断迭代数据模型优化分析结果
D.只提供对业务结论有利的数据信息
解析:
数据分析师应提供全面、准确的数据信息而不是只提供对业务结论有理的数据信息
58.数据分析由许多关键的阶段性步骤构成,以下不属于数据分析步骤的是
A.业务理解
B.数据获取
C.数据处理
D.制定决策方案
解析:
指定决策方案是数据分析结果的应用环节,不属于数据分析步骤,所以选D
59.数据分析方法论为分析项目提供了基础框架,以下不属于数据分析方法论的选项是
A.CRISP-DM
B.SEMMA
C.AB测试
D.UML
解析:
前三个选项是常用的分析方法论,D选项UML是统一建模语言的缩写,不属于数据分析范畴
60.EDIT数字化模型是企业在实现数字化工作的落地模板,以下关于数据分析EDIT模型描述错误的是
A.E指的是Exploration、探索
B.D指的是Data、数据
C.I指的是Instruction、指导
D.T指的是Tool,工具
解析:
EDIT中的D指的是诊断(Diagnosis)的意思,所以错误选项是B
61.分析人员为决策者提供业务分析报告作为决策依据使用,不同场景下分析报告的软件载体也要有所区别,在会议上使用的业务分析报告载体是
A.Word
B.Excel
C.Power BI
D.PPT
解析:
D,会议上应使用PPT作为分析载体
62.在数据分析人员撰写分析报告时避不开进行适度主观推测判断,但是推测判断也要有充分依据,以下适合用于业务推测依据的信息来源是
A.朋友提供
B.网站留言
C.新闻联播
D.社会舆论
解析:
C,作为推测判断信息来源的渠道应权威,信息应准确无误
63,数据分析人员使用业务分析报告汇报分析成果,业务分析报告中的文字描述不应
A.对已有数据信息的重复描述
B.进行有合理依据的适当推测
C.根据数据表现,给出建议
D.对数据结论进行归纳总结性描述
解析:
A,文字不应重复描述图表课直接的传递内容
64.数据分析人员使用业务分析报告汇报分析成果,下列属于业务分析报告作用的是
A.评估一段时期内业务的好坏情况
B.发现合作机会
C.检验业务的真实性
D.以上都是
解析:
D是正确描述
65.某家电企业想要对第三季度的电视机、电饭锅、电风扇的销售额进行比较,可以使用下列哪个图表?()
A.柱形图
B.折线图
C.达成率图
D.树状图
解析:
A,不同对象间的比较应使用柱形图
66.数据分析人员使用业务分析报告汇报分析成果,不同种类的分析报告着重点不同,以下不属于渠道合作报告的重点的是()
A.总结合作硕果
B.多从内部找原因
C.适当提出加深合作的需求
D.展现前景,树立信心
解析:
B,渠道合作报告应聚焦于合作情况,所以B是错误的
67.数据分析人员使用业务分析报告汇报分析成果,以下不属于业务分析报告调整完善阶段的是
A.确定主题
B.发现问题
C.KPI指标分类分析
D.规划结构、提纲、主要内容
解析:
A,主题应在设计阶段确定
68.数据分析人员使用业务分析报告汇报分析成果,对于业务分析报告的注意事项,以下不正确的是
A.条理清晰
B.论点明确
C.图、表、文字可以不相关
D.有论必有数,有数必好懂
确
解析:
C,分析报告中应做到图表文字相结合
69.以下选项中能够划归于图形决策树中属序列类图表的是
A.漏斗图
B.桑吉图
C.箱型图
D.饼图
解析:
A,漏斗图描述状态阶段的顺序递进关系,属于序列类图表
70.描述某电视厂商不同产品销售额与总销售额间的占比关系时使用了饼图,其中饼图的数据标签使用恰当的是
A.销售额百分比
B.销售额值
C.销量值
D.记录行数值
解析:
A,饼图强调占比,应使用百分比形式展现
71.某电脑厂商有A、B、C三类品牌产品,描述A\B\C三类品牌产品的不同性能差异应使用
A.散点图
B.气泡图
C.雷达图
D.条形图
解析:
C,雷达图突出对象间差异程度
72.用可视化图表展示波士顿矩阵中各类产品特征时应使用以下哪种基础图表
A.桑吉图
B.箱形图
C.散点图
D.柱形图
解析:
C,用散点图生成波士顿矩阵效果
73.在业务描述性分析中使用的可视化图表中可以快速确认数据的分布以及数据分中位数、四分位数的图表的是
A.气泡图
B.散点图
C.箱型图
D.折线图
解析:
C,箱型图是正确图表
74.某服装企业有A、B、C三类品牌产品,想要显示每一类产品的销售额分别占销售总额的比例关系,下列哪种图表比较合适
A.柱形图
B.箱型图
C.散点图
D.饼图
解析:
D,此题体现部分与整体的占比关系,使用饼图最合适
75.业务描述性分析中可视化图表可分为业务类图表及统计类图表两大类,关于统计类图表坐标轴特征描述正确的是
A.可以使用客户类别作为坐标轴
B.可以使用价格档位作为坐标轴
C.可以使用年份作为坐标轴
D.可以使用产品ID作为坐标轴
解析:
B是正确描述,统计类图表不能使用业务维度坐标轴
76.业务图形决策树将业务描述性分析中使用的图表分为了四个不同类别,包含在业务图形决策树中的图表类别是
A.仪表类
B.描述类
C.预测类
D.统计类
解析:
B是正确描述、四类图表分别是构成类、对比类、序列类及描述类
77.在业务描述性分析中针对不同分析对象可以使用不同业务模型进行分析,以下选项中不适合做客户行为分析的模型是
A.5W2H
B.漏斗模型
C.RFM
D.波士顿矩阵
解析:
D,波士顿矩阵适用于对商品的描述而不是客户
78.指标用来描述业务行为结果的好坏程度,但是对于指标值的观测应在一定条件下进行,以下选项中不属于观测指标值好坏程度的前提条件的是
A.相同时间内
B.相同条件下
C.相同维度下
D.相同观测者
解析:
D,指标值可以由不同观测者观测
79.树状体系图用来描述指标间的逻辑构成关系,以下选项中不属于树状体系图中拆解上层指标依据的是
A.父子级构成关系
B.逻辑计算关系
C.数据连接关系
D.业务联系关系
解析:
C,数据连接关系是数据表合并时使用的逻辑,与树状体系图无关
80.电商收入由黄金公式的三个指标构成,某电商企业急需解决现金流不足问题,不考虑融资的情况下,应针对黄金公式中哪个指标进行突破
A.流量
B.转化率C.访问次数
D.访问量
解析:
B,流量需要投入大量成本,企业资金出现问题时,应优先解决黄金公式中另两项指标
多选题 共20题,共20.0分
81.设计BI报表界面时应注意
A.不放重复内容的图表
B.根据业务逻辑有条理地进行布局
C.汇总维度不宜过多
D.获取信息的方式应简单直观
解析:
所有选项都正确
82.撰写业务分析报告时应注意
A.条理清晰
B.结构完整
C.图表与文字相结合
D.论点明确、论据充分
解析:
所有选项都正确
83.数据分布有右偏左偏之分,关于右偏分布,下列说法正确的是( )。
A.偏度系数小于0
B.均值小于中位数,中位数小于众数
C.偏度系数大于0
D.均值大于中位数,中位数大于众数
解析:
解析:如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则众数<中位数<平均数。
当分布对称时,离差三次方后正负离差可以相互抵消,因而偏度系数的分子等于0,则偏度系数等于0;当分布不对称时,正负离差不能抵消,就形成了正或负的偏度系数。当偏度系数为正值时,表示正离差值较大,可以判断为正偏或右偏;反之,当偏度系数为负值时,表示负离差值较大,可判断为负偏或左偏。84.数据的概括性度量分集中趋势、离散程度、偏态、峰度的度量,下列属于描述性统计中集中趋势度量的有( )。
A.均值
B.众数
C.四分位差
D.极差
解析:
解析:CD 都是描述数据的离散程度
85.数据的概括性度量分集中趋势、离散程度、偏态、峰度的度量,下列属于描述性统计中,用来度量离散程度的有()。
A.标准差
B.协方差
C.四分位差
D.异众比率
解析:
解析:协方差是度量相关性的
86.若想分析分类变量之间的相关性,可以采用以下哪种方法( )
A.卡方检验
B.t 检验
C.计算皮尔逊相关系数
D.计算列联相关系数(coefficient of contingency)
解析:
解析:BC 只能用来分析数值型变量,分类变量用不了这两种方法。
87.在SQL语言中有许多关键字代表不同数据类型以处理各类数据,以下不代表文本类型的关键字是
A.FLOAT
B.INT
C.CHAR
D.DECIMAL
解析:
FLOAT:浮点型
INT:整数
CHAR:文本型
DECIMAL:分数类型88.SQL中有许多连接查询关键字,可以完成不同业务需求下的合并查询,下面哪些查询关键字能保留被连接两表的全部信息()
A.inner join
B.left join
C.full join
D.union all
解析:
full join 为横向连接,保留两张表的全部信息。union all 为纵向连接,且 不去除重复记录。
89.某数据库中t1表有city字段,在以下语句中,哪些能查询 t1 表中北京和上海的相关记录()?
A.select * from t1 where city_name = "北京" or city_name = "上海";
B.select * from t1 where city_name = "北京" and city_name = " 上海";
C.select * from t1 where city_name in ("北京","上海");
D.select * from t1 where city_name in "北京" or "上海";
解析:
D 为语法错误,B 中 and 表示 城市名即等于“北京”且又等于“上海”的记录,不符合题意,故正确答案为 AC。
90.在 CREATE TABLE 语句中实现完整性约束的有
A.NOT NULL
B.PRIMARY KEY
C.DEFAULT
D.UNIQUE
解析:
为了保证数据的完整性,可以通过四种方式来实现,约束、规则、默认值、触发器。
题干说的是“在 CREATE TABLE 语句中实现完整性约束的有”,所以只能从约束性条件选择
完整性约束包括:主键约束(PRIMARY KEY)、外键约束(FOREIGN KEY)、 唯一约束(UNIQUE)、非空约束(NOT NULL)、检查约束(CHECK)。
所以不选C
91.INT 型数据是数据库中经常需要用到的一类数据。以下可以对 INT 型数据使用的SQL函数有
A.round
B.max
C.abs
D.concat
解析:
concat函数用来处理字符串数据
92.关系型数据库中表与表之间可以横向连接也可以纵向连接,以下连接中属于表的横向连接的有
A.inner join
B.left join
C.right join
D.union
解析:
union 属于表的纵向连接。
93.数据源中影响分析准确性的空值记录又叫做null值,关于null值描述正确的是
A.计算机无法确保计算结果
B.阅读者无法理解
C.空值可能由前端系统非必填项产生
D.空值行不能删除
解析:
null值可能由前端系统非必填项,如注册信息中的性别信息等产生,null值无法阅读者理解同时也无法被计算机正确识别使用。所以A、B、C是正确选项
94.某电商订单表中的主键为订单号,根据业务常识判断不能存放于订单表中的字段是()
A.客户ID
B.产品名称
C.付费时间
D.产品金额
解析:
一个订单中可能存在多个产品,所以存放产品名称字段会破坏主键约束。同样的产品金额也不可以,订单金额是没问题的。所以选BD
95.连接汇总是计算业务指标常用的计算方式,连接汇总分析过程中应尽量遵守()
A.一表出维度B.一表出度量
C.一对多的连接关系
D.多对多的连接关系
解析:
为了保证连接后汇总结算的完整准确,需尽量使用一对多的连接关系,汇总时使用一表字段作为维度字段,所以正确答案是A、C
96.收集多源数据是进行数据分析工作中的重要步骤之一,以下可以成为表结构数据数据源的选项有哪些
A.CSV格式的数据文件
B.数据库
C.Excel文件
D.网页数据
解析:
应用ETL功能可以导入所有选项中提及数据源中的数据到DW中作为表结构数据使用
97.针对表格结构数据进行计算时使用的函数由哪些部分构成
A.操作符
B.函数表达式
C.参数
D.返回值
解析:
操作符、函数表达式、参数、返回值都是表格结构数据中使用函数的构成部分
98.表结构是数据分析中常用的数据结构,以下属于表结构分析工具的是
A.DB2
B.Power BI
C.Excel
D.PPT
解析:
D选项PPT属于办公软件
99.EDIT是指数字化工作模型,以知识型业务人员的常规工作为场景,展现业务流程化、数据场景化、算法工具化、决策智能化。以下关于EDIT模型描述正确的是
A.E指的是Exploration、探索
B.D指的是Data、数据
C.E指的是Experience,经验
D.D指的是Diagnosis,诊断
解析:
EDIT模型:探索(Exploration)、诊断(Diagnosis)、指导(Instruction)、工具(Tool)
100.CRISP-DM模型是应用最广泛的KDD过程模型,下面属于CRISP-DM模型的阶段有()
A.业务理解
B.数据理解
C.数据准备、建模、模型评估
D.模型发布
解析:
CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述。该模型将一个KDD工程分为6个不同的阶段:商业理解、数据理解、数据准备、建模、模型评估、模型部署(发布)
材料题 共40题,共50.0分
以下是某电商平台用于记录交易行为与交易详情信息的订单表与订单详情表,请根据表中信息回答以下问题:
101.以上订单表与订单详情表间用于连接的公共字段应是____
A.两表的单号
B.两表的客户ID
C.单金额与产品金额
D.没有公共字段
解析:
根据两表的业务意义、字段匹配特征以及字段对应关系综合考虑,应选择订单ID作为连接两表的公共字段使用
102.两表连接后使用左连接进行查询后的总行数是____
A.5
B.6
C.4
D.8
解析:
使用订单ID连接两表后,左表订单表为主表时,a01项一行,a02项一行,a03项两行,共4行连接结果
以下是某快消品经销商后台关于进销存业务的多表连接E-R图,请根据图中多表连接关系回答以下问题:
103.上图多表连接关系中,可以作为事实表使用的表的个数是____个
A.3
B.4
C.5
D.6
解析:
进、销、存三个业务模式对应销售表、采购进货单明细与库存表三个事实表,所以正确答案是A
104.销售表、库存表、采购进货单明细表、产品表构成的连接模式是
A.星型模式
B.星座模式
C.雪花模式
D.交叉模式
解析:
多个事实表共用某些维度表的连接模式成为星座模式,所以正确答案是B
建立如下数据库表:
CREATE TABLE department( departid int not null primary key, deptname varchar(20) not null ); CREATE TABLE employee( employeeid int not null, deptid int not null, ename varchar(20) not null, job varchar(10),sal decimal(10,2) );
105.要想保证employee表中每一个雇员是唯一的,且只能属于在department表中已经存在的部门,最有效的做法是
A.把employeeid和deptid设为联合主键
B.把employeeid设为主键,同时在deptid列上创建一个外键约束
C.把employeeid设为主键,同时在deptid列上创建一个唯一约束
D.在deptid列上创建一个唯一约束,同时在deptid列上创建一个外键约束
解析:
要想保证employee表中每一个雇员是唯一的,把employeeid设为主键或唯一约束。每个雇员只能属于在department表中已经存在的部门,在deptid列上创建一个外键约束。
106.以下SQL语句中,错误的是
A.
SELECT AVG(sal) FROM employee;
B.
SELECT deptid,AVG(sal) FROM employee GROUP BY deptid;
C.
SELECT deptid,job,AVG(sal) FROM employee GROUP BY deptid,job;
D.
SELECT deptid,AVG(sal) FROM employee GROUP BY deptid HAVING job=’clerk’;
解析:
HAVING 子句中的筛选字段必须是可以出现在分组结果中的字段。
下表为某电商用来记录购买信息时使用的订单表,请参照下表内容回答问题:
107.应用上表所示信息,选择计算所有客户购买金额的总平均金额时应使用的正确汇总函数是
A.average(客户名称)
B.average(产品金额)
C.sum(产品金额)/count(客户名称)
D.sum(产品金额)/distinctcount(客户名称)
解析:
订单表中一个客户对应多笔订单,所以不能直接用average对单号为主键的订单表求总平均值,应使用总合计/总客户个数的方法计算客户总平均值,统计客户数量时应使用去重计算方式求不重复顾客数,所以正确答案是D
108.根据上表数据计算所有订单的总平均金额是
A.400
B.500
C.600
D.800
解析:
订单的总平均=订单总金额/非重复订单数,所以结果是600
假设某店1.1号的消费记录如下表
109.请问这天消费的会员数是多少?
A.2
B.3
C.4
D.5
解析:
能够统计会员编号的记录是三行,所以有三名会员消费
110.请问这天一共有多少人ci消费?
A.2
B.3
C.4
D.5
解析:
这天共有五条消费记录,三名不重复会员有会员编号,还有两个非会员消费记录,所以最少消费人数在四人以上,复合条件的只有D选项
HR找来CDA培训企业员工的数据分析能力,报名的同事有200人,HR特意租了公司附近的酒店作为培训室,可实际只有10人参与培训,20人请假
111.假设出勤率=实际出勤人数/报名总人数,请问培训的出勤率是多少?
A.0.01
B.0.02
C.0.04
D.0.05
解析:
按照计算公式 计算结果为D
112.有什么办法可以提升出勤率?
A.出勤率与绩效挂钩
B.培训前签到
C.培训开始前10分钟再次通知
D.培训场地转移到公司内
解析:
从题目中知道出勤率过低,说明重视程度不够,最有效的方法是改变绩效方式,所以选A
下表是2018年8月汽车市场销量树状结构图,百分比为销量的同比增长率,根据图表回答问题:
113.从上边树状结构图中各指标的同比增长率情况可以观测到影响总销量增长的主要车类是
A.轿车
B.MPV
C.SUV
D.以上都不对
解析:
轿车是第二层三种不同车类中销量最多的车类,轿车的增长变化对总销量产生的影响高于SUV及MPV,所以选A
114.从树状结构图中结合各车系的销量及同比增长率综合考虑,判断对汽车市场销量变化影响最大的车系是
A.德系
B.日系
C.美系
D.自主
解析:
在第三层各类车系的销量变化数据中可以了解到,德系车销量占比最多,结合增长率综合观测,德系车对市场销量变化的影响最大
下图是根据RFM模型对某公司客户进行的分层,以及不同客户的帕累托图,根据下图回答以下问题:
115.结合上图内容思考该公司一般保持用户的特点是
A.即将流失
B.贡献价值高
C.已经流失
D.以上都不对
解析:
R与M值都低,说明用户贡献价值低,对店粘性差,即将流失的风险高,所以选A
116.在有限资金下为提高收入,应重点对哪类人群进行营销
A.一般挽留用户
B.一般发展用户
C.重要价值用户
D.一般价值用户
解析:
结合帕累托图及用户类别特征可判断出一般发展用户贡献度高,到店积极,刺激提高贡献价值后的预期收益高,所以选B
下表是某班各学员的成绩信息,参照下表回答问题
117.用图表描述学员成绩水平,合适的图表应为
A.折线与柱形图的组合图
B.折线图
C.饼图
D.树状图
解析:
折线可作为基准线评估柱形代表的实际成绩的好坏程度,所以选A
118.依据上表数据描述学员成绩好坏水平的对比方法称为
A.基准比
B.标准比
C.均比
D.目标比
解析:
及格线与优秀线是基准值,实际值与基准值对比是A的基准比
下表销售阶段自上而下按顺序排列,根据下表回答问题
119.用上表中数据做漏斗图会出现的问题是
A.流速慢
B.体量小
C.体型差
D.以上都不是
解析:
从上表中判断意向的金额及金额占比高于接触阶段,高阶段比低阶段数值大会造成漏斗图体型变形的情况,所以选C
120.如果销售周期是3个月,当前数据位于第11周,销售目标为4000,那么以下描述正确的是
A.已经完成销售目标
B.完成销售目标的可能性高
C.完成销售目标的可能性低
D.几乎不可能完成销售目标
解析:
当前真正成交的商机只有742,远低于4000的目标,大多数商机在第11周都处在低阶段,时间上很难在剩下的两周内完成,所以选D
表t1中有id,name,salary三列,如果t1是一个论坛的发帖信息表,id是发帖人的编号,name是帖子的标题,salary是每次发帖论坛奖励的分数。
121.表示更新t1表中字段内容的语句是
A.
create table t1(id int,name char(30),salary int);
B.
drop table t1;
C.
create view v_t1 as select id,name from t1;
D.
update t1 set name=’lixiaoming’ where id=100;
解析:
UPDATE…SET…语句用于修改表中字段内容。
122.查看t1表中id等于10的行
A.select id from t1 id=10;
B.select id from t1 where id=10;
C.select id from t1 id 10;
D.select id from t1 where id 10;
解析:
查看特定的行时,需要使用WHERE+条件子句的形式对数据输出结构进行约束。
123.显示每个会员发了几个帖子的语句是
A.select id ,count(name)from t1 group by id;
B.select id ,count(name)from t1 group by id having count(name)>5;
C.select id ,count(name)from t1 group by id having count(name)>5 order by count(name);
D.select id ,count(name)from t1 where id > 100 group by id;
解析:
id是发帖人的编号,是唯一的,我们想知道每个会员的发帖数,group by id----按照id分组,就是必然选择。 count(name)是对按照id分组之后的结果计算name的个数。
124.显示发帖数超过5个的语句是
A.select id ,count(name)from t1 group by id;
B.select id ,count(name)from t1 group by id having count(name)>5;
C.select id ,count(name)from t1 group by id having count(name)>5 order by count(name);
D.select id ,count(name)from t1 where id > 100 group by id;
解析:
每个分组计算发帖个数(count(name))之后,我们希望输出结果大于5(count(name)>5)。 这里还是比较好理解的,难度在于对having的理解。我们平时用到条件子句时,它前面的关键词都是where,而这里用的是having。在使用GROUP BY对数据进行分组时需要使用HAVING作为限制条件的关键词。
下面5组数据的观察值(x,y)的组合分别为: (6,6)、(11,9)、(15,12)、(21,17)、(27,16)。
125.尝试绘制散点图观察x与y之间存在何种可能的关系?
A.线性相关关系
B.不相关
C.非线性相关关系
D.无法确定
解析:
观察图像即可发现
126.计算x与y之间的相关系数
A.0.69
B.0.94
C.0.71
D.0.82
解析:
相关系数的计算公式为(x与y的协方差)除以(x和y标准差的乘积),直接计算可得
127.变量x值按一定数量增加时,变量y也按一定数量随之增加,反之亦然,那么x与y之间存在何种关系?
A.负相关关系
B.正相关关系
C.曲线相关关系
D.不确定
解析:
这是典型的正相关关系,反映到计算上就是一个线性函数,反映到图像上就是一条直线
128.在该样本数据中,对相关系数计算结果描述正确的是?
A.说明x与y之间存在低度正相关的线性关系
B.说明x与y之间存在中度正相关的线性关系
C.说明x与y之间存在高度正相关的线性关系
D.说明x与y之间存在高度负相关的线性关系
解析:
相关系数大于0说明正相关,相关系数非常接近于1说明正相关性很强
下图是某公司交易相关的各表连接关系,观察下图回答以下问题:
129.订单表与订单提成表都是用来记录交易行为的数据表,从上图中判断订单表与订单提成表间的连接关系是
A.雪花模式
B.星型模式
D.星座模
C.交叉连接
解析:
从订单表到订单提成表有多条筛选路径,所以是交叉连接,所以选C
130.订单表与订单提成表是以交易行为为单位展开记录的数据表,产品表与区域表是围绕产品及区域维度展开记录信息的数据表,在数据库中可以将两表合并为一个表的是
A.产品表与订单表
B.区域表与订单提成表
C.订单提成表与订单表
D.产品表与区域表
解析:
订单表与订单提成表有相同主键订单ID,可以合并为一个表
131.用订单提成表中的销售人员字段筛选订单表中的订单金额字段,按照求和的汇总规则计算出赵大的订单金额合计值应为
A.9000
B.6000
C.3000
D.14000
解析:
订单提成与订单间通过产品表进行跨表筛选,使用类型二的筛选计算规则,赵大有销售过abcd四款产品,所以四款产品的订单金额合计是9000,所以正确选项是A
132.用订单提成表中的销售人员字段筛选订单表中的订单金额字段,按照求和的汇总规则如果想计算出赵大的订单金额合计值为7000的结果,关于有效连接路径的正确描述应是____
A.订单提成与订单表间的连接成为有效连接
B.订单提成与区域表间的连接成为有效连接
C.产品表与订单提成表间的连接成为有效连接
D.订单提成筛选订单时无论有效连接为哪种都无法得到赵大订单金额合计值为7000的结果
解析:
通过订单ID可以直接连接订单提成与订单表,进行筛选按照类型一的方式计算结果,赵大的金额为7000,所以选A
下表是某电商某日各阶段人数统计数据,观察下表回答以下问题:
133.当日UV是多少?
A.1000
B.700
C.500
D.无法计算
解析:
UV是当日到店人数统计,进入首页即为到店,所以选A
134.当日PV是多少?
A.2300
B.1000
C.1300
D.无法计算
解析:
PV是浏览量,以上数据无法统计计算,所以选D
135.当日Vistis是多少?
A.1000
B.700
C.500
D.无法计算
解析:
Vistis是浏览次数,一进一出即为一次流量,以上数据无法统计计算,所以选D
136.该电商最应优先改进的行为可能是?
A.营销方式
B.引流方法
C.促销活动
D.付费流程
解析:
流失人数最多的阶段是加入购物车到完成支付,与该阶段有直接关系的行为是付费流程,所以选D
下图是某企业各表间的E-R关系图,根据下图回答以下问题:
137.根据各表中字段内容及连接关系判断上图可能描述的企业是
A.银行
B.电商
C.游戏
D.物流
解析:
根据各表中字段内容及连接关系判断上图可能描述的企业是
138.根据上图连接关系判断,上图Orderinfo可以筛选的表是
A.Userinfo
B.Goodsinfo
C.Orderdetail
D.Regioninfo
解析:
Orderinfo与Orderdetail是一对多的关系,所以选C
139.根据上图各表字段内容及连接关系判断,上图反映的业务模块是
A.进销存
B.人货场
C.流量、转化、客单价
D.以上都不是
解析:
上图描述的是服装电商中人货场的业务场景,所以选B
140.Goodsbrand表中记录了产品的品牌信息,根据上图各表内容及连接关系判断,上图中Goodsbrand不能筛选的表是
A.Goodsinfo
B.Orderdetail
C.Orderinfo
D.以上全是
解析:
Orderinfo用来连接客户一侧内容,没有展开到产品层级,所以不能与Goodsbrand产生筛选逻辑,所以选C