1.抽样统计是大数据处理的其中一项流程。
2.分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于()问题。
A.关联规则挖掘
B.聚类分析
C.分类与回归
D.时序预测
3.()表示数据分布的集中位置,如Mean:平均数、Median:中位数、Mode:众数等。
A.集中趋势度量
B.数据分布形状
C.离中趋势度
D.数据属性
4.先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。
5.用于分类与回归应用的主要算法有)。
A.K均值法、SOM神经网络
B.RBF神经网络、K均值法、决策树
C.决策树、BP神经网络、贝叶斯
D.Apriori算法、HotSpot算法
6.聚类分析所使用方法的不同,常常会得到不同的结论。
7.大数据的6V特征中,Variety表示()
A.高速
B.低价值密度
C.大量
D.多样
8.MapReduce确保每个reducer的输入都是按键排序的。
9.()的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
A.数据变换
B.数据集成
C.数据归约
D.数据清洗
10.大数据分析中,在分析效果上追究精确性。
11.大数据分析时,在分析方法上更注重相关分析而不是因果分析。
12.HDFS默认BlockSize的大小是()。
A.32MB
B.64MB
C.128MB
D.256MB
13.()是一种用作显示一组数据分散情况资料的统计图,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
A.箱形图
B.折线图
C.雷达图
D.直方图
14.数据重组实现的关键在于多源数据融合和数据集成。
15.根据数据价值的不同应该对数据采取不同的管理策略。
16.()是一种用作显示一组数据分散情况资料的统计图,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
A.箱形图
B.折线图
C.直方图
D.雷达图
17.()是研究两个或两个以上处于同等地位的随机变量相关性的统计分析方法,包括变量之间是否存在依存关系,存在什么样的依存方向等等。
A.相关分析
B.主成分分析
C.判别分析
D.回归分析
18.下列关于网络用户行为的说法中,错误的是()。
A.网络公司能够捕捉到用户在其网站上的所有行为
B.用户的隐私安全很难得以规范保护
C.数字轨迹用完即自动删除
D.用户离散的交互痕迹能够为企业提升服务质量提供参考
19.()是研究两个或两个以上处于同等地位的随机变量相关性的统计分析方法,包括变量之间是否存在依存关系,存在什么样的依存方向等等。
A.相关分析
B.回归分析
C.主成分分析
D.判别分析
20.孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。
21.大数据分析之前首先要进行抽样分析。
22.基于邻近度的离群点检测方法能处理具有不同密度区域的数据集。
23.以下哪个不属于大数据技术的特征()。
A.重视数据的复杂性
B.随机抽样
C.全面分析数据
D.关注数据的相关性
24.MapReduce任务过程分为两个处理阶段:map阶段和()阶段。。
A.reduce
B.Map/Reduce
C.master
D.map
25.大数据环境下的隐私担忧,主要表现为()。
A.个人信息的被识别与暴露
B.用户画像的生成
C.恶意广告推送
D.病毒入侵
26.以下哪些算法是分类算法()。
A.C4.5
B.DBSCAN
C.K-Means
D.EM
27.图挖掘技术在社会网络分析中扮演了重要的角色。
28.下面关于数据开放的陈述哪个是不正确的()。
A.要提供应用程序开放接口
B.允许公民要求数据开放数据
C.要提供全部的原始数据
D.允许公众免费查询、下载
29.BIRCH是一种聚类算法。
30.()分析又称为变异数分析,主要用于两个及两个以上样本均数差别的显著性检验。
A.因子分析
B.相关分析
C.方差分析
D.回归分析
31.定量属性只能是连续值。
32.噪声数据处理的主要方法不包括()。
A.回归
B.分箱
C.聚类
D.关联分析
33.可视化技术对于分析的数据类型通常是专用性的。
34.以下哪些方法可用于预测分析()。
A.回归分析
B.周期变化分析
C.指数平滑
D.其余选项均是
35.()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
A.边界点
B.离群点
C.质心
D.核心点
36.以下哪项不属于数据挖掘的内容()。
A.高德地图导航躲避拥堵的功能
B.补充与完善路网属性
C.建立道路拥堵概率与拥堵趋势变化模型
D.多维分析统计用户出行规律
37.以下哪个不是无监督学习()。
A.PCA
B.Apriori
C.K-means
D.KNN
38.具有较高的支持度的项集具有较高的置信度。
39.数据仓库主要面向事务处理。
40.美国沃尔玛连锁超市的真实案例:尿布与啤酒这两种风马牛不相及的商品居然摆在一起,但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这个案例是使用了()的典型例子。
A.聚类
B.云计算
C.物联网
D.关联规则
41.Apriori算法是一种典型的关联规则挖掘算法。
42.()是目标类数据的一般特性的汇总,通常以用户指定类的数据通过数据库查询收集,其输出可以用多种形式呈现,例如饼图,条形图,折线图等等。
A.数据采集
B.数据特征
C.数据整合
D.数据属性
43.大数据环境下的隐私担忧,主要表现为()。
A.用户画像的生成
B.病毒入侵
C.恶意广告推送
D.个人信息的被识别与暴露
44.()是数值数据分布的精确图形表示,是一个连续变量(定量变量)的概率分布的估计。它是一种条形图。
A.直方图
B.散点图
C.圆环图
D.折线图
45.()是一种用作显示一组数据分散情况资料的统计图,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
A.箱形图
B.雷达图
C.直方图
D.折线图
46.下列演示方式中,不属于传统统计图方式的是()。
A.饼状图
B.网络图
C.曲线图
D.柱状图
47.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务()。
A.寻找模式和规则
B.建模描述
C.根据内容检索
D.预测建模
48.大数据的()指数据能够被组织并呈现。借助于图形化手段,清晰有效地传达和沟通信息。基于数据,借助可视化手段提高大脑利用率。
A.低价值密度
B.可视化
C.大量性
D.多样性
49.大数据最显著的特征是数据价值密度高。
50.HDFS默认BlockSize的大小是()。
A.128MB
B.64MB
C.256MB
D.32MB
51.以下哪项不属于数据挖掘的内容()。
A.高德地图导航躲避拥堵的功能
B.建立道路拥堵概率与拥堵趋势变化模型
C.补充与完善路网属性
D.多维分析统计用户出行规律
52.()是在已知各种情况发生概率的基础上,通过构成树状结构来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。
A.决策树
B.生成树
C.哈夫曼树
D.文本树
53.下列关于MapReduce说法不正确的是()。。
A.MapReduce来源于google的学术论文
B.MapReduce程序只能用Java语言编写
C.MapReduce隐藏了并行计算的细节,方便使用
D.MapReduce是一种计算框架
54.以下哪些分类方法可以较好地避免样本的不平衡问题()。
A.Bayes
B.神经网络
C.SVM
D.KNN
55.Kmeans算法包括如下步骤:①在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类;②更新中心点为每类的均值;③随机选取k个中心点;④j选择一项:a.③①②④b.①②③④c.④③②①d.①④③②
A.③①②④
B.①②③④
C.④③②①
D.①④③②
56.以下关于大数据关键问题的说法,不正确的是()。
A.大数据处理问题复杂多样,难以用一种单一的计算模式涵盖互联网企业表现强势
B.大数据复杂性,不确定性特征描述的方法及大数据的系统建模是实现大数据知识发现的前提与关键
C.传统的统计理论与技术能很好地实现大数据知识发现
D.非结构化与半结构化数据的处理是一项重要的课题
57.数据仓库的最终目的是建立数据仓库逻辑模型。
58.以下哪个不属于大数据可视化的应用()。
A.响应式表单
B.热点地图
C.医学影像
D.天气云图
59.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务()。
A.根据内容检索
B.建模描述
C.寻找模式和规则
D.预测建模
60.()是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。
A.回归分析
B.指数分析
C.预测分析
D.主成分分析
61.大数据往往是指()及以上级别的数据量。
A.TB
B.MB
C.GB
D.PB
62.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?
A.根据内容检索
B.预测建模
C.建模描述
D.寻找模式和规则
63.高德地图使用大数据能进行小路的识别。
64.以下哪些方法可用于预测分析()。
A.周期变化分析
B.回归分析
C.其余选项均是
D.指数平滑
65.朴素贝叶斯是有监督学习。
66.以下说法不正确的是()。
A.预测是用于数据对象的连续取值。
B.决策树方法通常用于关联规则挖掘。
C.分类是预测数据对象的离散类别。
D.Apriori算法是一种典型的关联规则挖掘算法。
67.在统计计算中,()算法是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。
A.最大期望算法
B.KNN算法
C.K-Means算法
D.Apriori算法
68.目前,我国互联网、移动互联网用户规模居全球第(),拥有丰富的数据资源和应用市场优势。
A.四
B.三
C.二
D.一
69.大数据还是一种思维方式。
70.Hadoop框架中最核心的设计是()。
A.ZooKeeper和HDFS
B.MapReduce和Hive
C.MapReduce和HDFS
D.Hive和HDFS
71.大数据往往是指()及以上级别的数据量。
A.PB
B.GB
C.TB
D.MB
72.预测建模任务主要包括哪几大类问题?
A.分类和回归
B.模式发现和模式匹配
C.分类和模式发现
D.分类和模式匹配
73.数据可视化中实现中数据映射指的是()
A.视图的选择与用户交互控制的设计
B.从数据源中选取有效数据
C.确定数据到标记和视觉通道的映射
D.概括现实生活中用户遇到的问题
74.当前大数据技术的基础是由谷歌首先提出的。
75.以下关于大数据关键问题的说法,不正确的是()。
A.传统的统计理论与技术能很好地实现大数据知识发现
B.大数据复杂性,不确定性特征描述的方法及大数据的系统建模是实现大数据知识发现的前提与关键
C.非结构化与半结构化数据的处理是一项重要的课题
D.大数据处理问题复杂多样,难以用一种单一的计算模式涵盖互联网企业表现强势
76.以下哪个不属于大数据可视化的应用()。
A.天气云图
B.响应式表单
C.热点地图
D.医学影像
77.大数据一般是指数量级为GB以上的数据。
78.下面哪种不属于数据预处理的方法()。
A.变量代换
B.聚集
C.离散化
D.估计遗漏值
79.以下哪个不属于大数据的技术特征()。
A.关注数据的相关性
B.重视数据的复杂性
C.分析全面的数据
D.力求数据的精确性
80.定量属性可以是整数值或者是连续值。
81.下面哪一项不属于大数据系统的必备要素()。
A.云平台
B.数据
C.数据库
D.物联网
82.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务()。
A.频繁模式挖掘
B.分类和预测
C.数据预处理
D.数据流挖掘
83.()是目标类数据的一般特性的汇总,通常以用户指定类的数据通过数据库查询收集,其输出可以用多种形式呈现,例如饼图,条形图,折线图等等。
A.数据采集
B.数据属性
C.数据特征
D.数据整合
84.以下哪个不属于大数据的关键技术()。
A.数据表
B.流处理
C.可视化
D.并行化
85.HDFS中的block默认保存()份
A.1
B.2
C.不确定
D.3
86.()是目标类数据的一般特性的汇总,通常以用户指定类的数据通过数据库查询收集,其输出可以用多种形式呈现,例如饼图,条形图,折线图等等。
A.数据属性
B.数据特征
C.数据整合
D.数据采集
87.将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为()。所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
A.关联规则
B.机器学习
C.云计算
D.聚类
88.大数据的特征不包含()。
A.多样性
B.高速性
C.规模性
D.价值密度高
89.以下各项均是针对数据仓库的不同说法,不正确的有()。
A.数据仓库是面向业务的,支持联机事务处理(OLTP)
B.数据仓库支持决策而非事务处理
C.数据仓库是一切商业智能系统的基础
D.数据仓库就是数据库
90.以下哪个不属于大数据的技术特征()。
A.分析全面的数据
B.力求数据的精确性
C.重视数据的复杂性
D.关注数据的相关性
91.以下哪个不是无监督学习()。
A.KNN
B.PCA
C.K-means
D.Apriori
92.大数据的()指数据能够被组织并呈现。借助于图形化手段,清晰有效地传达和沟通信息。基于数据,借助可视化手段提高大脑利用率。
A.低价值密度
B.多样性
C.大量性
D.可视化
93.贝叶斯分析方法是贝叶斯学习的基础,它提供了一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。
94.()框架由一个单独的masterJobTracker和每个集群节点一个slaveTaskTracker共同组成。
A.Reduce
B.Map/Reduce
C.master
D.Map
95.无监督学习的实例或数据对象有类别标记。
96.数据的不确定性的产生原因不包括()。
A.数据精度转换
B.缺失值处理
C.数据特征描述
D.数据采集与传输
97.预测建模任务主要包括哪几大类问题?
A.分类和模式发现
B.分类和回归
C.分类和模式匹配
D.模式发现和模式匹配
98.大数据具有体量大、结构单一、时效性强的特征。
99.下面陈述不正确的是()。
A.大数据将实现科学决策
B.大数据将实现科学决策
C.大数据彻底将群体性事件化解在萌芽状态
D.大数据将实现预测式决策
100.()是目标类数据的一般特性的汇总,通常以用户指定类的数据通过数据库查询收集,其输出可以用多种形式呈现,例如饼图,条形图,折线图等等。
A.数据采集
B.数据整合
C.数据属性
D.数据特征