数据赋人工系统以智能。北邮《R语言数据分析》课程从问道、执具、博术三个方面,阐述机器学习/数据挖掘的方法论(道)、编程工具R语言(具)以及经典算法模型(术)。通过课程的学习,可一起领悟数据分析之哲理、掌握模型算法之要义、提升工程实践之素养,推开人工智能的大门,为同学们在机器学习/数据挖掘领域登堂入室奠定基础。以下资料整理于该课程作业,供学习参考。
等号可以表示那些含义?(ABCD)
A.等同于 B.定义为 C.映射 D.联系
解析:
等号可以有很丰富的内涵,大部分的规律,通过数学语言表达时,都离不开等号。等号可以是简单的等同于、定义为,也可以是映射、联系。
1.对于照片中人的年龄识别,可以认为是将特征取值与人类可能的年龄划上了等号。(√)
解析:
机器学习中的有监督学习,本质上就是在自变量与因变量之间划等号。年龄识别属于有监督学习。
2.在玻意耳定律中,体积与压强(经过变换)之后划上了等号,表明二者质非相同,量却相等。(√)
解析:
划等号不只是表示“等同于”。质不相同、量却相等,体现的是事物之间的联系。
3.机器学习中的有监督学习,主要体现为在自变量与因变量之间划上等号。(√)
解析:
机器学习中的有监督学习,包括分类与回归,本质上都是在因变量与自变量之间划等号,即建立因变量与自变量之间的函数关系y=f(X)。
若要将邮件文本特征与是否是垃圾邮件划上等号,必须完成以下哪项工作?(B)
A.过滤垃圾邮件 B.建立模型 C.绘制词云 D.文本情感分析
解析:
文本特征不能直接与是否是垃圾邮件划上等号,需建立起特征与类别之间的模型y=f(X)
1.分类是无监督学习的代表,聚类是有监督学习的代表。(×)
解析:
分类与聚类分别是有监督和无监督学习的代表。
2.一般认为,数据挖掘可以包含数据分析技术和数据管理技术。(√)
3.关联规则主要表现为项集之间的因果关系。(×)
解析:
关联规则表现为项集之间的伴随关系,而非因果关系。
4.聚类分析的结果主要表现为数据空间的距离结构。(√)
5.模型不在于构建,而在于选择。(√)
1.以下哪些行为可以视为归类行为?(AD)
A.识别火源
B.打开灭火器
C.喷射泡沫
D.确认火已扑灭
解析:
归类属于认知范畴,A和D属于根据特征做出判断的过程,可视为归类行为。B和C为一些具体动作行为,不能视为归类行为。
2.从认知的角度看,以下说法正确的是?(ABCD)
A.概念化是归类
B.学习是归类
C.感知是归类
D.决策是归类
3.机器所能学到的知识包括(ABD)
A.模式 B.模型 C.算法 D.函数
解析:
机器能学到的是某种关系结构,可以是模式、模型,函数是模型的主要表现形式之一,因此A、B、D正确。算法是学习过程,而非学习结果,因此C错误。
1.就逻辑推理方式而言,训练模型的过程属于(A)。
A.归纳 B.演绎 C.都是 D.都不是
2.就逻辑推理方式而言,将模型应用于预测的过程属于(B)。
A.归纳 B.演绎 C.都是 D.都不是
解析:训练的过程属于归纳,而预测的过程属于演绎。
3.为确保模型的有效性,需要采用数学的方法对算法习得的模型进行证明。(×)
解析:
为了验证模型的有效性,一般都是通过实验的方法,在测试集上测试其性能。模型的验证,以观测、实验为主,而非理论推导。
4.结构风险最小化策略,主要是为了提升模型在训练集上的性能指标。(×)
解析:
结构风险最小化策略,主要是为了提升模型的泛化能力。泛化能力一般通过测试集(而非训练集)上的性能指标来近似。
1.所有的模型都是错的,但有些是有用的。(√)
2.无监督学习本身没有类标签,因此无法判断模型是否正确,也无需开展模型评估。(×)
解析:
无论是有监督学习还是无监督学习,都需要开展模型评估。以无监督学习中的聚类分析为例,可以通过轮廓系数等指标来衡量聚类的效果。
3.相关关系不能等同于因果关系。(√)
4.数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。(√)
5.在集成学习中,单个分类器一般称之为弱分类器,组合分类器称之为强分类器。(√)
6.数据密集型科学发现是一种新的范式,无需掌握机理模型,也无需了解业务背景。(×)
解析:
业务敏感是第一位的,任何一个成功的数据分析项目,都离不开对业务背景的深入了解。
1.数学是研究模式的科学。(√)
2.在最近邻法中,每个训练样本的势力范围是半径为r的球体。(×)
解析:
在最近邻法中,每个训练样本的势力范围是由平面围成的空间,非球状。
3.近邻法分类的基本原理是根据数据空间中距离的远近,将测试点分配至不同的类中心。()
解析:
近邻法是根据身边k个训练样本点的标签,按照多数决策原则给测试样本点打标签,不存在类中心的概念。kMeans聚类过程中,则是根据离类中心距离的远近,将每一个点分配至不同的类中心。
4.决策树的构建过程,主要是通过属性取值不同,对空间进行细分,在细分空间中标签足够纯,从而实现分类。(√)
5.随机森林的总体结构依然是一棵决策树,树的分枝又由若干棵决策树构成。(×)
解析:
随机森林是组合学习模型,由若干棵决策树构成。集成的过程采用多数表决或是取平均值的方法,而非一棵总的决策树。
6.朴素贝叶斯分类器是将特征属性的取值作为新的证据,对对象所属类别的先验概率进行调整,从而实现分类。(√)
7.逻辑斯蒂回归模型可以作为神经网络的计算节点。(√)
8.支持向量机是在特征张成的数据空间中,通过分类超平面实现类别的划分。(√)
9.对于特定情境的建模问题,正确的答案、正确的模型应该是唯一的。(×)
解析:
对于同一个问题情境,一般都会尝试不同的模型。我们所能做的,只是在当前已经尝试过的模型中,找到性能指标比较好的那个,未来也可能会有更多更好的模型。所以不存在所谓的唯一正确的模型。
以下属于有监督学习算法的有(AC)
A.近邻法 B.k-均值 C.随机森林 D.孤立森林
解析:
k均值和孤立森林,都属于无监督学习算法。近邻法kNN和k均值kMeans名字上有点类似,但二者本质上完全不同。
1.R是一个数据分析和绘图的环境。(√)
2.R只适合传统统计,不适合机器学习和数据挖掘等任务.(×)
3.大部分数据科学团队,都同时使用两种以上的工具,如R和Python。(√)
1.以下选项中,不包含在CRISP-DM数据处理流程中的是©
A.数据理解 B.建模 C.推理 D.评估
解析:
CRISP的六个步骤分别为:业务理解、数据理解、数据预处理、算法建模、模型评估、部署应用
1.R代码的组成部分有(ABC)
A.数据对象 B.函数调用 C.注释 D.变量定义
解析:
在R中,变量无需定义
2.R里边的循环结构有哪些实现方式(ABD)
A.for B.while C.until D.repeat
解析:
无until这一关键词。
3.欲查询if的帮助文档,正确的语句是(ACD)
A.help(‘if’) B.?if C.?‘if’ D.?“if”
解析:
对于特殊的函数if或是+等,通过help()或是单引号、双引号、反单引号查找帮助文档。
4.与1+1等价的语句有(ABD)
A.‘+’(1, 1) B.“+”(1, 1) C.%+%(1, 1) D.+
(1,1)
解析:
二元操作符+是特殊的函数,可以改写为函数调用的方式,此时需采用双引号、单引号或反单引号。
1.R编码的基本过程可以概括为“利用别人的包和函数,讲述自己的故事”。(√)
2.repeat循环体中必然有一条next语句,否则会形成死循环。(×)
解析:
repeat循环体中必然有一条break语句,next语句只是中断本轮循环并跳转至下一轮循环。若repeat语句中仅有next而无break,依然是死循环。
3.magrittr扩展包中的管道操作符lhs%>%rhs是一个函数,lhs和rhs分别为一个数据对象及函数对象。(√)
4.泛型函数可以根据对象所属类型的不同,执行不同的操作。(√)
5.常见的+属于泛型函数,ggplot2扩展包对其进行了扩展。(√)
1.对于向量x <- c(first = 1, second = 2, third = 3), 合法的访问方式有(ACD)
A.x[c(1, 2, 1, 3)] B.x[c(-1, 2, 3)] C.x[c(-1, -3)] D.x[c(‘first’, “third”)]
解析:
正整数、负整数都可以用作下标,但不能混用。
2.可以作为矩阵M的列下标的是(ABCD)
A.落入区间[1, ncol(M)]的正整数
B.落入区间[-ncol(M), -1]的负整数
C.长度为ncol(M)的逻辑向量
D.由names(M)中元素组成的字符向量.
3.对于列表my_list的第一个组成部分partA,以下描述正确的是(BCD)
A.语句my_list[‘partA’]与my_list[[‘partA’]]等价
B.语句my_list p a r t A 与 m y l i s t [ [ 1 ] ] 等价 C . 语句 m y l i s t [ [ 1 ] ] 与 m y l i s t [ [ ′ p a r t A ′ ] ] 等价 D . 语句 m y l i s t partA与my_list[[1]]等价 C.语句my_list[[1]]与my_list[['partA']]等价 D.语句my_list partA与mylist[[1]]等价C.语句mylist[[1]]与mylist[[′partA′]]等价D.语句mylistpartA与my_list[[‘partA’]]等价
解析:
单层[]为列表,双层[[]]为组成部分本身,二者有本质区别。
1.语句1:10 - 1:3的结果是(A)
A.0 0 0 3 3 3 6 6 6 9
B.0 0 0 4 5 6 7 8 9 10
C.0 1 2 2 3 4 4 5 6 9
D.语法错误,无结果
解析:
在进行向量化运算时,若长度不等,则采取循环补齐的方式进行,相当于1:10 - c(1:3, 1:3, 1:3, 1)。
2.语句sort(c(3, 1, 4, 1, 5, 9, 2, 6))的结果是(A)
A.1 1 2 3 4 5 6 9
B.9 6 5 4 3 2 1 1
C.6 8 5 3 1 7 2 4
D.2 4 7 1 3 5 8 6
解析:
sort()函数默认是对值进行从低到高排序。
3.语句order(c(3, ‘.’, 1, 4, 1, 5))的结果是(D)
A.“.” “1” “1” “3” “4” “5”
B.“5” “4” “3” “1” “1” “.”
C.6 4 1 3 5 2
D.2 3 5 1 4 6
解析:
先进行强制类型转换,然后按照从低到高的顺序取下标。
4.用以表征等级、规模的变量,属于以下哪种变量(B)
A.定类变量 B.定序变量 C.定距变量 D.定比变量
解析:
定序变量,有高下优劣之分,但不能比较差别。
5.若字符向量partA是列表my_list的第1个组成部分,那么my_list[1]的结果是(A)
A.列表对象 B.字符对象 C.序号对象 D.空对象
解析:
单个[]依旧是列表,[[]]才是组成部分本身。
6.在R语言数据建模中,用得最多的数据对象是(D)
A.向量 B.列表 C.因子 D.数据框
解析:
data.frame是R中最常用的数据对象。
7.要将数据框df(包含3列)的第2列和第3列调换位置,正确的代码是(A)
A.df <- df[, c(1, 3, 2)]
B.df[, c(1, 3, 2)]
C.df <- df[c(1, 3, 2), ]
D.df[c(1, 3, 2),]
解析:
选项B产生的是临时对象;选项C/D为数据框的行操作。
1.利用R语言进行有监督学习,若将其视为分类问题对待,则因变量一般要转换为因子。(√)
解析:
分类问题要求因变量为类别变量,即因子。
2.无论外部数据是图片、音频还是文本,均可转换为向量/因子/矩阵/数组/列表/数据框中的某种类型之一。(√)
解析:
万法归宗,若通过R语言开展机器学习与数据挖掘,绝大部分时候都需要转换成这六种数据对象之一。
3.数组对象可通过array()函数创建。(√)
解析:
R中的数组对象主要是通过array()函数创建。
1.magrittr扩展包中的管道操作符,x %>% f %>% g表示f(g(x))。(×)
解析:
x %>% f %>% g表示g(f(x))。
2.x %>% f(y, z, .)等价于f(x, y, z)。(×)
解析:
x %>% f(y, z, .)等价于f(y, z, x),若x不是第一个参数,则用点号.指代。
3.x %>% tail(n=3)等价于tail(x, n = 3)。(√)
解析:
第一个参数默认为管道操作符%>%的左侧参数x,其余参数如n=2照常传递。
4.df %>% select(1:3) %>% tail(n = 3) 表示选取数据框df的前三列后三行。(√)
解析:
两个管道操作,前一个操作为选取df的前三列,第二个管道操作为继续选取其后三行。
5.df %>% mutate(sum3 = rowSums(.[1:3]))表示基于df产生一个临时对象,该对象比数据框df多一列sum3,且sum3为df前三列之和。(√)
6.tidyr::spread()的功能是将长的数据变为宽的数据。(√)
解析:
spread()函数将长数据变宽,伸展开来。
7.tidyr::gather()的功能是将宽的数据变为长的数据。(√)
解析:
gather()函数将宽数据变长,将“远处”数据收集过来并垒成长数据。
8.宽数据变为长数据,将由之前的若干列变为两列。(√)
1.以下代码中,表示将数据框df按照其中的col1列从高到低进行排序的是(AC)
A.df %<>% arange(desc(col1))
B.df %<>% arange(col1)
C.df %>% arange(desc(col1)) -> df
D.df %>% arange(desc(col1))
解析:
df%<>% 或是 ->df才能改变df本身,desc()表示从高到低进行排序。
2.在dplyr扩展包中,列操作的函数有(AB)
A.select() B.mutate() C.filter() D.arrange()
解析:
select()/mutate()为列操作,filter()/arrange()为行操作。其中,select()表示选择某些列,mutate()表示新增或修改某些列。
3.在dplyr扩展包中,行操作的函数有(CD)
A.select() B.mutate() C.filter() D.arrange()
解析:
select()/mutate()为列操作,filter()/arrange()为行操作。其中,filter()表示选择符合某些条件的记录/行,arrange()表示对记录/行进行排序。
1.分组之后进行summarise(freq = n()),此处的freq表示(A)
A.每组的记录数 B.总的记录数 C.每组的列数 D.总的列数
解析:
函数n()表示计算本组记录数。
2.对于一个100×8的数据框,若将其中的5列数据由宽变长,变换之后的数据框的行列数分别为©。
A.100行8列 B.500行8列 C.500行5列 D.100行5列
解析:
8列中的5列变为2列,加上其余的3列,共5列;原来的1行变为5行,共500行。
1.数据框中的列,可表达的含义有(ABCD)
A.属性 B.特征 C.数据空间的维度 D.变量
解析:
数据框中的列,从数据库的角度讲,是字段;从统计的角度讲,是变量;从机器学习的角度讲,是属性、特征;从数据空间的角度讲,是空间的维度。
2.数据框中的行,可表达的含义有(ABCD)
A.样本 B.观测记录 C.特征向量 D.数据空间中的数据点
解析:
数据框中的行,从数据库的角度讲,是记录;从统计的角度讲,是样本;从机器学习的角度讲,是特征向量;从数据空间的角度讲,是空间中的点。
3.数据框中蕴含的关系结构包括(ABCD)
A.映射关系 B.距离关系 C.伴随关系 D.相关关系
解析:
数据框是R算法建模过程中,最常用的数据对象,其中蕴含各类关系结构,包括映射关系、距离关系、伴随关系、相关关系、拓扑关系等。
1.数据框可视为函数的三种表达方式之一——列表法。(√)
解析:
数据框可视为函数的列表法,其中的某些列作为自变量,某些列作为因变量
2.数据框的每一行,表现为数据空间中的一个点。(√)
3.数据空间中的列,可以作为数据空间的维度。(√)
4.数据框中的自变量,一般都表现为数据空间的维度,而因变量的取值(如类别),一般表现为数据点的标签。(√)
1.在R语言中,茎叶图可通过以下哪个函数实现(A)
A.graphics::stem()
B.graphics::barplot()
C.graphics::boxplot()
D.graphics::hist()
解析:
barplot()为柱状图,boxplot()为箱线图,hist()为直方图
。
2.在ggplot2绘图系统中,通过以下哪个函数绘制概率密度图(A)
A.geom_density B.geom_point C.geom_step D.geom_hist
解析:
geom_point()绘制散点图;geom_step()绘制梯级图;geom_hist()绘制直方图。
3.可直接用来计算相关系数的函数是(A)
A.stats::cor() B.stats::cov() C.stats::dist() D.stats::density()
解析:
cov()用以计算协方差,dist()用以计算距离,density()用以估算概率密度。
4.层峦叠嶂图属于何种分组图形(B)
A.分组箱线图 B.分组概率密度图 C.分组直方图 D.分组茎叶图
解析:
层峦叠嶂图的本质是分组概率密度图。
1.在ggplot绘图系统中,几何映射geom与统计变换stat是成对出现。(√)
解析:
geom_XXX()中一般包含stat统计变换过程,stat_XXX()函数同样包含geom几何映射过程,二者可互相替代。
2.箱线图通过分位数来刻画数据的分布。(√)
3.数据空间的密度,可定义为单位体积内数据的质量。(×)
解析:
数据空间的密度,主要指密集程度,与物理学中的密度不同。
4.在计算Hopkins统计量时,随机抽取的点的个数,一般接近于记录数。(×)
解析
在计算Hopkins统计量时,随机抽取的点的个数,一般远远小于记录数,如取0.1×N或0.05×N
1.在箱线图中,符合以下哪些条件的数据被视为异常数据(ABC)
A.大于Q3+1.5IQR
B.小于Q1-1.5IQR
C.处于上边界或下边界之外的数据
D.处于中位数附近的数据
解析:
一般视中位数为“最正常”的数据,中位数附近为正常数据,因此选项D错误。
2.哪些统计量可用来刻画数据的分散程度(ABC)
A.极差 B.四分位距 C.标准差 D.中位数
解析:
用以量化数据的分散程度,可以用极差、标准差、方差等;用以量化数据的集中趋势,可以用中位数、均值、众数等。
1.关联分析(Association Analysis)用于发现隐藏在大型数据集中有意义的联系,所发现的联系可以用频繁项集或关联规则的形式表示。(√)
解析:
关联分析的两种主要联系为频繁项集和关联规则。
2.项集出现的频度是包含该项集的事务数,简称为项集的支持度。(×)
解析:
出现的频数称之为支持度计数,所占比例或者说出现的概率,称之为支持度。
3.如果项集的支持度满足预定义的最小支持度阈值,称之为频繁项集。(√)
解析:
项的集合称之为项集,出现次数足够频繁的项集称之为频繁项集。
4.规则X→Y的置信度定义为P(Y|X)。(√)
解析:
置信度定义为条件概率P(Y|X)。
5.Apriori算法所基于的先验性质是:非频繁项集的超集必定是非频繁的。(√)
解析:
Apriori中的先验法则是:频繁项集的子集必定是频繁的,非频繁项集的超集必定是非频繁的。
6.如果规则X→(Y-X)不满足置信度阈值,则规则X’→(Y-X’)的规则也一定不满足置信度阈值,其中X为X’的真子集。(×)
解析:
仅当X’为X的真子集时满足:如果规则X→(Y-X)不满足置信度阈值,则对于X’→(Y-X’)的规则也一定不满足置信度阈值。
7.满足最小支持度和置信度要求的规则X→Y是强规则,意味着X的出现有助于促进Y的出现。(×)
解析:
若提升度小于1,则表明二者依然是负相关关系,尽管X→Y是强规则。
8.若要通过arules::apriori挖掘若干连续变量之间的关联关系,通常需要对这些变量进行离散化处理。(√)
解析:
apriori()用于挖掘项集之间的关联关系,因而首先需要将连续变量离散化为项item。
9.apriori算法采用逐层递进的方法生成频繁项集。若事务记录中共有N个项,则首先查找频繁的N项集,在此基础上查找频繁的N-1项集候选,逐层递进。(×)
解析:
方向相反,应是从频繁的1项集开始进行筛选。
10.在Apriori算法中,需要先生成关联规则,然后才可以生成频繁项集。(×)
解析:
一般是先生成频繁项集,在此基础上一分为二生成关联规则。
11.支持度用以减少偶然性,置信度用以增加推断能力。因此,支持度设为0.8,置信度设为0.01是一个合理的参数设置。(×)
解析:
在具体工程实践中,支持度一般设置较小,可能小于1%;置信度代表推断能力,应设置为较高的值,一般在70%以上。
12.设I={I1, I2, I3, I4, I5},若频繁3-项集为{I1, I2, I3}, {I1, I2, I4},则可以将{I1, I2, I3, I4}作为频繁的4-项集候选。(×)
解析:
{I1, I2, I3, I4}包含非频繁的子集{I2, I3, I4}以及{I1, I3, I4}。
13.由于Apriori在挖掘规则的过程中,已经设置了支持度和置信度,因此对于挖出的规则无需进行评估。(×)
解析:
仅有支持度和置信度,并不能判定为有效规则。一般而言,若提升度小于等于1,依旧视为无效规则。
14.若规则X→Y大于预先定义的最小支持度阈值和最小置信度阈值要求,则表明Y伴随X出现,X与Y是正相关关系。(×)
解析:
仅当提升度大于1时,二者才表现为正相关关系。
15.规则X→Y所表示的只是伴随关系,而非因果关系,即:X伴随着Y的出现而出现。(×)
解析:
该规则确实只是表示伴随关系而非因果关系,但准确的说法应该是Y伴随着X的出现而出现。
16.在支持度、置信度框架之下,FP-Growth等算法,可以挖出比Apriori算法更多更好的规则。(×)
解析:
在支持度和置信度框架之下,不同的挖掘算法仅体现在效率上有所不同,所挖出的关联规则并无区别。
1.在Apriori算法中,在得到频繁的k-1项集之后,通过以下哪种连接方法,生成k-项集候选©
A.所有的k-项集都看做可能的候选集
B.通过频繁的k-1项集和频繁的1项集连接生成频繁的k-项集候选
C.通过合并一对频繁的k-1项集生成频繁的k项集候选
D.以上都不是
解析:
效率最高的连接方式是将两个频繁的k-1项集合并。
1.对于规则X→Y和规则Y→X,相同的度量指标是(AC)
A.支持度 B.置信度 C.提升度 D.因果置信度
解析:
两条规则的支持度和提升度是相同的,而置信度和因果置信度具有方向性。
1.分类与回归的核心任务是建立函数关系y=f(X),若y为数值变量,称之为回归;若y为类别变量,称之为分类。(√)
2.随机森林建模过程中,通过有放回的抽样方法得到自助样本,样本大小一般是原数据集的36%左右。(×)
解析:
随机森林过程中通过有放回的重采样方法,样本大小与原数据集大小一致,但有36%左右的数据不被抽到。
3.在朴素贝叶斯分类器中,假定特征之间相互独立。(√)
解析:
为方便计算,假定特征相互独立,因而称之为朴素贝叶斯。
4.贝叶斯公式p(y|X) = p(y) * (p(X|y) / p(X))用以分类,可将p(X|y) / p(X)视为X出现时对于y的提升程度。(√)
解析:
该计算方法与关联规则提升度一致。
5.逻辑斯蒂回归可以视为广义线性模型,其连接函数为logit函数。(√)
解析:
逻辑斯蒂回归模型在R中的最基本的实现,便是采用广义线性模型glm()函数。
11.在神经网络训练过程中,为了实现节点间权值的迭代优化,需要利用本节点的输出与实际值的偏差信息。(×)
解析:
非本节点的偏差信息,而是最终输出层的偏差信息。
12.对于线性可分但存在噪声点数据的情形,支持向量机通过引入松弛变量的方法进行处理。(√)
1.以下关于近邻法的描述,正确的是(ABCD)
A.近邻法是惰性学习方法
B.测试记录的标签,取决于训练集中离得最近的k条记录
C.若近邻数k=1,称之为最近邻法
D.邻近性可通过欧氏距离、曼哈顿距离等不同的指标进行度量
2.决策树建模过程中,常用的不纯度指标有(ABCD)
A.分类错误率 B.Gini指数 C.信息增益 D.增益率
3.以下用于rpart树模型可视化的函数有(BCD)
A.rpart::predict.rpart()
B.rpart.plot::rpart.plot()
C.rpart::plot.rpart()
D.rpart::text.rpart()
解析:
predict.rpart()用以模型预测,后三项为模型可视化函数。
4.在R语言中,可用以支持向量机建模的函数有(AC)
A.kernlab::ksvm()
B.stats::glm()
C.e1071::svm()
D.kknn::kknn()
解析:
ksvm()和svm()均可用以训练支持向量机,glm()为广义线性模型,kknn()为加权近邻法。
1.分类回归树CART可通过 以下哪个函数实现©
A.e1071::naiveBayes()
B.stats::hclust()
C.rpart::rpart()
D.nnet::nnet()
解析:
naiveBayes()实现的是朴素贝叶斯算法,hclust()实现的是层次聚类,nnet()实现的是神经网络算法。
1.聚类分析将对象分成不同的簇,使得簇内对象彼此相似,簇间对象彼此相异。(√)
2.聚类属于无监督学习,和分类不同,需要在预先不知道分类的情况下,将数据划分成有意义或有用的簇,捕获数据的自然结构。(√)
3.欲判断数据是否适合聚类,可计算相应的Hopkins统计量。一般而言,Hopkins统计量接近于0.5,更适合开展聚类分析。(×)
解析:
Hopkins统计量接近于0.5,表明数据点呈现均匀分布,不适合聚类。
4.综合考虑凝聚性和分离性,可采用轮廓系数silhouette coefficient评估聚类结果。(√)
5.在k-Means建模过程中,若通过轮廓系数来优选k的取值,则轮廓系数最小的k值,为最优k值。(×)
解析:
轮廓系数越大,聚类效果越好,此时相应的k最优。
6.层次聚类hierarchical clustering在不同层次上对数据集进行划分,通过树状图dendrogram来表征对象的远近关系。(√)
7.自下而上的层次聚类方法,其基本过程是每一次合并最接近的两个簇,直至仅剩下一个簇。(√)
8.DMwR::outliers.ranking()算法基于层次聚类进行异常检测,其核心原理是离群值不易于合并,被合并时其所属类的大小与另一个合并的类相比,差别较大。(√)
1.以下属于数据标准化方法的有(ABC)
A.min-max标准化
B.z-score标准化
C.正项序列归一化
D.连续数据离散化
解析:
离散化并非数据标准化方法。
2.计算轮廓系数时,至少需要给定的两个参数是(AC)
A.对象之前的距离
B.聚类所采用的方法
C.对象所属的类
D.类中心的位置
解析:
计算轮廓系数,既要知道点之间的距离,同时需要知道每一个点所属的类,至于聚类的方法和类中心,则无需明确。
3.在R语言开源生态中,与kMeans算法相关的函数有(ABC)
A.stats::kmeans() B.fpc::kmeansruns()
C.fpc::kmeansCBI() D.kknn::kknn()
解析:
选项D为加权近邻法,为有监督学习方法。
4.簇之前的距离基于点之间的距离进行计算,具体可以包括(ABCD)
A.最小距离 B.最大距离 C.平均距离 D.均值距离
解析:
簇之间的距离可以定义为两个簇点对的最小距离、最大距离、平均距离,也可以定义为两个簇质心的距离(均值距离)。
R语言中可直接用于数据标准化的函数有(B)
A.base::mean() B.base::scale() C.stats::sd() D.e1071::kurtosis()
解析:
mean()函数用以求平均值,sd()函数用以求标注差,kurtosis()函数用以求峰度。
1.适合于形容"发现历史数据背后的规律"的特点的成语是(B)
A.往者不可谏、来者犹可追
B.万物并作、吾以观复
C.橘生淮南则为橘、生于淮北则为枳
D.南来北往
2.适合于形容"梯度下降"的特点的成语是©
A.鱼目混珠、混淆视听
B.数同类者无远、数异类者无近
C.因势利导、渐入佳境
D.见貌辨色、揣骨听声
3.适合于形容"聚类分析"的特点的成语是(A)
A.物以类聚、人以群分
B.取长补短
C.绳锯木断、水滴石穿
D.泰山不让土壤、故能成其高
4.适合于形容"经验风险最小化"的特点的成语是©
A.众擎易举
B.集腋成裘
C.知错能改、善莫大焉
D.福兮祸所伏,祸兮福所倚
5.适合于形容"模型泛化与迁移"的特点的成语是(A)
A.橘生淮南则为橘、生于淮北则为枳
B.千羊之皮、不如一狐之腋
C.泰山不让土壤、故能成其高
D.众愚不如一贤
6.适合于形容"模型参数设置"的特点的成语是©
A.狮象搏兔、皆用全力
B.磨而不磷、涅而不缁
C.量体裁衣
D.千镒之裘、非一狐之白
7.适合于形容"特征选择不当"的特点的成语是(A)
A.缘木求鱼、问道于盲
B.千锤打锣、一锤定音
C.豪末不掇、将成斧柯
D.种瓜得瓜、种李得李
8.适合于形容"垃圾数据未清理"的特点的成语是(B)
A.一手独拍、虽疾无声
B.鱼目混珠、混淆视听
C.差之毫厘,谬以千里
D.尺蚓穿堤、能漂一邑
9.适合于形容"异常检测"的特点的成语是©
A.日中则昃、月满则亏
B.无根之木、无源之水
C.卓尔不群、鹤立鸡群
D.一不压众、百不随一
1.属于明显的"特征提取与分类"行为的是(ABCD)
A.见貌辨色、揣骨听声
B.看云识天气
C.确认过眼神、遇上对的人
D.望闻问切