本文章免费提供给需要的同学使用
我知道可能动了有些人的蛋糕(有人第四次开课时发的,题目差不多,但是收费),被举报抄袭了,笑死
知识无价,做作业是为了更好地了解知识,并且获得学分,我个人在任何平台,从来没有因为这个收过人一分钱
去年就有同学问我借账号看答案,说有人收费,觉得不值得花这个钱,我也这么觉得
文章全部是我自己手打,制作的答案
没错,为了给大家提供答案,我甚至还再选了一次做完了全部
目前,我只好把文章给整合一下,可能到时候比较难找,先看看这样行不行吧
被判成非原创吧…对我账号的数据之类的应该没什么问题,但是上面会显示一条转载链接,感觉挺恶心的,因为本来就是我最近自己做好的。。。又不是复制粘贴的人家的。。。收费的心血就比免费的来得高贵吗?我当然不认。。。
课程链接:数据科学技术与应用
第五次开课,对应校内的学期是2022s
一晃两年过去了,世界线却像remake了一样,看到有人要付费才能订阅这些答案,之前也被同学问过要选择题答案,因为之前的课程过期了无法查看,于是干脆再次加入重做一遍
虽然盲考拿到过市二级数据科学的证书,但是用进废退,权当再复习一遍吧
用自己的号测试了两次,都是一样的题,应该大家都是一样的
第1-4次单元测验
第8次单元测验
关于人工智能、机器学习、深度学习三者的关系,正确的是_________。
目前人工智能技术,特别是机器学习,主要模拟了人的_________思维过程。
A. 学习
B. 思考
C. 推理
D. 规划
________属于机器学习中的回归问题。
A. 预测短信是否为垃圾短信
B. 识别车牌
C. 根据房屋特性预测房价
D. 机场安检人脸识别
建模分析时,通常用于训练的样本数量_________测试集的样本数量。
A. 小于
B. 等于
C. 大于
D. 小于等于
构建决策树的算法在数据集中选择合适的_________作为树的结点。
A. 分类评价指标
B. 特征项
C. 特征项的值
D. 样本
F1 score可用于衡量分类模型性能,根据以下混淆矩阵,F1 = _________。
A. 2a/(2a+b+c)
B. a/(a+c)
C. a/(a+b)
D. (a+d)/(a+b+c+d)
数据建模分析,_________方法需要计算样本之间的距离。
A. 决策树
B. k-means
C. 随机森林
D. 线性回归
K-means算法中K表示_________。
A. 算法性能的评价指标
B. 聚类算法迭代的次数
C. 聚类得到的类别数
D. 样本间距离计算的方法
关于聚类分析的说法,不正确的是_________。
A. 聚类是无监督学习方法
B. 聚类可作为分类等其他任务的预处理过程
C. 聚类分析目标是使同一个簇中的样本相似度较高,而不同簇间的样本相似度较低
D. “簇”越多说明聚类效果越好
K-means算法的核心是_________。
A. 样本间相似度计算
B. 样本数据降维
C. 确定簇的个数
D. 样本数据标准化
关于训练神经网络的说法中,不正确的是_________。
A. 常用的优化器(optimizer)包括adam,sgd,lbfgs等
B. 是一个不断调整神经元之间的“连接权重”以及每个神经元偏置项的过程
C. 神经网络的隐藏层越少,训练时间越长
D. 一般用误差反向传播(BP)算法训练神经网络
_________属于有监督学习(Supervised Learning)的任务。
A. 分类问题(Classification)
B. 回归问题(Regression)
C. 数据降维(Dimensionality Reduction)
D. 聚类问题(Clustering)
_________属于神经网络常用的激活函数。
A. Softmax
B. tanh
C. ReLU
D. Sigmoid
神经网络可用于_________等问题的建模分析。
A. 识别车牌
B. 识别垃圾短信
C. 客户聚类问题
D. 根据房屋特性预测房价
回归分析中,性能评价指标均方根误差RMSE与测试集的大小无关。
A. √
B. ×
Precision(精确率)指分类问题中真实正例被正确预测出的比例。
A. √
B. ×
同一个数据集上,通常使用随机森林的方法训练分类模型需要的时间比C4.5决策树更长。
A. √
B. ×
K-means算法迭代过程同时最小化簇内凝聚度和最大化簇间分离度。
A. √
B. ×
神经网络中每层中不同的结点通常采用不同的激活函数。
A. √
B. ×
深度学习就是具有很多个隐藏层、每个隐藏层具有很多结点的神经网络。
A. √
B. ×
识别文本中包含的情感通常使用________方法处理。
A. 文本摘要
B. 文本检索
C. 机器翻译
D. 文本分类
中文分词的作用是________。
A. 从文本中抽取与主题有关的词语
B. 将中文句子划分为以词为单位的词序列
C. 将文本转换为数字向量
D. 去掉文本中与主题无关的句子
词袋模型的主要缺点是________。
A. 只使用文本中关键句子表示整段文本信息
B. 只使用主题词表示文本,漏掉其他词语信息
C. 只考虑文本中的词信息,忽略了词序、语法以及句法信息
D. 将句子表示为等长的数字向量,无法反映句子长度
在文本处理常见任务类中,垃圾邮件自动处理应归类于________。
A. 信息检索
B. 信息抽取
C. 文本分类
D. 自动摘要
基于词袋模型进行文本数据分类时,从句子中提取的最重要的特征量为________。
A. 词位置
B. 词性
C. 上下文
D. 词频
分词工具库Jieba支持________分词模式。
A. 精确模式
B. 全模式
C. 半模式
D. 搜索引擎模式
词袋模型,将不同长度的文本表示成不同长度的向量。
A. √
B. ×
对文本分类,提取的文本特征个数越多,特征向量越长,则分类准确度就越高。
A. √
B. ×
垃圾邮件分类,训练集中每个邮件的标签:1(垃圾)或0(正常),是由人工标注的。
A. √
B. ×
文本处理中, ________任务将一种自然语言文本自动翻译成另一种自然语言文本。
机器翻译
计算机数字图像,按照颜色和灰度的多少将图像分为________。
A.二值图像、灰度图像、RGB彩色图像
B.静态图像、运动图像
C. JPG图像、TIFF图像、BMP图像
D.4K图像、高清度图像、低清晰度图像
Python在内存中使用________来存储图像的数据。
A.列表
B.字典
C.多维数组
D.表结构(DataFrame)
数字图像识别采用________建模分析方法实现。
A.聚类
B.回归
C.无监督学习
D.分类
一个4096 * 2160的RGB24数字图像,需要占用存储空间约为________。
A.100MB
B.253MB
C.1.6GB
D.7.2MB
图片“Robot.jpg”为400 372(宽高)的彩色图片,下列Python语句输出为________。
from skimage import io
print(io.imread(“robot.jpg”,1).shape)
A.(372,400)
B.(400,372,3)
C.(400,272)
D.(372,400,3)
关于Keras的说法中,________是正确的。
A.Keras是专门用来构建CNN序贯模型的神经网络开发包,不能构建其它神经网络
B.与Tensorflow一样,Keras是一个多层神经网络开发包,只是它的语法更简单、使用更方便
C.用Keras构建的神经网络模型必须经过编译(Compile)之后,才能输入数据进行训练
D.Keras可以作为Tensorflow的后端使用
________都是著名的图像分类深度学习模型,用户可以下载这些预训练模型直接使用。
A.InceptionV3
B.VGG19
C.ResNet50
D.CIFAR-10
与全连接前馈神经网络相比,用于图像分类的卷积神经网络CNN主要通过________操作来减少网络参数数量,提高训练效率。
A.卷积
B.池化
C.中断
D.全连接
Keras为建立CNN模型,提供了_______等常用层(layer)。
A.LSTM
B.Conv2D
C.MaxPooling2D
D.SimpleRNN
卷积神经网络的核心是通过卷积块自动提取图像的局部_______。
特征