大数据作业

“大数据”的技术支撑

计算、存储、智能
计算速度加快、存储成本下降、机器智能化

“大数据”的4V特征属性

Volume(大量性)、Velocity(高速性)、Variety(多样性)、Value(价值性)

社交网络数据的分析通常采用的图(graph)结构进行分析,其中,在Python程序中“图结构”的表示不包括()方法

稀疏矩阵(邻接表和列表字典)

中心性是判定网络中节点重要性的指标,它给出了节点与网络连接的程度。在下列各选项中,中心性度量指标方法。

中介中心性、度中心性、接近中心性、特征向量中心性

在数据采集中,高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征,其中(Chukwa)是Hadoop最常用的日志管理系统,(Scrible)是Facebook最常用的日志管理系统。

据科学中数据质量评价的指标与要求

准确性、完整性、一致性、可靠性、规范性、时效性、可访问性

下列哪种维数简约方法属于常见的非线性降维方法

核主成分分析(KPCA)(其他的是线性方法)

在模型验证指标中下列哪项标指标( )表示:预测标号正好也是实际标号的比例。

准确率(Accuracy)

在回归模型验证指标中下列哪项标指标( )表示:指预测向量和实际值之差的平均L1范数

平均绝对误差(MAE)

请选择出常用的组合策略

基于随机样本的粘合策略、基于弱分类器的Bagging策略、随机子空间和随机分片

交叉验证(Cross Validation)方法进行优化与处理。下列哪种交叉验证方法(LeaveOneOut)是指:只使用原样本集中的一项当作验证集,而剩余的则留下来当作训练集;下列哪种交叉验证方法(K-Fold CV)是指:把原始的数据随机分成K个部分。在这K个部分中,选择一个作为测试数据,剩下的K-1个作为训练数据。

常用的分类的方法

K近邻法、朴素贝叶斯、决策树、随机森林(RF)、支持向量机(SVM)

常见聚类算法

K-Means方法(K均值聚类)
层次聚类
密度聚类
DBSCAN方法 、

常用的回归算法

线性回归(Linear Regression)、逻辑回归(Logistic Regression)、正则化(Regularization)、决策树回归、随机森铃回归

监督学习方法

线性回归、逻辑回归、决策树、朴素贝叶斯、随机森林、支持向量机SVM

无监督学习方法

K-Means、PCA(主成分分析)、DBSCAN(密度聚类)、生成对抗网络GANs

常见的第三方数据包

NumPy、SciPy、Turtle、Math、Matplotlib、Matplotlib.pyplot、Pandas、Scikit-learn、NLTK、NetworkX

数据科学的四大特性

有效性、可用性、未预料性、可理解

Hadoop:

是一种针对大数据处理的分布式计算机系统,其中核心模块HDFS为分布式文件系统,为海量数据提供存储。

数据清理:

是将数据库中所存数据精细化,去除重复无用数据,并使剩余部分的数据转化成标准可接受格式的过程。

Python语言的第三方库NumPy、SciPy、pandas、Scikit-learn以及Matplotlib提供了大量的矩阵运算、科学算法以及可视化技术的支持。

名词解释

异常值(Outlier):

样本中显著脱离其他数值的数据;

正常值或内点(Inlier):

其他预期的观测值标记

EDA:

最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息

相关系数:

描述变量之间的线性相关程度

决策树的结构:

根节点(root node)、内部节点(internal node)和叶节点(leaf node)。
下面是决策树的结构说明:
根节点(Root Node):决策树的顶部节点,没有任何输入特征与之相关。它代表整个数据集,并根据一个或多个特征进行分割。

内部节点(Internal Node):根节点之后的节点被称为内部节点。每个内部节点表示一个特征,它根据该特征的取值将数据集划分为更小的子集。
叶节点(Leaf Node):叶节点位于决策树的末端,不再分割数据。每个叶节点代表一个类别(用于分类任务)或一个数值(用于回归任务)。
边(Edge):边表示节点之间的连接关系,它表示数据根据特征的取值从一个节点流向另一个节点。

常用的特征选择方法:

方差选择法、
单变量选择法、
递归特征消除法、
L1特征选择法

简答
朴素贝叶斯分类器的特点

简单快速、
适用于高维数据
对小样本有效
可解释行强
对缺失数据鲁棒性较高
对离散和连续特征均适用

K近邻方法特点

简单易懂、
非参数化学习、
懒惰学习
对异常值和噪声具有鲁棒性、
适用于多分类问题、
可以处理多种类型的特征

K均值算法的优点

简单易实现、高效
适用于大规模数据
基于距离度量
可以划分聚类
对连续型数值特征适用
对初始中心簇敏感
簇内差异小簇间差异大
需要先指定簇的个数k

DBSCAN算法的核心思路

是一种基于密度的聚类算法
核心思想是通过密度来划分样本点的簇,能够有效地处理不同形状和大小的簇,并且对噪声点具有鲁棒性。
它不需要预先指定簇的个数,能够自动发现簇的数量和形状。

问答题
简述大数据的基本概念

大数据是指规模庞大、复杂多样且难以通过传统数据处理工具进行捕捉、管理和处理的数据集合。
数据量庞大
数据类型复杂
数据产生速度快
数据中富含有价值的信息
传统方式难以处理

大数据有哪些表现形态?

结构化数据(表格)
非结构化数据(文本、图片、视频)
半结构化数据(XML、Json)
实时数据、多源数据

简要阐述云计算的集中服务模式?

云计算的集中服务模式是指云服务提供商将计算资源集中部署在数据中心,并通过互联网提供各种计算和存储服务给用户。
基础设施即服务IaaS
平台即服务PaaS
软件即服务SaaS

云计算的特点

弹性伸缩和可扩展性、
按需自助服务
资源共享
按需付费
可靠性和可用性
快速部署和灵活性
全球访问

简要阐述数据转换的主要内容及常见方法

将原始数据进行处理和转换,以便更好地满足数据分析、建模和可视化等需求。
常见的方法包括:数据清洗、数据集成、数据变换、数据规约

数据清洗有哪些方法

重复值处理、 缺失值处理、异常值检测和处理、数据格式转换、数据一致性处理、数据错误纠正、数据验证和验证规则应用

简述数据科学项目的完整流程,以及其主要步骤

确定项目目标和问题定义
数据收集和理解
数据预处理和清洗
特征工程
模型选择和训练
模型评估和验证
模型部署和应用
持续监测和优化
结果解释和可视化

请简要描述支持向量机 (SVM) 算法的基本思想

支持向量机(Support Vector Machine,SVM)是一种常用的监督学习算法,用于二分类和多分类问题。
SVM的目标是在特征空间中找到一个最优的超平面,将不同类别的样本尽可能地分开,并且使得两个类别之间的间隔最大化。
通过优化超平面的参数,SVM能够寻找到最优的分类边界,并且具有较好的泛化能力

请简要描述随机森林(RF)算法的基本设计思路及其算法特点。

随机森林(Random Forest,RF)是一种集成学习方法,基于决策树构建的一种集成模型。
基本设计思路是通过建立多个决策树,并通过投票或平均的方式进行集成,来提高模型的准确性和泛化能力。
特点:随机特征选择、自助采样、集成投票或平均、鲁棒性和泛化能力

请简述增量学习的基本概念

是一种机器学习的方法
其基本概念是在已有模型的基础上,通过逐步增加新样本或新的知识来进行学习和更新模型,而不需要重新训练整个模型。

请简要描述模型正则化概念

模型正则化是一种常用的机器学习技术
旨在控制模型的复杂度并防止过拟合(Overfitting)的发生。
正则化通过引入额外的约束或惩罚项来限制模型的参数,以在训练过程中平衡模型在训练数据和新数据上的性能。

ROC 曲线的基本要素以及绘制方法

ROC曲线(Receiver Operating Characteristic curve)是一种用于评估二分类模型性能的常用工具。
基本要素:
TPR(真阳率),表示正确预测为正例的样本数 占 所有正例样本数的比例,TPR = TP / (TP + FN)
FPR(假阳率),表示错误预测为正例的样本数占所有负例样本数的比例,FPR = FP / (FP + TN)
绘制方法:
1.收集分类器对一组样本的预测结果,并获取每个样本的真实标签和预测概率。
2.按照预测概率的大小对样本进行排序,从最高概率到最低概率。
3.设置一个阈值,将概率大于等于该阈值的样本判定为正例,概率小于阈值的样本判定为负例。
4.计算当前阈值下的TPR和FPR,记录下来。
5.逐步降低阈值,重复步骤4,直到所有样本都被判定为正例。
6.将得到的一组TPR和FPR值绘制成ROC曲线。通常情况下,TPR作为y轴,FPR作为x轴,可以得到一个从(0,0)到(1,1)的曲线。

分析题
1、在数据科学、机器学习的模型优化与分析中极易出现过拟合现象,请简要分析模型的过拟合问题及其原因。
(可以结合适当的图示或图形化分析方法进行阐述。)

过拟合是指在机器学习中,模型在训练集上表现较好,但在测试集或实际应用中表现较差的现象。
过拟合发生时,模型过于复杂地学习了训练集中的噪声、异常值或特定模式,从而在面对新样本时无法进行准确的预测,从而降低了模型的泛化性能。
过拟合问题的主要原因可以归结为模型的复杂度过高和训练数据不足两方面:
https://betheme.net/houduan/118161.html?action=onClick
模型复杂度过高:当模型的复杂度过高时,模型会过度拟合训练数据中的噪声和异常值,而忽略了数据的真实分布。复杂的模型可以更好地拟合训练数据,但在新数据上的表现可能较差。
训练数据不足:如果训练数据的数量不足,模型很难从有限的数据中学习到数据的真实分布,从而容易出现过拟合。

2、请对比分析线性回归和逻辑回归方法。

问题类型:
线性回归:用于解决连续数值的预测问题,例如预测房屋价格、销售量等。
逻辑回归:用于解决二分类问题,例如判断一个邮件是垃圾邮件还是非垃圾邮件、判断一个患者是否患有某种疾病等。逻辑回归可以理解为在线性回归后加了一个sigmoid函数。将线性回归变成一个0~1输出的分类问题。

输出类型:
线性回归:输出是一个连续的数值,用于进行数值预测。
逻辑回归:输出是一个概率值,表示样本属于某个类别的概率。

损失函数:
常用的损失函数是均方误差(MSE)
常用的损失函数是对数损失(Log Loss)

模型评估:
线性回归:常用的评估指标包括均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)
逻辑回归:常用的评估指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1-Score)

参数优化的方法都是常用梯度下降。

3、现有三种同等功能的某类型产品,其中研究人员根据各产品的特点及其相关性能参数进行评分,详细评分参数如下表内容所示。请根据数据可视化方法,结合相关图示对下列三种产品进行综合评价。

通过该条形图,您可以直观地比较三种产品在各项评分参数上的得分情况。根据条形的高度,可以看出每个产品在不同参数上的得分水平,进而进行综合评价。请注意,评分范围是0到100,得分越高表示性能越好。

4、根据课程学习内容,请论述卷积神经网络、人工神经网络、深度学习三个基本概念及其相互之间的关系。

人工神经网络:(Artificial Neural Network, ANN),由人工神经元构成的网络,模拟人类的大脑;它模拟生物过程以反映人脑某些特征的计算结构。是机器学习算法中比较接近生物神经网络特性的数学模型。是机器学习算法中比较接近生物神经网络特性的数学模型。

卷积神经网络:(ConvolutionalNeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeuralNetworks),是深度学习(deeplearning)的代表算法之一。随着时间的推移,模型当中神经网络的“叠加”作用。

深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。
深度学习是学习样本数据的内在规律和表示层次,它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。

卷积神经网络(Convolutional Neural Network,CNN)
人工神经网络(Artificial Neural Network,ANN)
深度学习(Deep Learning)

人工神经网络是一种模仿人脑神经系统工作原理的计算模型。它由大量的神经元和连接组成,可以通过学习和调整连接权重来实现对输入数据的处理和输出结果的预测。ANN是一种广义的概念,包括了多种不同结构和算法的神经网络模型。

深度学习是人工神经网络中的一个分支,它强调多层神经网络的构建和训练。深度学习通过增加神经网络的层数和参数量来提高模型的表达能力和学习能力。深度学习模型可以自动地从大量的数据中学习到更高层次的抽象特征,从而实现对复杂问题的建模和解决。

卷积神经网络是深度学习中的一种特殊类型的神经网络。它通过使用卷积层、池化层和全连接层等组件来处理具有网格结构的数据,如图像和语音。卷积神经网络利用局部感知和权重共享的特性,可以有效地提取输入数据的空间和时间特征,从而在图像识别、物体检测、语音识别等任务上取得了重大突破。

因此,卷积神经网络是一种特殊的人工神经网络结构
而深度学习是一种基于多层神经网络进行训练和学习的方法。
卷积神经网络通常被用于处理具有网格结构的数据,如图像和语音。深度学习通过增加网络层数和参数量来提高模型的表达能力和学习能力,可以应用于各种领域的问题。因此,卷积神经网络是深度学习中的一个重要组成部分。

你可能感兴趣的:(大数据)