人工智能项目开发实战(上)

人工智能项目开发和云平台服务之间的关系。

一、人工智能项目开发规划与准备

序号为4的数据信息有着明显的不一致性问题

对数据资源的管理。针对企业数据全生命周期所涉及应用数据的管理,对数据变化的管理,或者说是针对描述数据的数据的管理(即元数据)。把整个关于数据管理的定义称之为面向应用的数据管理。

数据管理包含数据治理。在数据管理的过程当中,要保证一个组织能够将数据转换成有用的信息,这项工作所需要的流程和工具,那就是数据治理的工作。

数据不足——解决方案:a. 收集更多的数据,可以尝试找到更多相同源的数据源作为原始数据,或者从另一个相似度比较高的源来收集更多的数据;b. 创建具有轻微变化的同一数据的多个副本来增强数据,可以以非常低的成本来产生大量的额外的图像,eg. 裁剪、旋转、平移、缩放图像,添加一些噪点、模糊、改变颜色、阻挡部分噪音来实现。在所有的情况下,需要确保数据仍然代表的同一个类。术语上可以管这个过程叫做“数据扩充”。

特征提取强调的是特征转换的方式来得到一组具有明显物理和统计意义的特征。而特征选择是从特征的集合当中挑选一组具有明显物理和统计意义的特征子集。

二者都可以很好地减少特征的维度和数据的冗余。特征提取有时能发现更有意义的特征属性。特征选择过程经常表现出哪个特征的重要性与模型构建的重要性。特征是可以多维度角度进行提取的。

四、人工智能项目开发验收与维护

在实际情况中,通常会通过“测试误差”来评价学习方法的泛化能力。讨论机器学习模型的学习和泛化的好坏的时候,通常的术语是“过拟合”和“欠拟合”。

过拟合(Overfitting)指的是模型在训练数据上表现得过于优秀,但在未见数据上表现较差。过拟合可以比喻为一个学生死记硬背了一本题库的所有答案,但当遇到新的题目时无法正确回答。这种情况下,模型对于训练数据中的噪声和细节过于敏感,导致了过度拟合的现象。

欠拟合(Underfitting)指的是模型无法很好地拟合训练数据,无法捕捉到数据中的真实模式和关系。欠拟合可以比喻为一个学生连基本的知识都没有掌握好,无论是老题还是新题都无法解答。这种情况下,模型过于简单或者复杂度不足,无法充分学习数据中的特征和模式。

图中最右列错了,自上而下应该是假反例和真反例

混淆矩阵(Confusion Matrix)是在机器学习和统计学中常用的一个概念,用于评估分类模型的性能。它是一个矩阵,用于展示分类模型预测结果和实际标签之间的对应关系。

混淆矩阵通常是一个2×2的矩阵,其中行表示实际标签的类别,列表示模型预测的类别。混淆矩阵中的四个元素分别表示:真正例(True Positive,TP)、假正例(False Positive,FP)、真反例(True Negative,TN)、假反例(False Negative,FN)。如下图所示。

假正例(False Positive,FP)、假反例(False Negative,FN);真正例(True Positive,TP)、真反例(True Negative,TN)

真正例(矩阵左上角);真反例(矩阵右下角)。

假反例:模型预测为反,但实际上样本的标签为正。(位于混淆矩阵的右上角)

假正例:模型预测为正,但实际上样本的标签为反。(位于混淆矩阵的左下角)

“真”、“假”代表预测与真实之间的对应关系,判决正确的话,就是“真”。混淆矩阵的左对角线上是判决正确的样本数目。

“正”、“反”表示的是模型预测数据的标签类别。

混淆矩阵可以帮助我们计算出各种评估指标,如准确率、召回率、精确率、F1值等。同时,通过观察混淆矩阵,我们还可以了解分类模型在各种情况下的分类表现。

“准确率”表示的就是对角线上判断正确的数据的个数,左对角线上的这2个数值加起来除以所有的样本的数目,就是准确率的定义,它并不区分模型判断正确的类别究竟是什么。

准确率(Accuracy):指分类模型正确预测的样本数占总样本数的比例,即(TP+TN)/(TP+TN+FP+FN)。

在所有预测为“正”的样本当中,模型预测为“正”,预测正确的样本所占有的比例就是精确率。

精确率(Precision):指分类模型正确预测为正例的样本数占预测为正例的样本数的比例,即TP/(TP+FP)。

在所有真正标签为“正”的样本当中,被模型能够预测为“正”的样本所占的比例就是召回率。

召回率(Recall):指分类模型正确预测为正例的样本数占实际正例样本数的比例,即TP/(TP+FN)。

总结一下:精确率也叫做查准率,考察的就是我们的机器学习模型到底准不准的问题。召回率有时也叫查全率,考察的就是机器学习模型到底找的全不全的问题。

模型的泛化性能以及相关的性能调优问题

偏差与泛化之差就是模型预测的方差。

模型验证阶段的目标是多方面的。

模型集成步骤包括2个主要的活动:1)构建运行模型的基础架构(系统工程),2)可以使用和支持的形式来实现模型(机器学习的领域)。

- TBC -

你可能感兴趣的:(人工智能项目开发实战(上))