作者:Mobarak Inuwa翻译:欧阳锦
校对:赵茹萱
本文约2800字,建议阅读10分钟本文讨论了泛化在机器学习模型中的必要性。
标签:初学者,深度学习,机器学习,数据挖掘
本文作为数据科学博客马拉松(https://analyticsvidhya.com/blogathon)的一部分发表。
介绍
机器学习模型的泛化是指模型对新数据进行分类或预测的能力。当我们在数据集上训练模型并为其提供训练集中缺少的新数据时,它可能会表现良好。这样的模型是可推广的。它不需要在所有的数据类型上行动,而是在类似的领域或数据集上行动。
泛化学习
两个模型可能分别从两个不同的问题领域学习,并在采用相同变量和约束行为时独立学习。
最初,泛化的结果是模型建立中的失误或仅仅是巧合。而在现在的模型中,泛化反而成为一种优势,应该被控制和最大化。一个泛化的模型可以通过从头开始重新训练新模型来节省生产成本。如果一个模型能够进行预测,那么它的开发就是为了有效地进行预测;没有人不想要一个能够预测另一个问题的模型。每个工程师和研究人员都应该考虑如何能够使一个模型具有可泛化性。
什么是未见过的数据?
了解什么是未见过的数据是很重要的。未见过的数据对模型来说就是新的数据,它们不是训练的一部分。模型在它们以前见过的观察上表现得更好。为了获得更多的好处,我们应该尝试建立即使在未见过的数据上也能表现的模型。
泛化的好处
有时候,泛化可以是一个提高性能的过程。在深度学习中,模型可以分析和理解数据集中存在的模式。他们也很容易出现过拟合。使用泛化技术,可以管理这种过拟合,使模型不会过于严格。它可以协助深度学习来预测一个以前没有见过的模式。泛化代表了一个模型在训练集上被训练后,如何对新的数据做出正确的预测。
深度学习清楚地显示了使用泛化的好处。它成为一种复杂的能力,因为我们不希望通过塞满图像来训练模型,这样当模型遇到一个不在压缩内存中的图像时,它就会失败。我们希望训练好的模型在面对一个不在通用集里的图像时表现良好。
100%的准确率可能意味着所有的图像都被压缩得很好。遇到一张外面的图片,模型就会失败。一个好的模型将能够更普遍地处理图片。泛化技术应该确保在深度学习模型的训练中不会出现过度拟合。
各种方法可以分为以数据为中心和以模型为中心的泛化技术。它们确保模型被训练成可以泛化验证数据集,并从训练数据中找到模式。
模型泛化的要素
由于泛化更具优势,因此有必要在模型的设计周期中查看一些可能影响泛化的因素。
以算法/模型为中心的方法的性质
所有的模型都有不同的行为。它们处理数据以及优化性能的方法是不同的。决策树是非参数化的,导致它们容易出现过拟合。为了解决模型的泛化问题,应该有意考虑算法的性质。有时,模型的表现伴随着高复杂性。当它们很复杂时,过拟合就变得很容易。可以使用模型正则化来创造一个平衡,以实现泛化并避免过度拟合。对于深度网络来说,通过减少权重数量或网络参数(即权重值)来改变网络结构,可以起到一定的作用。
数据集的性质
另一个方面是用于训练的数据集。有时数据集过于统一。他们彼此之间的差异很小。自行车的数据集可能过于统一,不能被用来检测摩托车。为了实现一个通用的机器学习模型,数据集应该包含多样性。应该增加不同的可能样本以拓展范围。这有助于模型的训练,以达到最佳的泛化效果。在训练过程中,我们可以使用交叉验证技术,例如K-fold。即使在以泛化为目标时,这对于了解我们模型的意义也是必要的。
模型的非泛化
可以看出,模型不需要泛化。模型应该只做它们被严格期望做的事情。这可能是也可能不是最好的。我可能希望我在摩托车图像上训练的模型能够识别所有类似的车辆,包括自行车甚至是轮椅。这可能是非常强大的。在另一个应用中则相反,我们可能希望我们用摩托车训练的模型能够严格地识别摩托车。它不应该识别自行车。也许我们想计算停车场里的摩托车,而不是自行车。
利用上述影响泛化的因素,我们可以决定并控制何时需要或不需要泛化。由于泛化可能包含风险,因此,如果手段可用,非泛化应该被高度优化。如果手段可用,应该为自行车开发一个新模型,为轮椅开发另一个模型。在时间和数据集等资源较少的情况下,可以利用泛化技术。
非泛化/泛化和模型的过度拟合
非泛化与过拟合条件最为密切相关。当一个模型是非泛化的,它可能与过拟合有关。如果过拟合能够得到解决,泛化就更容易实现。我们不想要过拟合的模型--一个已经学会了训练数据集的模型,但是对其他方面一无所知。它在训练数据集上表现良好,但在新的输入上却表现不佳。另一种情况是欠拟合模型。这将是一个不了解问题的模型,在训练数据集上表现不佳,在新的输入上也没有表现。我们也不希望这样。另一种情况是良好拟合模型。这就像机器学习中的一个普通图。该模型适当地学习了训练数据集,并将其概括到新的输入。
当我们想要一个可以泛化的模型时,一个良好的拟合度是我们需要的目标。
欠拟合,最佳模型和过拟合
偏差和方差对概括性的影响
对模型的概括性有影响的其他因素是方差和偏差。模型分析数据,在数据中找到模式并进行预测。在训练过程中,它学习数据集中的模式,并在测试过程中使用这些模式来进行预测,而预测的准确度是经过衡量的。在预测过程中,由于偏差,预测值和实际值之间的对比是错误的。一个高偏差的模型不能进行泛化。
方差告诉我们一个变量与它的预期值有多大差别。我们做一个随机变量,并将其与我们对它的预期进行比较。预计模型相对来说不会变化太大。模型应该能够理解输入和输出之间的隐藏映射。低方差显示预测中的小偏差,而高方差显示目标函数的预测中的大偏差。
一个显示出高方差的模型在未见过的数据集上是不能泛化的。这意味着在开发能够很好地泛化的模型时,必须将方差水平处理得很低。
错误 v 模型的复杂性
结论
我们已经深入了解了泛化的概念,它描述了一个模型对来自与模型初始数据集相同分布的新鲜的、从未见过的数据的反应。非泛化则是相反的情况。数据集和算法是影响泛化能力的因素。我们形成了对过度拟合的感觉,以及它与磁盘主题的关系。简单地说,方差是模型预测的变化能力,或者 ML 函数可能根据输入数据集发生变化的程度。具有许多特征和高度复杂性的模型是方差的来源。高偏差模型将具有最小方差。最后,具有低偏差的模型将具有不会泛化的高方差。
要点:
机器学习模型的泛化被定义为一个模型对新数据进行分类或预测的能力。
最初,泛化是由于模型构建中的失误或单纯的巧合而产生的。在今天的模型中,它被认为是一种优势,应该被最大化和控制。
未见过的数据对模型来说是新的数据,不属于训练的一部分。模型在它们以前见过的观察上表现得更好。为了获得更多的好处,我们应该尝试拥有即使在未见过的数据上也能表现的模型。
使用泛化技术,如正则化,可以管理过度拟合,使模型不会过于严格。
算法的性质/以模型为中心的方法和数据集的性质是泛化的两个因素。
原文标题:Non-Generalization and Generalization of Machine learning Models
原文链接:https://www.analyticsvidhya.com/blog/2022/10/non-generalization-and-generalization-of-machine-learning-models/
编辑:黄继彦
校对:杨学俊
译者简介
欧阳锦,一名在埃因霍温理工大学就读的硕士生。喜欢数据科学和人工智能相关方向。欢迎不同观点和想法的交流与碰撞,对未知充满好奇,对热爱充满坚持。
翻译组招募信息
工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。
点击文末“阅读原文”加入数据派团队~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”拥抱组织