胖鸟不会飞

深度学习性能提升的诀窍 How To Improve Deep Learning Performance

原文： How To Improve Deep Learning Performance
作者： Jason Brownlee
翻译： KK4SBB 责编：何永灿

克服过拟合和提高泛化能力的20条技巧和诀窍

你是如何提升深度学习模型的效果？
这是我经常被问到的一个问题。
有时候也会换一种问法：
我该如何提高模型的准确率呢？
……或者反过来问：
如果我的网络模型效果不好，我该怎么办？
通常我的回答是“具体原因我不清楚，但我有一些想法可以试试”。
然后我会列举一些我认为能够提升性能的方法。
为了避免重复罗列这些内容，我打算在本文中把它们都写出来。
这些想法不仅可以用于深度学习，事实上可以用在任何机器学习的算法上。

如何提升深度学习的性能
Pedro Ribeiro Simoes拍摄

提升算法性能的想法

这个列表并不完整，却是很好的出发点。
我的目的是给大家抛出一些想法供大家尝试，或许有那么一两个有效的方法。
往往只需要尝试一个想法就能得到提升。
如果你用下面某一种想法取得了好效果，请在评论区给我留言！
如果你还有其它想法或是对这些想法有拓展，也请告诉大家，或许会对我们大家有帮助！
我把这个列表划分为四块：

从数据上提升性能
从算法上提升性能
从算法调优上提升性能
从模型融合上提升性能

性能提升的力度按上表的顺序从上到下依次递减。举个例子，新的建模方法或者更多的数据带来的效果提升往往好于调出最优的参数。但这并不是绝对的，只是大多数情况下如此。
我在文章中添加了不少博客教程和相关的经典神经网络问题。
其中有一些想法只是针对人工神经网络，但大多数想法都是通用性的。你可以将它们与其它技术结合起来使用。
我们开始吧。

1.从数据上提升性能

调整训练数据或是问题的抽象定义方法可能会带来巨大的效果改善。甚至是最显著的改善。
下面是概览：

收集更多的数据
产生更多的数据
对数据做缩放
对数据做变换
特征选择
重新定义问题

1）收集更多的数据

你还能收集到更多的训练数据吗？
你的模型的质量往往取决于你的训练数据的质量。你需要确保使用的数据是针对问题最有效的数据。
你还希望数据尽可能多。
深度学习和其它现代的非线性机器学习模型在大数据集上的效果更好，尤其是深度学习。这也是深度学习方法令人兴奋的主要原因之一。
请看下面的图片：

什么是深度学习？
幻灯片来自Andrew Ng

不总是数据阅读效果越好，多数情况下如此。如果让我选择，我会选择要更多的数据。
相关阅读：

数据集压倒算法

2) 产生更多的数据

深度学习算法往往在数据量大的时候效果好。
我们在上一节已经提到过这一点。
如果由于某些原因你得不到更多的数据，也可以制造一些数据。

如果你的数据是数值型的向量，那么随机生成已有向量的变形向量。
如果你的数据是图像，用已有的图像随机生成相似图像。
如果你的数据是文本，做法你懂得……

这类做法通常被称为数据扩展或是数据生成。
你可以使用生成模型，也可以用一些简单的小技巧。
举个例子，若是用图像数据，简单地随机选择和平移已有的图像就能取得很大的提升。它能提升模型的泛化能力，如果新的数据中包含这类变换就能得到很好的处理。
有时候是往数据中增加噪声，这相当于是一种规则方法，避免过拟合训练数据。
相关阅读：

深度学习中的图像数据扩充
训练含有噪声的数据

3) 对数据做缩放

此方法简单有效。
使用神经网络模型的一条经验法宝就是：
将数据缩放到激活函数的阈值范围。
如果你使用sigmoid激活函数，将数据缩放到0~1之间。如果选用tanh激活函数，将值域控制在-1~1之间。
输入、输出数据都经过同样的变换。比如，如果在输出层有一个sigmoid函数将输出值转换为二值数据，则将输出的y归一化为二进制。如果选用的是softmax函数，对y进行归一化还是有效的。
我还建议你将训练数据扩展生成多个不同的版本：

归一化到0 ~ 1
归一化到-1 ~ 1
标准化

然后在每个数据集上测试模型的性能，选用最好的一组生成数据。
如果更换了激活函数，最好重复做一次这个小实验。
在模型中不适合计算大的数值。此外，还有许多其它方法来压缩模型中的数据，比如对权重和激活值做归一化，我会在后面介绍这些技巧。
相关阅读：

我需要对输入数据（列向量）做标准化吗?
如何用Scikit-Learn准备机器学习的输入数据

4）对数据做变换

与上一节的方法相关，但是需要更多的工作量。
你必须真正了解所用到的数据。数据可视化，然后挑出异常值。
先猜测每一列数据的分布

这一列数据是不是倾斜的高斯分布，若是如此，尝试用Box-Cox方法纠正倾斜
这一列数据是不是指数分布，若是如此，则进行对数变换
这一列数据是不是存在某些特性，但是难以直观地发现，尝试一下对数据平方或者开方
是否可以将特征离散化，以便更好地强调一些特征

凭你的直觉，尝试几种方法

是否可以用投影的方法对数据预处理，比如PCA？
是否可以将多个属性合并为单个值？
是否可以发掘某个新的属性，用布尔值表示？
是否可以在时间尺度或是其它维度上有些新发现？

神经网络有特征学习的功能，它们能够完成这些事情。
不过你若是可以将问题的结构更好地呈现出来，网络模型学习的速度就会更快。
在训练集上快速尝试各种变换方法，看看哪些方法有些，而哪些不起作用。
相关阅读：

如何定义你的机器学习问题
特征挖掘工程，如何构造特征以及如何提升
如何用Scikit-Learn准备机器学习的输入数据

5）特征选择

神经网络受不相关数据的影响很小。
它们会对此赋予一个趋近于0的权重，几乎忽略此特征对预测值的贡献。
你是否可以移除训练数据的某些属性呢？
我们有许多的特征选择方法和特征重要性方法来鉴别哪些特征可以保留，哪些特征需要移除。
动手试一试，试一试所有的方法。
如果你的时间充裕，我还是建议在相同的神经网络模型上选择尝试多个方法，看看它们的效果分别如何。

也许用更少的特征也能得到同样的、甚至更好的效果。
也许所有的特征选择方法都选择抛弃同一部分特征属性。那么就真应该好好审视这些无用的特征。
也许选出的这部分特征给你带来了新的启发，构建出更多的新特征。

相关阅读：

特征选择入门介绍
基于Python的机器学习中的特征选择问题

6) 问题重构

在回到你问题的定义上来。
你所收集到的这些观测数据是描述问题的唯一途径吗？
也许还有其它的途径。也许其它途径能更清晰地将问题的结构暴露出来。
我自己非常喜欢这种练习，因为它强迫我们拓宽思路。很难做好。尤其是当你已经投入大量的时间、精力、金钱在现有的方法上。
即使你列举了3 ~ 5种不同的方式，至少你对最后所选用的方式有充足的信心。

也许你可以将时间元素融入到一个窗口之中
也许你的分类问题可以转化为回归问题，反之亦然
也许可以把二值类型的输出转化为softmax的输出
也许你可以对子问题建模

深入思考问题是一个好习惯，最好在选择工具下手之前先完成上述步骤，以减少无效的精力投入。
无论如何，如果你正束手无策，这个简单的连续能让你思如泉涌。
另外，你也不必抛弃前期的大量工作，详情可以参见后面的章节。

相关阅读：

如何定义机器学习问题

2. 从算法上提升性能

机器学习总是与算法相关。
所有的理论和数学知识都在描述从数据中学习决策过程的不同方法（如果我们这里仅讨论预测模型）。
你选用深度学习来求解，它是不是最合适的技术呢？
在这一节中，我们会简单地聊一下算法的选择，后续内容会具体介绍如何提升深度学习的效果。
下面是概览：

算法的筛选
从文献中学习
重采样的方法

我们一条条展开。

1）算法的筛选

你事先不可能知道哪种算法对你的问题效果最好。
如果你已经知道，你可能也就不需要机器学习了。
你有哪些证据可以证明现在已经采用的方法是最佳选择呢？
我们来想想这个难题。
当在所有可能出现的问题上进行效果评测时，没有哪一项单独的算法效果会好于其它算法。所有的算法都是平等的。这就是天下没有免费的午餐理论的要点。

也许你选择的算法并不是最适合你的问题。
现在，我们不指望解决所有的问题，但当前的热门算法也许并不适合你的数据集。
我的建议是先收集证据，先假设有其它的合适算法适用于你的问题。
筛选一些常用的算法，挑出其中适用的几个。

尝试一些线性算法，比如逻辑回归和线性判别分析
尝试一些树模型，比如CART、随机森林和梯度提升
尝试SVM和kNN等算法
尝试其它的神经网络模型，比如LVQ、MLP、CNN、LSTM等等

采纳效果较好的几种方法，然后精细调解参数和数据来进一步提升效果。
将你所选用的深度学习方法与上述这些方法比较，看看是否能击败他们？
也许你可以放弃深度学习模型转而选择更简单模型，训练的速度也会更快，而且模型易于理解。
相关阅读：

一种数据驱动的机器学习方法
面对机器学习问题为何需要筛选算法
用scikit-learn筛选机器学习的分类算法

2）从文献中学习

从文献中“窃取”思路是一条捷径。
其它人是否已经做过和你类似的问题，他们使用的是什么方法。
阅读论文、书籍、问答网站、教程以及Google给你提供的一切信息。
记下所有的思路，然后沿着这些方向继续探索。
这并不是重复研究，这是帮助你发现新的思路。

优先选择已经发表的论文
已经有许许多多的聪明人写下了很多有意思的事情。利用好这宝贵的资源吧。
相关阅读：

如何研究一种机器学习算法
Google学术

3）重采样的方法

你必须明白自己模型的效果如何。
你估计的模型效果是否可靠呢？
深度学习模型的训练速度很慢。
这就意味着我们不能用标准的黄金法则来评判模型的效果，比如k折交叉验证。

也许你只是简单地把数据分为训练集和测试集。如果是这样，就需要保证切分后的数据分布保持不变。单变量统计和数据可视化是不错的方法。
也许你们可以扩展硬件来提升效果。举个例子，如果你有一个集群或是AWS的账号，我们可以并行训练n个模型，然后选用它们的均值和方差来获取更稳定的效果。
也许你可以选择一部分数据做交叉验证（对于early stopping非常有效）。
也许你可以完全独立地保留一部分数据用于模型的验证。

另一方面，也可以让数据集变得更小，采用更强的重采样方法。

也许你会看到在采样后的数据集上训练得到的模型效果与在全体数据集上训练得到的效果有很强的相关性。那么，你就可以用小数据集进行模型的选择，然后把最终选定的方法应用于全体数据集上。
也许你可以任意限制数据集的规模，采样一部分数据，用它们完成所有的训练任务。

你必须对模型效果的预测有十足的把握。
相关阅读：

用Keras评估深度学习模型的效果
用重采样的方法评估机器学习算法的效果

3. 从算法调优上提升性能

你通过算法筛选往往总能找出一到两个效果不错的算法。但想要达到这些算法的最佳状态需要耗费数日、数周甚至数月。
下面是一些想法，在调参时能有助于提升算法的性能。

模型可诊断性
权重的初始化
学习率
激活函数
网络结构
batch和epoch
正则项
优化目标
提早结束训练

你可能需要指定参数来多次（3-10次甚至更多）训练模型，以得到预计效果最好的一组参数。对每个参数都要不断的尝试。
有一篇关于超参数最优化的优质博客：

如何用Keras网格搜索深度学习模型的超参数

1）可诊断性

只有知道为何模型的性能不再有提升了，才能达到最好的效果。
是因为模型过拟合呢，还是欠拟合呢？
千万牢记这个问题。千万。
模型总是处于这两种状态之间，只是程度不同罢了。
一种快速查看模型性能的方法就是每一步计算模型在训练集和验证集上的表现，将结果绘制成图表。

在训练集和验证集上测试模型的准确率

如果训练集的效果好于验证集，说明可能存在过拟合的现象，试一试增加正则项
如果训练集和验证集的准确率都很低，说明可能存在欠拟合，你可以继续提升模型的能力，延长训练步骤。
如果训练集和验证集的曲线有一个焦点，可能需要用到early stopping的技巧了

经常绘制类似的图表，深入研究并比较不同的方法，以提高模型的性能。

这些图表也许是你最有价值的诊断工具。
另一种有效的诊断方法是研究模型正确预测或是错误预测的样本。
在某些场景下，这种方法能给你提供一些思路。

也许你需要更多的难预测的样本数据
也许你可以从训练集中删去那些容易被学习的样本
也许你可以有针对性地对不同类型的输入数据训练不同的模型

相关阅读：

用Keras展现深度学习模型的训练过程
机器学习算法的过拟合和欠拟合

2）权重的初始化

有一条经验规则：用小的随机数初始化权重。
事实上，这可能已经足够了。但是这是你网络模型的最佳选择吗？
不同的激活函数也可以有不同的应对策略，但我不记得在实践中存在什么显著的差异。
保持你的模型结构不变，试一试不同的初始化策略。
记住，权重值就是你模型需要训练的参数。几组不同的权重值都能取得不错的效果，但你想得到更好的效果。

尝试所有的初始化方法，找出最好的一组初始化值
试一试用非监督式方法预学习，比如自动编码机
尝试用一组现有的模型权重参数，然后重新训练输入和输出层（迁移学习）

记住，修改权重初始化值的方法与修改激活函数或者目标函数的效果相当。
相关阅读：

深度网络模型的初始化

3）学习率

调节学习率也能带来效果提升。
这里也有一些探索的思路：

尝试非常大、非常小的学习率
根据参考文献，在常规值附近用网格化搜索
尝试使用逐步减小的学习率
尝试每隔固定训练步骤衰减的学习率
尝试增加一个向量值，然后用网格搜索

大的网络模型需要更多的训练步骤，反之亦然。如果你添加了更多的神经节点和网络层，请加大学习率。
学习率与训练步骤、batch大小和优化方法都有耦合关系。

相关阅读：

使用Keras对深度学习模型进行学习率调节
反向传播算法该选用什么学习率？

4）激活函数

也许你应该选用ReLU激活函数。
仅仅因为它们的效果更好。
在ReLU之前流行sigmoid和tanh，然后是输出层的softmax、线性和sigmoid函数。除此之外，我不建议尝试其它的选择。
这三种函数都试一试，记得把输入数据归一化到它们的值域范围。
显然，你需要根据输出内容的形式选择转移函数。
比方说，将二值分类的sigmoid函数改为回归问题的线性函数，然后对输出值进行再处理。同时，可能需要调整合适的损失函数。在数据转换章节去寻找更多的思路吧。
相关阅读：

为何使用激活函数？

5）网络拓扑结构

调整网络的拓扑结构也会有一些帮助。
你需要设计多少个节点，需要几层网络呢？
别打听了，鬼知道是多少。
你必须自己找到一组合理的参数配置。

试一试加一层有许多节点的隐藏层（拓宽）
试一试一个深层的神经网络，每层节点较少（纵深）
尝试将上面两种组合
尝试模仿近期发表的问题类似的论文
尝试拓扑模式和书本上的经典技巧（参考下方的链接）

这是一个难题。越大的网络模型有越强的表达能力，也许你就需要这样一个。
更多晨的结构提供了抽象特征的更多结构化组合的可能，也许你也需要这样一个网络。
后期的网络模型需要更多的训练过程，需要不断地调节训练步长和学习率。
相关阅读：
下面的链接可能给你提供一些思路：

我的网络模型该设计几层呢？
我的网络模型该设计几个节点呢？

6） batch和epoch

batch的大小决定了梯度值，以及权重更新的频率。一个epoch指的是训练集的所有样本都参与了一轮训练，以batch为序。
你尝试过不同的batch大小和epoch的次数吗？
在前文中，我们已经讨论了学习率、网络大小和epoch次数的关系。
深度学习模型常用小的batch和大的epoch以及反复多次的训练。
这或许对你的问题会有帮助。

尝试将batch大小设置为全体训练集的大小（batch learning）
尝试将batch大小设置为1（online learning）
用网格搜索尝试不同大小的mini-batch（8，16，32，…）
尝试再训练几轮epoch，然后继续训练很多轮epoch

尝试设置一个近似于无限大的epoch次数，然后快照一些中间结果，寻找效果最好的模型。
有些模型结构对batch的大小很敏感。我觉得多层感知器对batch的大小很不敏感，而LSTM和CNN则非常敏感，但这都是仁者见仁。

相关阅读：

什么是批量学习、增量学习和在线学习？
直觉上，mini-batch的大小如何影响（随机）梯度下降的效果？

7）正则项

正则化是克服训练数据过拟合的好方法。
最近热门的正则化方法是dropout，你试过吗？
Dropout方法在训练过程中随机地略过一些神经节点，强制让同一层的其它节点接管。简单却有效的方法。

权重衰减来惩罚大的权重值
激活限制来惩罚大的激活函数值

尝试用各种惩罚措施和惩罚项进行实验，比如L1、L2和两者之和。
相关阅读：

使用Keras对深度学习模型做dropout正则化
什么是权值衰减？

8）优化方法和损失函数

以往主要的求解方法是随机梯度下降，然而现在有许许多多的优化器。
你尝试过不同的优化策略吗？
随机梯度下降是默认的方法。先用它得到一个结果，然后调节不同的学习率、动量值进行优化。
许多更高级的优化方法都用到更多的参数，结构更复杂，收敛速度更快。这取决于你的问题，各有利弊吧。
为了压榨现有方法的更多潜力，你真的需要深入钻研每个参数，然后用网格搜索法测试不同的取值。过程很艰辛，很花时间，但值得去尝试。
我发现更新/更流行的方法收敛速度更快，能够快速了解某个网络拓扑的潜力，例如：

ADAM
RMSprop

你也可以探索其它的优化算法，例如更传统的算法（Levenberg-Marquardt）和比较新的算法（基因算法）。其它方法能给SGD创造好的开端，便于后续调优。
待优化的损失函数则与你需要解决的问题更相关。
不过，也有一些常用的伎俩（比如回归问题常用MSE和MAE），换个损失函数有时也会带来意外收获。同样，这可能也与你输入数据的尺度以及所使用的激活函数相关。
相关阅读：

梯度下降优化算法概览
什么是共轭梯度和Levenberg-Marquardt？
深度学习的优化方法，2011

9） Early Stopping

你可以在模型性能开始下降的时候停止训练。
这帮我们节省了大量时间，也许因此就能使用更精细的重采样方法来评价模型了。
early stopping也是防止数据过拟合的一种正则化方法，需要你在每轮训练结束后观察模型在训练集和验证集上的效果。
一旦模型在验证集上的效果下降了，则可以停止训练。
你也可以设置检查点，保存当时的状态，然后模型可以继续学习。
相关阅读：

如何在Keras给深度学习模型设置check-point
什么是early stopping？

4. 用融合方法提升效果

你可以将多个模型的预测结果融合。
继模型调优之后，这是另一个大的提升领域。
事实上，往往将几个效果还可以的模型的预测结果融合，取得的效果要比多个精细调优的模型分别预测的效果好。
我们来看一下模型融合的三个主要方向：

模型融合
视角融合
stacking

1）模型融合

不必挑选出一个模型，而是将它们集成。
如果你训练了多个深度学习模型，每一个的效果都不错，则将它们的预测结果取均值。
模型的差异越大，效果越好。举个例子，你可以使用差异很大的网络拓扑和技巧。
如果每个模型都独立且有效，那么集成后的结果效果更稳定。
相反的，你也可以反过来做实验。
每次训练网络模型时，都以不同的方式初始化，最后的权重也收敛到不同的值。多次重复这个过程生成多个网络模型，然后集成这些模型的预测结果。
它们的预测结果会高度相关，但对于比较难预测的样本也许会有一点提升。
相关阅读：

用scikit-learn集成机器学习算法
如何提升机器学习的效果

2）视角融合

如上一节提到的，以不同的角度来训练模型，或是重新刻画问题。
我们的目的还是得到有用的模型，但是方式不同（如不相关的预测结果）。
你可以根据上文中提到的方法，对训练数据采取完全不同的缩放和变换技巧。
所选用的变化方式和问题的刻画角度差异越大，效果提升的可能性也越大。
简单地对预测结果取均值是一个不错的方式。

3）stacking

你还可以学习如何将各个模型的预测结果相融合。
这被称作是stacked泛化，或者简称为stacking。
通常，可以用简单的线性回归的方式学习各个模型预测值的权重。
把各个模型预测结果取均值的方法作为baseline，用带权重的融合作为实验组。

Stacked Generalization (Stacking)

总结

各抒己见吧

补充资料

还有一些非常好的资料，但没有像本文这么全面。
我在下面列举了一些资料和相关的文章，你感兴趣的话可以深入阅读。

神经网络常见问答
如何用网格搜索法求解深度学习模型的超参数
深度神经网络必知的技巧
如何提升深度神经网络的验证准确率？

如果你知道其它的好资源，欢迎留言。

你可能感兴趣的:(deep,learning)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
联邦学习 Federated learning Google I/O‘19 笔记努力搬砖的星期五笔记联邦学习机器学习机器学习 tensorflow
FederatedLearning:MachineLearningonDecentralizeddatahttps://www.youtube.com/watch?v=89BGjQYA0uE文章目录FederatedLearning:MachineLearningonDecentralizeddata1.DecentralizeddataEdgedevicesGboard:mobilekeyboa
PCL 怎样可视化深度图像 LeonDL168 PCL 计算机视觉人工智能视觉检测图像处理算法
本小节讲解如何可视化深度图像的两种方法，在3D视窗中以点云形式进行可视化（深度图像来源于点云），另一种是，将深度值映射为颜色，从而以彩色图像方式可视化深度图像。代码首先，在PCL（PointCloudLearning）中国协助发行的书提供光盘的第7章例2文件夹中，打开名为range_image_visualization.cpp的代码文件，同文件夹下可以找到相关的测试点云文件room_scan1.
el-dialog高度设置夏之小星星前端 vue.js elementui css
el-dialog高度设置::v-deep.el-dialog{height:78vh;overflow:auto;}
elementuiPlus取消el-input的边框 qq_39016177 elementui
elementuiPlus取消el-input的边框1.通常取消边框的方法设置border为none2.还有其他类似边框的例如outlinebox-shadow这两个属性都是会产生边框效果3.el-input需要更改的话–如下需要修改box-shadow为空即可上代码:deep(.el-input__wrapper){align-items:center;background-color:#F7F
【双语新闻】AGI安全与对齐，DeepMind近期工作曲奇人工智能安全 agi 安全 llama 人工智能
我们想与AF社区分享我们最近的工作总结。以下是关于我们正在做什么，为什么会这么做以及我们认为它的意义所在的一些详细信息。我们希望这能帮助人们从我们的工作基础上继续发展，并了解他们的工作如何与我们相关联。byRohinShah,SebFarquhar,AncaDragan21stAug2024AIAlignmentForumWewantedtosharearecapofourrecentoutput
Awesome TensorFlow weixin_30594001 人工智能移动开发大数据
AwesomeTensorFlowAcuratedlistofawesomeTensorFlowexperiments,libraries,andprojects.Inspiredbyawesome-machine-learning.WhatisTensorFlow?TensorFlowisanopensourcesoftwarelibraryfornumericalcomputationusin
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
综述论文“A Survey of Zero-Shot Learning: Settings, Methods, and Applications” 硅谷秋水机器学习机器学习神经网络深度学习
该零样本学习综述，发表于ACMTrans.Intell.Syst.Technol.10,2,Article13(January2019)摘要：大多数机器学习方法着重于对已经在训练中看到其类别的实例进行分类。实际上，许多应用程序需要对实例进行分类，而这些实例的类以前没有见过。零样本学习（Zero-ShotLearning）是一种强大而有前途的学习范例，其中训练实例涵盖的类别与想分类的类别是不相交的。
机器学习 VS 表示学习 VS 深度学习 Efred.D 人工智能机器学习深度学习人工智能
文章目录前言一、机器学习是什么?二、表示学习三、深度学习总结前言本文主要阐述机器学习,表示学习和深度学习的原理和区别.一、机器学习是什么?机器学习(machinelearning),是从有限的数据集中学习到一定的规律,再把学到的规律应用到一些相似的样本集中做预测.机器学习的历史可以追溯到20世纪40年代McCulloch提出的人工神经元网络,目前学界大致把机器学习分为传统机器学习和机器学习两个类别
端到端的自动驾驶论文与代码整理大别山伧父自动驾驶
LearningbyCheatinggithubcodearxivpaperconferenceonrobotlearning最新进展(May2021)Checkoutourlatestfollow-upwork:WorldonRails(2020)Checkoutoursubmissiontothe2020CARLAChallenge!pass
Lt-8 Multithreading yanlingyun0210 java
IntendedLearningOutcomesTounderstandtheconceptofconcurrency.Tounderstandthedifferenceofaprocessandathread.TodefineathreadusingtheThreadclassandRunnableinterface.TocontrolthreadswithvariousThreadmethod
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
[Kaiming]Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification MTandHJ neural networks
文章目录概主要内容PReLUKaiming初始化ForwardcaseBackwardcaseHeK,ZhangX,RenS,etal.DelvingDeepintoRectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification[C].internationalconferenceoncomputervision,2015:1
深度神经网络详解：原理、架构与应用阿达C 活动 dnn 计算机网络人工智能神经网络机器学习深度学习
深度神经网络（DeepNeuralNetwork，DNN）是机器学习领域中最为重要和广泛应用的技术之一。它模仿人脑神经元的结构，通过多层神经元的连接和训练，能够处理复杂的非线性问题。在图像识别、自然语言处理、语音识别等领域，深度神经网络展示了强大的性能。本文将深入解析深度神经网络的基本原理、常见架构及其实际应用。一、深度神经网络的基本原理1.1神经元和感知器神经元是深度神经网络的基本组成单元。一个
前端开发需要了解的算法知识史努比的大头算法前端
手写深拷贝functiondeepClone(obj){//处理基础数据类型和函数if(obj===null||typeofobj!=='object'){returnobj;}//处理数组if(Array.isArray(obj)){returnobj.map(item=>deepClone(item));}//处理对象constclonedObj={};for(constkeyinobj){i
推荐开源项目：PyTorch-Metric-Learning 潘惟妍
推荐开源项目：PyTorch-Metric-Learningpytorch-metric-learningTheeasiestwaytousedeepmetriclearninginyourapplication.Modular,flexible,andextensible.WritteninPyTorch.项目地址:https://gitcode.com/gh_mirrors/py/pytorc
推荐：FastAPI驱动的稳定扩散LLMs演示项目褚知茉Jade
推荐：FastAPI驱动的稳定扩散LLMs演示项目FastAPI-for-Machine-Learning-Live-DemoThisrepositorycontainsthefilestobuildyourveryownAIimagegenerationwebapplication!OutlinedarethecorecomponentsoftheFastAPIwebframework,anda
【python】【Ray的概述】资源存储库 python 开发语言
Overview概述Rayisanopen-sourceunifiedframeworkforscalingAIandPythonapplicationslikemachinelearning.Itprovidesthecomputelayerforparallelprocessingsothatyoudon’tneedtobeadistributedsystemsexpert.Rayminimi
什么是监督学习（Supervised Learning）救救孩子把 AI AI 学习
一、监督学习概述监督学习（SupervisedLearning）是一种极具威力的机器学习方法，能够训练算法以识别数据中的模式，并据此进行精准的预测或分类。借助已有的标记数据，监督学习模型学会了从输入到输出的映射关系，进而在各类实际问题中实现自动化决策。无论是医疗诊断、金融市场分析、客户行为预测，还是提升生产效率以及个性化推荐系统等领域，监督学习都彰显出巨大的潜力与价值。随着技术的持续进步，监督学习
LLM系列(4)：通义千问7B在Swift/DeepSpeed上微调秘诀与实战陷阱避坑指南汀、人工智能 LLM工业级落地实践人工智能自然语言处理 prompt Swifi DeepSpeed 通义千问 Qwen
LLM系列(4)：通义千问7B在Swift/DeepSpeed上微调秘诀与实战陷阱避坑指南阿里云于2023年8月3日开源通义千问70亿参数模型，包括通用模型Qwen-7B以及对话模型Qwen-7B-Chat，这也是国内首个开源自家大模型的大厂。在诸多权威大模型能力测评基准上，如MMLU、C-Eval、GSM8K、HumanEval、WMT22，通义千问7B均取得了同参数级别开源模型中的最好表现，
使用3DUNet训练自己的数据集（pytorch）— 医疗影像分割编程日记✧ 智能医疗 pytorch 人工智能 python 计算机视觉图像处理深度学习健康医疗
代码：lee-zq/3DUNet-Pytorch:3DUNetimplementedwithpytorch(github.com)文章<cicek16miccai.pdf(uni-freiburg.de)3DU-Net:LearningDenseVolumetricSegmentation
探索任务的隐秘世界：推荐Task2Vec 邓越浪Henry
探索任务的隐秘世界：推荐Task2Vecaws-cv-task2vecOfficialcodeforthepaper"Task2Vec:TaskEmbeddingforMeta-Learning"(https://arxiv.org/abs/1902.03545,ICCV2019)项目地址:https://gitcode.com/gh_mirrors/aw/aws-cv-task2vec在机器学习
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

深度学习性能提升的诀窍 How To Improve Deep Learning Performance

提升算法性能的想法

1.从数据上提升性能

1）收集更多的数据

2) 产生更多的数据

3) 对数据做缩放

4） 对数据做变换

5） 特征选择

6) 问题重构

2. 从算法上提升性能

1） 算法的筛选

2） 从文献中学习

3） 重采样的方法

3. 从算法调优上提升性能

1） 可诊断性

2） 权重的初始化

3） 学习率

4） 激活函数

5） 网络拓扑结构

6） batch和epoch

7） 正则项

8） 优化方法和损失函数

9） Early Stopping

4. 用融合方法提升效果

1） 模型融合

2） 视角融合

3）stacking

总结

补充资料

你可能感兴趣的:(deep,learning)

4）对数据做变换

5）特征选择

1）算法的筛选

2）从文献中学习

3）重采样的方法

1）可诊断性

2）权重的初始化

3）学习率

4）激活函数

5）网络拓扑结构

7）正则项

8）优化方法和损失函数

1）模型融合

2）视角融合