qq_45947498

网络优化与正则化学习

完整的xmind脑图
本文的参考书《神经网络与深度学习》PDF

1、网络优化

1.1、高维变量的非凸优化

低维空间的非凸优化问题问题主要是存在一些局部最优点
- 基于梯度下降的优化方法会陷入局部最优点，因此在低维空间中非凸优化问题的主要难点是如何选择初始化参数和逃离局部最优点
- 局部最小值要求在每一维度上都是最小值
在高维空间中，非凸优化难点在于如何逃离鞍点
- 鞍点的梯度为0，在一些维度上是最高点，一些维度上是最低点
- 基于梯度下降的优化方法很难从鞍点中逃离，可通过梯度方向上引入随机性，可以有效地逃离鞍点
平坦最小值
- 导致损失函数在局部最小解附近通常是一个平坦的区域
  - 当模型收到一个平坦最小值时，其鲁棒性会更好，即微小的参数变动不会剧烈影响模型能力
  - 模型收到一个尖锐的局部最小值时，其鲁棒性会比较差
  - 具有良好泛化能力的模型应该是鲁棒的。
  - 在训练神经网络时，我们通常没有必要找到全局最小值，这反而可能导致过拟合

1.2、神经网络优化的改善方法

使用更有效的优化算法来提高梯度下降优化方法的效率和稳定性。比如：动态学习调整、梯度估计修正
使用更好的参数初始化方法、数据预处理方法来提高优化效率
修改网络结构来得到更好的优化地形，比如使用ReLU激活函数、残差连接、逐层归一化
- 优化地形：在高维空间中损失函数的曲面形状。好的优化地形通常比较平滑
使用更好的超参数优化方法

2、优化算法

（1）调整学习率，使得优化更稳定，（2）梯度估计修正，优化训练速度

2.1小批量梯度下降（MBGD）

每次迭代时，我们都随机选取一小部分训练样本来计算梯度并更新参数。
既可以兼顾随机梯度下降法的优点，也可以提高训练效率
影响因素
- （1）批量大小
- （2）学习率
- （3）梯度估计

2.2随机梯度下降法

随机梯度下降法（SGD）
- 每次迭代时只采集一个样本，计算这个样本损失函数的梯度并更新参数
批量梯度下降法（BGD）
- 批量梯度下降法在每次迭代时都需要计算每个样本上损失函数的梯度并求和
- 当训练样本数N很大时，空间复杂度比较高，每次迭代的计算开销也很大

2.3批量大小选择

批量大小不影响随机梯度得期望，但是会影响随机梯度的方差。
- 批量大小越大，随机梯度方差越小，引入的噪声也越小，训练也越稳定，因此可以设置较大的学习率
线性缩放规则
- 使学习率随着批量大小的增大而增大
- 适用于批量大小比较小的时候，当批量大小非常大，线性缩放规则会使训练不稳定
批量大小和模型泛化能力之间的关系
- 批量越大，越有可能收敛到尖锐最小值
- 批量越小，越有可能收敛到平坦最小值

2.4学习率的调整

2.4.1学习率衰减（学习率退火）
- 分段常数衰减（阶梯衰减）
 - 即每经过T1,T2,…Tm次迭代将学习率衰减为原来的a1,a2,…,am倍，其中Tm和am<1,Tm和am为根据经验设置的超参数
- 逆时衰减
- 指数衰减
- 自然指数衰减
- 余弦衰减
2.4.2 学习率预热
- 为了提高训练的稳定性，在最初几轮迭代中，采用比较小的学习率，等梯度下降到一定程度后在恢复到初始学习率
- 逐渐预热
  - 假设预热的迭代次数为′，初始学习率为0，在预热过程中，每次更新的学习率如上图。当预热过程结束，再选择一种学习率衰减方法来逐渐降低学习率．
2.4.3周期性学习率调整
- 当参数处于尖锐最小值附近时，增大学习率有助于逃离尖锐最小值
  - 当参数处于平坦最小值附近时，增大学习率依然有可能在该平坦最小值的吸引域
- 循环学习率
  - 即让学习率在一个区间内周期性地增大和缩小
  - 可以使用线性缩放来调整学习率，成为三角循环学习率
  - 公式p160
- 带热重启的随机梯度下降
  - 利用热重启的方式来替代学习率衰减的方法
  - 学习率每隔一定周期后重新初始化为某个预先设定值，然后逐渐衰减。
  - 每次重启后模型参数不是从头开始优化，而是从重启前的参数基础上继续优化
    - 公式p161
2.4.4 AdaGrad算法
- 它根据自变量在每个维度的梯度值得大小来调整各个维度上得学习率，从而避免统一的学习率难以适应所有维度得问题
- 如果目标函数有关自变量中某个元素的偏导数一直比较大，那么该元素的学习率将下降较快
  - 反之，如果目标函数有关自变量中的某个元素的偏导数一直都较小，那么该元素的学习率将下降较慢
- 学习率在迭代早期下降比较快且当前解依然不佳时，AdaGrad算法在迭代后期由于学习率国小，可能比较难找到一个有用的解
2.4.5 RMSprop算法
- AdaGrad算法的状态变量St是截至时间步t所有小批量随机梯度gt按元素平方和
 - RMSprop算法将这些梯度按元素平方做指数加权移动平均。
 - 具体来说给定超参数0<=r<1,RMSprop算法在时间步>0计算
2.4.6 AdaDelta算法
- AdaDelta算法没有学习率这一超参数

2.5 梯度估计修正

随机梯度下降方法中每次迭代的梯度估计和整个训练集上的最优梯度并不一致，具有一定的随机性
一种有效地缓解梯度估计随机性的方式是通过使用最近一段时间内的平均梯度来代替当前时刻的随机梯度来作为参数更新的方向，从而提高优化速度
2.5.1 动量法
- 用之前积累动量来替代真正的梯度
- 当某个参数在最近一段时间内的方向不一致时，其真实的参数更新幅度变小
  - 相反，在最近一段时间内的梯度方向都一致时，其真实的参数更新幅度变大，其加速作用
2.5.2 Nesterov加速梯度
2.5.3 Adam算法
- Adam算法在RMSprop算法基础上对小批量随机梯度做了指数加权移动平均
- Adam算法使用了动量变量和RMSProp算法中小批量随机梯度按元素平方的指数加权移动平均变量St，并在时间步0将他们中每个元素初始化为0
2.5.4 梯度截断
- 在基于梯度下降的优化过程中，如果梯度突然增大，用大的梯度更新参数反而会导致其远离最优点。
  - 为了避免这种情况，当梯度的模大于一定阈值时，就对梯度进行截断，称为梯度截断
- 梯度截断是一种比较简单的启发方式，把梯度的模限定在一个区间，当梯度的模小于或大于这个区间时就进行截断
  - 截断可分为:
    - 按值截断
      - 在第次迭代时，梯度为，给定一个区间 [, ]，如果一个参数数的梯度小于时，就将其设为；如果大于时，就将其设为．
    - 按模截断
      - 按模截断是将梯度的模截断到一个给定的截断阈值．

2.6 优化算法小结

3、参数初始化

当使用梯度下降发来进行优化网络参数时，参数初始值的选取十分关键，关系到网络的优化效率和泛化能力。

3.1 预训练初始化

预训练初始化通常会提升模型泛化能力的一种解释是预训练任务起到一定的正则化
不同的参数初始化值会收敛到不同的局部最优解
通常情况下，一个已经在大规模数据上训练过的模型可以提供一个好的参数初始值，这种初始化方法称为预训练初始化
预训练模型在目标任务上的学习过程也称为精调

3.2 随机初始化

在线性模型的训练中，我们一般将参数全部初始化为0，但是这在神经网络中会存在一些问题。
- 如果参数都为0，在第一遍前向计算时，所有的隐藏层神经元的激活值都相同
- 在反向传播时，所有权重的更新也都相同，这样会导致隐藏层神经元没有区分性
- 这种现象称为对称权重。为了打破这个平衡，比较好的方式对每个参数都随机初始化，使得不同神经元之间的区分性更好
3.2.1 基于固定方差的参数初始化
- 一种最简单的随机初始化方法是从一个固定均值（通常为0）和方差 ²的分布中采样来生成参数的初始值。
- 基于固定方差的参数初始化方法主要有以下两种
  - （1）高斯分布初始化
    - 使用一个高斯分布(0, ²)对每个参数进行随机初始化．
  - （2）均匀分布初始化
    - 在一个给定的区间[-r,r]内采用均匀分布来初始化
  - 在基于古丁方差的随机初始化方法中，比较关键的是如何设置方差σ²。
    - 如果参数范围取的太小，一是会导致神经元的输出过小，经过多层之后信号慢慢消失
    - 二是还会使得Sigmoid型函数丢失非线性的能力。
3.2.2 基于方差缩放的参数初始化
- 方差缩放
  - 初始化深度网络时，为了缓解梯度消失或爆炸问题，我们尽可能保持每个神经元的输入和输出的方差一致，根据神经元的连接数量来自适应地调整初始化分布的方差
- 3.2.2.1 Xavier初始化
- 3.2.2.2 He初始化
3.2.3 正交初始化
- 正交初始化的具体实现过程可以分为两步
  - （1）用均值为0，方差为1的高斯分布初始化一个矩阵
  - （2）将这个矩阵用奇异值分解得到两个正交矩阵，并使用其中之一作为权重矩阵
- 当在非线性神经网络中应用正交初始化时，通常需要将正交矩阵乘以一个缩放系数ρ

3.3 固定值初始化

对于一些特殊的参数，可以根据经验用一个特殊的固定值来进行初始化。
- 比如偏置（Bias）通常用0来初始化，但是有时可以设置某些经验以提高优化效率。
在LSTM网络的遗忘门在，偏置通常初始化为1或2，使得时序上的梯度变大
对于使用ReLU的神经元，有时偏置设为0.01，使得ReLU神经元在训练初期更容易激活，从而获得一定的梯度来进行误差反向传播。

4、数据预处理

如果一个机器学习算法在缩放全部或部分特征后不影响他的学习和预测，我们就称为该算法具有尺度不变性

比如线性分类器是尺度不变性，而邻近分类器就是尺度敏感的

归一化方法泛指把数据特征转换为相同尺度的方法

最小最大值归一化
- 是一种非常简单的归一化方法，通过缩放将每一个特征的取值范围归一到[0,1]或[-1,1]之间
标准化
- 也叫做Z值归一化，来源于统计上的标准分数。将每一个维特征都调整为均值为0，方差为1.
白化
- 是一种重要的预处理方法，用来降低输入数据特征之间的冗余性。输入数据经过百花处理后，特征之间的相关性较低，并且所有特征具有相同的方差

5、逐层归一化

逐层归一化可以有效提高训练效率的原因有

（1）更好的尺度不变性
- 把每个神经层的输入分布都归一化为标准正太分布，可以使得每个神经层对其输入具有更好得尺度不变性，
（2）更平滑得优化地形
- 逐层归一化一方面可以使得大部分神经层得输入处于不饱和区域，从而让梯度变大，避免梯度消失问题
- 另一方面还可以使得神经网络得优化地形更加平滑，以及使梯度变得更加稳定，从而允许我们使用更大的学习率

尺度不变性可以使得我们更加高效地进行参数初始化以及超参数选择

5.1 批量归一化

具体看书《神经网络与深度学习》p175
批量归一化是对一个中间层的单个神经元进行归一化操作，因此要求小批量样本的数量不能太小，否则难以计算单个神经元的统计系统

5.2 层归一化

具体看书《神经网络与深度学习》p177
是和批量归一化非常类似的方法，和批量归一化不同的是，层归一化是对一个中间层的所有神经元进行归一化

5.3 权重归一化

对神经网络的连接权重进行归一化，通过在参数化方法，将连接权重分解为长度和方向上两种参数
由于在神经网络中权重经常是共享的，权重数量往往比神经元数量少，因此权重归一化的开销会比较小

5.4 局部相应归一化

通常用于基于卷积的图像处理上

6、超参数优化

常见的超参数有以下三类

（1）网络结构包括神经元之间的连接关系、层数、每层的神经元数量、激活函数的类型等
（2）优化参数，包括优化方法、学习率、小批量的样本数量
（3）正则化系数

超参数优化存在的困难

（1）超参数优化是一个组合优化问题，无法像一般参数那样通过梯度下降方法来优化，也没有一种通用有效的优化方法
（2）评估一组超参数配置的时间代价高，导致一些优化方法在超参数优化中难以应用

6.1 网格搜索

一种通过尝试所有超参数的组合来寻址合适一组超参数配置的方法
网格搜索根据这些超参数的不同组合分别训练一个模型，然后测试这些模型在开发集上的性能，选取一组性能最好的配置

6.2 随机搜索

一种在实践中比较有效的改进方法是对超参数进行随机组合，然后选取一个性能最好的配置。

6.3贝叶斯优化

贝叶斯优化是一种自适应的超参数优化方法，根据当前已经实验的超参数组合，来预测下一个可能带来最大收益的组合
一种比较常用的贝叶斯优化方法为时序模型优化具体看书p180

6.4 动态资源分配 p181

最优臂问题，即在给定有限的机会次数下，如何玩这些赌博机并找到收益最大臂
动态资源分配的关键是将有限的资源分配给更有可能带来收益的超参数组合．一种有效方法是逐次减半，将超参数优化看作一种非随机的最优臂问题．
在逐次减半方法中，尝试的超参数配置数量十分关键
- 如果越大，得到最佳配置的机会也越大，但每组配置分到的资源就越少，这样早期的评估结果可能不准确．
- 反之，如果越小，每组超参数配置的评估会越准确，但有可能无法得到最优的配置
- 因此如何设置N是平衡“利用-探索“的一个关键因素。一种改进的方法是HyperBand方法，通过尝试不同的N来选取最优参数

6.5 神经架构搜索

是一个新的比较有前景的研究方向，通过神经网络自动实现网络架构的设计。
一个神经网络的架构可以用一个变长的字符串来描述．利用元学习的思想，神经架构搜索利用一个控制器来生成另一个子网络的架构描述
控制器可以由一个循环神经网络来实现．控制器的训练可以通过强化学习来完成，其奖励信号为生成的子网络在开发集上的准确率

## 7 、网络正则化 p183

正则化是一类通过限制模型复杂度，从而避免过拟合，提高泛化能力的方法，比如引入约束、增加先验、提前停止等

7.1 ℓ1 和ℓ2 正则化

一种折中的正则化方法是同时加入ℓ1 和ℓ2 正则化，称为弹性网络正则化

7.2 权重衰减

7.3提前停止

提前停止对于深度神经网络来说是一种简单有效的正则化方法．
由于深度神经网络的拟合能力非常强，因此比较容易在训练集上过拟合．
使用梯度下降法进行优化时，我们可以使用一个和训练集独立的样本集合，称为验证集，并用验证集上的错误来代替期望错误．当验证集上的错误率不再下降，就停止迭代．

7.4 丢弃发（dropout）

7.5 数据增强

（1）旋转（Rotation）：将图像按顺时针或逆时针方向随机旋转一定角度．
（2）翻转（Flip）：将图像沿水平或垂直方向随机翻转一定角度．
（3）缩放（Zoom In/Out）：将图像放大或缩小一定比例．
（4）平移（Shift）：将图像沿水平或垂直方法平移一定步长．
（5）加噪声（Noise）：加入随机噪声．

7.6 标签平滑

在数据增强中，我们可以给样本特征加入随机噪声来避免过拟合．同样，我们也可以给样本的标签引入一定的噪声．
假设训练数据集中有一些样本的标签是被错误标注的，那么最小化这些样本上的损失函数会导致过拟合
一种改善的正则化方法是标签平滑，即在输出标签中添加噪声来避免模型过拟合

8、优化问题

神经网络的损失函数是一个非凸优化问题，找到全局最优解比较困难

参数非常多，训练数据大

存在梯度消失和梯度爆炸的问题，导致基于梯度的优化方法经常失效

9、泛化问题

由于深度神经网络的复杂度比较高，并且拟合能力很强，很容易在训练集上产生过拟合。

因此，通过一定的正则化来改进网络的泛化能力

记录学习的第七天 xiufeia 学习
还是老规矩，力扣的每日一题这道题我的思路是有了，不过在实现思路的时候遇到很多问题我首先也是想到了用一个哈希表之类的把出现次数最多的元素依次记录下来，然后再进行分配，不过由于我的STL不太熟练，所以我用的方法存在问题我的思路与题解的思路存在最大的差异就是，题解是根据每一行来存的，而我想的是每一列进行存元素。接着写了两道滑动窗口的题。滑动窗口需要注意的就是外循环扩展右指引，内循环扩展左指引，然后进行出
AI编程工具领域：深度理解项目架构篇 xinxiyinhe AI编程 python 人工智能 AI编程人工智能
AI编程工具领域：深度理解项目架构篇在AI编程工具领域，能够读取项目目录并深度理解项目架构的工具主要通过代码索引、上下文感知和智能问答等功能实现。以下是基于最新信息的工具评估与分析：1.通义灵码（阿里云）核心能力：@workspace功能：基于RAG技术，支持本地代码库的索引和深度感知，可分析项目完整结构，生成文件解释、代码逻辑查询和整体修改建议。多语言支持：覆盖200+编程语言，兼容VSCode
软件设计师之树与二叉树：非线性数据结构的深度探索一杯年华@编程空间软考中级数据结构
软件设计师之树与二叉树：非线性数据结构的深度探索在软件开发领域，数据结构是程序设计的核心基础，其中树和二叉树作为重要的非线性数据结构，在众多场景中都有着广泛应用。我写这篇博客，就是希望和大家一起学习进步，深入解析树和二叉树的相关知识，用通俗易懂的语言结合图表和Java代码示例进行讲解，帮助大家更好地掌握这些内容。一、树的定义与基本概念树的定义树是由n（n≥0）个结点组成的有限集合。当n=0时，为空
深入解析TTM市盈率在股票投资中的应用 scoone 杂项小计生活学习
摘要：本文对TTM市盈率的概念、计算方法、优缺点及其在股票投资决策中的作用进行了详细阐述，旨在帮助投资者更好地运用这一财务指标进行投资分析。一、TTM市盈率概述TTM市盈率，即TrailingTwelveMonths市盈率，是一种反映股票价格与公司最近12个月盈利能力的比率。它通过计算公司过去四个季度净利润的总和，再除以在外流通的普通股总数，得到每股收益（EPS），最后以股价除以每股收益得到TTM
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
代替Windows系统的最佳系统开发：开源、国产与跨平台的选择指南夏末之花 windows 开源
近年来，随着技术自主化和隐私安全需求的提升，越来越多的用户开始寻求Windows系统的替代方案。本文结合国内外热门操作系统及开发工具，分析其核心优势与适用场景，助你找到最适合的开发与日常使用平台。一、开源之王：Linux发行版1.Ubuntu与LinuxMint作为最受欢迎的Linux发行版，Ubuntu和LinuxMint以用户友好性著称，尤其适合从Windows迁移的用户。其内置的软件包管理器
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅 SelectDB技术团队大数据物联网 doris selectdb 人工智能电商场景数据分析
BOCDOP宝舵早期基于TiDB构建实时数仓，随着数据量增长，在数据处理效率、OLAP能力扩展、功能支持、成本与资源方面存在一定优化空间。为提升数据分析能力并优化成本，宝舵引入SelectDB，达成写入速度提升10倍，成本直降30%的显著成效。本文转录自高瑞军（宝尊科技高级架构师）在DorisSummitAsia2024上的演讲，经编辑整理。业务背景宝尊集团创立于2007年，是中国品牌电商服务行业
Python 爬虫实战：如何爬取小红书数据并进行分析 Python爬虫项目 python 爬虫开发语言 selenium 测试工具
一、引言随着社交电商的崛起，小红书（Xiaohongshu）作为一款结合了社交和电商的应用，吸引了大量年轻用户。用户在平台上分享购物心得、生活经验以及个性化的消费推荐内容，形成了庞大的用户数据与内容生态。因此，如何从小红书获取数据进行分析，成为了数据科学、市场营销和社交媒体研究中的一个重要课题。本文将介绍如何使用Python编写爬虫爬取小红书的数据，分析如何通过小红书的开放API获取用户信息、帖子
游戏开发引擎对比：Godot、Unity、Unreal与cocos2d的优劣分析 scoone 游戏引擎 godot unity
在游戏开发的世界中，选择合适的游戏引擎是项目成功的关键之一。本文将对比四种流行的游戏开发引擎：Godot、Unity、UnrealEngine和cocos2d，分析各自的优缺点，帮助开发者做出明智的选择。Godot：优点：开源且免费，无商业授权费用。轻量级，适合中小型游戏开发。使用GDScript脚本语言，易于上手。跨平台支持良好。缺点：社区相对较小，资源不如Unity丰富。在3D游戏开发方面不如
AXI总线之相关应用逾越TAO fpga开发硬件工程笔记
AXI总线作为现代SoC设计的核心互连协议，其应用场景极为广泛，覆盖移动设备、AI加速器、FPGA、存储控制器等多个领域。以下是AXI在不同应用中的关键角色及具体实现案例：一、移动处理器与SoC应用场景：智能手机、平板电脑的SoC（如高通骁龙、苹果A系列、华为麒麟）中，AXI用于连接多核CPU、GPU、ISP（图像信号处理器）、DDR控制器等模块。典型案例：ARMCortex-A系列多核集群：AX
基于python的ansys_基于python的感知机 weixin_39687990 基于python的ansys
一、1、感知机可以描述为一个线性方程，用python的伪代码可表示为：sum(weight_i*x_i)+bias->activation#activation表示激活函数，x_i和weight_i是分别为与当前神经元连接的其它神经元的输入以及连接的权重。bias表示当前神经元的输出阀值(或称偏置)。箭头(->)左边的数据，就是激活函数的输入2、定义激活函数f:deffunc_activator(
python ansys workbench联动_【干货】如何在ANSYS WORKBENCH中关联几何模型和有限元模型... weixin_39644377 python ansys workbench联动
原标题：【干货】如何在ANSYSWORKBENCH中关联几何模型和有限元模型我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应
信创系统安全优化与持续改进策略有哪些？ weixin_37579147 系统安全安全
信创系统（信息技术应用创新系统）的安全优化与持续改进是保障国产化技术生态安全可靠运行的关键。以下从技术、管理、组织等多个维度提出系统性策略，并结合实际场景展开说明：一、技术层面的安全优化策略1.核心组件安全加固国产化组件漏洞管理：建立针对国产操作系统（如统信UOS、麒麟）、数据库（达梦、OceanBase）的漏洞扫描与修复机制，联合厂商建立漏洞情报共享平台。硬件层可信计算：采用基于国产芯片（如鲲鹏
python ansys workbench联动_如何在ANSYS WORKBENCH中关联几何模型和有限元模型 YUNYA麻麻 python ansys workbench联动
我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应的几何模型进行关联，再一起导入到MECHANICAL中进行分析，则既能够既享
【商城实战(43)】探秘知名商城架构：解锁电商成功密码奔跑吧邓邓子商城实战架构微服务 spring boot 商城实战商城架构
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
Pandas完全指南：数据处理与分析从入门到实战 xiaoyu❅ python python pandas 开发语言
目录引言一、Pandas环境配置与核心概念1.1安装Pandas1.2导入惯例1.3核心数据结构二、数据结构详解2.1Series创建与操作2.2DataFrame创建三、数据查看与基本操作3.1数据预览3.2索引与选择3.3数据排序四、数据清洗实战4.1处理缺失值4.2处理重复值4.3数据类型转换4.4字符串处理五、数据处理进阶5.1数据筛选5.2列操作5.3应用函数六、数据分组与聚合6.1基础
NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题 Chaos_Wang_ NLP常见面试题自然语言处理 rnn 人工智能
普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小，最终趋于接近0，导致模型前层的参数难以更新。原因：在反向传播时，每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值（小于1），随着层数或时间步的增加，梯度将指数级
信息收集综合只不过是胆小鬼罢了信息收集 php web安全安全
1《应用服务器资产分析与角色定性详解》在网络安全领域，对应用服务器的资产分析与角色定性是至关重要的工作。通过对服务器的操作系统、IP资产、端口资产等方面进行详细分析，可以更好地了解服务器的特性与用途，从而为网络安全防护提供有力支持。本文将从多个维度深入探讨应用服务器的资产分析与角色定性方法。一、操作系统分析1.Web大小写敏感性在分析应用服务器的操作系统时，Web大小写敏感性是一个重要的参考因素。
从关键词到权重：TF-IDF算法解析多巴胺与内啡肽. 机器学习 tf-idf 算法机器学习
文章目录前言一、TF-IDF：关键词的“价值”评估师二、TF-IDF的计算：拆解关键词的“价值”三、TF-IDF的应用：从搜索引擎到文本挖掘四、代码实现：从《红楼梦》中提取核心关键词1、分卷处理1.1代码功能1.2代码实现1.2.1、读取文件1.2.2逐行处理1.2.3.关闭文件2、分词与停用词过滤2.1代码功能2.2代码实现2.2.1读取分卷内容构建DataFrame：2.2.2分词与停用词过滤
weixin049校园外卖平台设计与实现+ssm(文档+源码)_kaic 开心毕设kaic_kaic 模拟退火算法散列表随机森林支持向量机启发式算法逻辑回归
校园外卖平台设计与实现摘要随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了校园外卖平台的开发全过程。通过分析校园外卖平台管理的不足，创建了一个计算机管理校园外卖平台的方案。文章介绍了校园外卖平台的系统分析部分，包括可行性分析等，系统设计部分主要介绍了系统功能设计和数据库设计。本校园外卖平台有管理员，用户，商家。管理员功能有个人中心，用户管理，商家管理，菜
【FPGA教程案例31】通信案例1——基于FPGA的ASK调制信号产生 fpga和matlab ★教程2:fpga入门100例 fpga开发 FPGA教程 ASK调制 verilog
FPGA教程目录MATLAB教程目录---------------------------------------------------------------------------------------目录1.软件版本2.ASK调制原理3.ASK调制过程的FPGA实现4.操作步骤与仿真结论5.参考文献1.软件版本vivado2019.22.ASK调制原理幅度键控（Amplitude-Shi
Node.js系列（4）--微服务架构实践一进制ᅟᅠ ‌‍‎‏ Node.js 架构 node.js 微服务
Node.js微服务架构实践引言微服务架构已成为构建大规模Node.js应用的主流选择。本文将深入探讨Node.js微服务架构的设计与实现，包括服务拆分、服务治理、通信机制等方面，帮助开发者构建可扩展的微服务系统。微服务架构概述Node.js微服务架构主要包括以下方面：服务拆分：业务领域划分与服务边界服务治理：服务注册、发现与负载均衡通信机制：同步与异步通信方案数据管理：分布式事务与数据一致性可观
【免费】1952-2020年全国人均GDP数据 2501_90487648 数据 #全国全国人均GDP
1952-2020年全国人均GDP数据1、时间：1952-2020年2、来源：国家统计局、统计年鉴3、指标：全国人均GDP4、范围：全国层面5、指标解释：人均GDP（GrossDomesticProductpercapita）是指一个国家或地区在一定时期内（通常为一年）创造的国内生产总值（GDP）与该地区人口总数的比值。它是衡量国家经济发展水平和居民生活水平的重要指标之一。6、下载链接：1952-
C++学习笔记：引用 etp_ c++学习笔记
引用是已知变量的别名，通过将引用变量用作参数，函数将使用原始数据而不是其副本。下面将r作为a的别名：inta;int&r=a;就像char*是指向char的指针一样，int&是指向int的引用。（a和r指向相同的值和内存单元)注意：&r表示r引用变量的地址。引用和指针的区别1.必须在声明引用时将其初始化，而不能像指针那样先声明再赋值。2.引用更接近const指针，一旦与某个变量关联起来便有一直效忠
【八股文】从浏览器输入一个url到服务器的流程白衣神棍八股文 web
1.url解析与DNS解析浏览器解析用户输入的URL，提取协议（HTTP\HTTPS）、域名、端口及路径等信息浏览器首先检查本地DNS缓存和系统DNS缓存，若未命中，查询本地hosts文件最后递归查询向本地DNS服务器发起请求，获取域名对应的IP地址这里我想插入一段，讲讲本地DNS缓存、系统DNS缓存、Hosts文件、DNS服务器几者之间的关系首先，不要觉得很复杂，其实本质就是为了根据域名拿IP地
2025年计算机毕业设计springboot 智慧社区管理系统 zhihao503 课程设计 spring boot 后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于智慧社区管理系统的研究，现有成果多聚焦于单一功能模块的数字化（如物业缴费或门禁系统），缺乏对多场景服务整合与用户体验优化的系统性研究。国外研究侧重物联网技术应用（如新加坡“智慧国”计划中的社区传感器网络），而国内研究更多关注管理平台的基础框架设计，但针对业主、物业、设备多方
《解锁元宇宙构建：AI与云原生区块链的协同奥秘》程序猿阿伟人工智能云原生区块链
在科技飞速发展的今天，元宇宙已从最初的概念设想逐渐步入人们的视野，成为全球瞩目的焦点。元宇宙，这个融合了虚拟与现实、跨越时空界限的数字世界，正以其独特的魅力和无限的潜力，引领着新一轮的科技革命和产业变革。而在这场变革的背后，AI与云原生区块链技术宛如两颗璀璨的明星，交相辉映，为元宇宙的构建提供了不可或缺的关键支撑。AI：赋予元宇宙“智慧灵魂”智能内容生成，丰富元宇宙的“物质基础”在元宇宙的广袤世界
Tsfresh + TA-Lib + LightGBM ：A 股市场量化投资策略实战入门船长@Quant Python 金融科技 python tsfresh TA-Lib LightGBM 量化技术策略开发
Tsfresh+TA-Lib+LightGBM：A股市场量化投资策略实战入门本项目以A股市场为研究对象，通过量化技术对市场数据进行分析，构建量化投资策略，并利用历史数据回测验证策略的有效性。项目旨在为量化技术初学者提供一个系统的学习框架，帮助读者掌握从数据获取到策略评估的全流程操作。文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。适合量化新手建立系统认
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

网络优化与正则化学习

1、网络优化

1.1、高维变量的非凸优化

1.2、神经网络优化的改善方法

2、优化算法

（1）调整学习率，使得优化更稳定，（2）梯度估计修正，优化训练速度

2.1小批量梯度下降（MBGD）

2.2随机梯度下降法

2.3批量大小选择

2.4学习率的调整

2.5 梯度估计修正

2.6 优化算法小结

3、参数初始化

当使用梯度下降发来进行优化网络参数时，参数初始值的选取十分关键，关系到网络的优化效率和泛化能力。

3.1 预训练初始化

3.2 随机初始化

3.3 固定值初始化

4、数据预处理

如果一个机器学习算法在缩放全部或部分特征后不影响他的学习和预测，我们就称为该算法具有尺度不变性

归一化方法泛指把数据特征转换为相同尺度的方法

5、逐层归一化

逐层归一化可以有效提高训练效率的原因有

尺度不变性可以使得我们更加高效地进行参数初始化以及超参数选择

5.1 批量归一化

5.2 层归一化

5.3 权重归一化

5.4 局部相应归一化

6、超参数优化

常见的超参数有以下三类

超参数优化存在的困难

6.1 网格搜索

6.2 随机搜索

6.3贝叶斯优化

6.4 动态资源分配 p181

6.5 神经架构搜索

## 7 、网络正则化 p183

正则化是一类通过限制模型复杂度，从而避免过拟合，提高泛化能力的方法，比如引入约束、增加先验、提前停止等

7.1 ℓ1 和ℓ2 正则化

7.2 权重衰减

7.3提前停止

7.4 丢弃发（dropout）

7.5 数据增强

7.6 标签平滑

8、优化问题

神经网络的损失函数是一个非凸优化问题，找到全局最优解比较困难

参数非常多，训练数据大

存在梯度消失和梯度爆炸的问题，导致基于梯度的优化方法经常失效

9、泛化问题

由于深度神经网络的复杂度比较高，并且拟合能力很强，很容易在训练集上产生过拟合。

因此，通过一定的正则化来改进网络的泛化能力

你可能感兴趣的:(网络优化与正则化,神经网络)