Young_Gy

神经网络优化算法综述

算法检查
- gradient check
- sanity check
- other check
一阶算法
- Adagrad
- momentum
- nag
- rmsprop
- 总结
二阶算法
- 牛顿法
- 拟牛顿法
参考

神经网络的训练有不同算法，本文将简要介绍常见的训练算法：adagrad、momentum、nag、rmsprop。同时简要介绍如何进行算法检查。

算法检查

当我们实施了神经网络的梯度算法后，怎么知道我们的算法是否正确。在用于大规模数据之前，需要做两件事：

gradient check
sanity check

gradient check

梯度检查，就是检查我们的梯度更新是否正确。具体地，检查分析计算出的梯度与数值梯度是否足够接近。

d f ( x ) d x = f ( x + h ) - f ( x ) h (bad, do not use)

d f ( x ) d x = f ( x + h ) - f ( x - h ) 2 h (use instead)

上面显示了两种数值梯度的计算方法，一般采用下面那一种。因为进行泰勒展开后，上面项的误差是 O(h) ，下面项的误差是 O(h2) 。

计算出分析梯度与数值梯度后，需要对两者比较，比较采用相对值如下：

∣ f ' a - f ' n ∣ max ( ∣ f ' a ∣ , ∣ f ' n ∣ )

通常来说，1e-4的相对误差对于包含kinks的网络（例如relu）是可以接受的，对大多数网络1e-7的误差是相对较好的。

梯度检查有几点建议：

使用双精度
观察浮点数的范围，不要太小或者太大，以免超出精度限制
注意目标函数中是否存在kinks（relu），如果存在可以减少测试点的数量
step不是越小越好，过小会遇到数值问题
检查的网络状态应该是网络的特征状态，不要在网络初始状态进行检查
检查的时候不要让正则项过强，否则会影响盖住data loss
关掉dropout等随机机制，对dropout额外进行检测
高维数据检测部分维度即可

sanity check

随机化数据，看看loss的计算是否符合预期
增强正则项，看看loss有没有按照预期增加
看看算法是否可以在小的数据集上过拟合

other check

更新的大小与原数据大小的比例在1e-3较合适。

# assume parameter vector W and its gradient vector dW
param_scale = np.linalg.norm(W.ravel())
update = -learning_rate*dW # simple SGD update
update_scale = np.linalg.norm(update.ravel())
W += update # the actual update
print update_scale / param_scale # want ~1e-3

监测每层激活函数以及梯度的分布
进行参数可视化

一阶算法

Adagrad

在神经网络的训练中，学习率一般随着迭代次数的增长而下降。通常采用学习率的变化公式为：

η t = η t + 1 ‾ ‾ ‾ ‾ ‾ \sqrt

可是学习率不仅受时间（迭代次数）的影响，也受当前参数或者说当前参数所在状态的影响。Adagrad便用参数之前导数的rms考虑了参数的状态信息。

令：

g t η t σ t = \partial C ( θ t ) \partial w = η t + 1 ‾ ‾ ‾ ‾ ‾ \sqrt = 1 t + 1 \sum i = 0 t (g i) 2 ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾  ⎷  

只考虑时间变化的梯度下降与adagrad对比如下：

w t + 1 w t + 1 \leftarrow w t - η t g t \leftarrow w t - η t σ t g t

例子如下：

adagrad的解释如下：

w t + 1 w t + 1 \leftarrow w t - η t g t \leftarrow w t - η t σ t g t

adagrad考虑了梯度随时间以及参数状态的变化，进一步化简可得到：

w t + 1 \leftarrow w t - η \sum t i = 0 ( g i ) 2 g t

也就是说，在固定的学习率 η 下，梯度更新的大小：

与当前的梯度 gt 成正比
与之前的梯度 ∑ti=0(gi)2 成反比

那么，问题来了：为什么要这么做呢？
答案是：gd是一次逼近，adagrad是用历史的导数信息做二次逼近。而 ∑ti=0(gi)2 便表征了二次导数信息。

二次逼近的效果好于一次逼近不需赘述，二次逼近的更新公式是 x←x−f′(x)f″(x) 。 f′(x) 较容易获得，可是 f″(x) 需要计算海森矩阵不易得到。adagrad的优势就在用一次导数去估计二次导数。

估计的方法是：二次导数越大，那么其对应的一次导数的变化也越大，直观的例子如下：

这样做的好处如下图所示，在蓝色箭头部分，一阶导数的值较小，可是按照图中的位置需要更新比较大的距离。这时候考虑二阶导数部分，二阶导数比较小，采用二阶更新办法得到的更新值比较大，满足了我们的要求：

总结来说，adagrad的理解有两种方式：

更新的大小不仅跟时间有关，也跟当前参数空间，参数周围的状态有关
gd是一阶更新方式，adagrad是二阶更新方式，用历史的梯度信息去近似二阶导数。

momentum

momentum考虑参数更新时会遇到以下三个问题：

参数落在plateau，梯度计算值过小，更新过慢
参数落在鞍点（saddle point），更新值为0
参数落在局部最小值（local minima），更新值为0

这些问题，通过momentum都可以解决。momentum相当于给参数更新加了惯性，更新的方向与距离是通过当前的梯度与上一次更新的方向距离联合得到的。

也就是说：

Movement not just based on gradient, but previous movement.

nag

nag的全称是Nesterov’s Accelerated Gradient。其是对momentum的改进，区别如下：

momentum将之前的移动与当前的梯度联合起来计算新的移动
nag先按照之前的移动，然后在新的位置计算梯度，然后把之前的移动与新的梯度联合计算新的移动

nag相比momentum的优势在于：其按照原来的移动先移动了一下，并且计算移动后位置的梯度，相当于对周围的状况有了更多的了解，因此能够更准确的确定新的更新方向。

nag与momentum以及gd对比如下：

nag与momentum的原理示意图如下：

rmsprop

rmsprop是对adagrad的改进，adgrad利用历史的一阶导数信息去近似估计二阶导数，因此对参数周围的状态有了更多的了解，参数可以更新的更好。
可是，adgrad利用的历史一阶导数信息的权重是相同的。事实上，我们应该更关心当前的状态，也就是说：在估计二阶导数时应该给更近的一阶导数赋予更大的权重。

rmsprop引入衰减系数 α ，公式如下：

总结

对以上算法简单总结如下：

# Vanilla update
x += - learning_rate * dx

# Momentum update
v = mu * v - learning_rate * dx # integrate velocity
x += v # integrate position

# nag
x_ahead = x + mu * v
# evaluate dx_ahead (the gradient at x_ahead instead of at x)
v = mu * v - learning_rate * dx_ahead
x += v

# adagrad
cache += dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)

# rmsprop
cache = decay_rate * cache + (1 - decay_rate) * dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)

# adam, like RMSProp with momentum.
m = beta1*m + (1-beta1)*dx
v = beta2*v + (1-beta2)*(dx**2)
x += - learning_rate * m / (np.sqrt(v) + eps)

二阶算法

牛顿法

首先先来回顾下牛顿法：牛顿法可以用来求 f(x) 的零点，求解方法是：

x \leftarrow x - f ( x ) f ' ( x )

如果要求 f(x) 的极值，那么就是求 f′(x) 的零点，求解方法是：

x \leftarrow x - f ' ( x ) f ″ ( x )

当 x 的维度变高后，引入海森矩阵 H ，有：

x \leftarrow x - [H f (x)] - 1 \nabla f (x)

拟牛顿法

牛顿法有个缺点，海森矩阵是非稀疏矩阵，参数太多，其计算量太大。因此拟牛顿法采用一些优化方法去近似计算海森矩阵的逆，大大减少了计算量。

常用的拟牛顿法有：

BFGS
L-BFGS（使用随着时间的梯度信息去近似海森矩阵的逆）

然而，拟牛顿法在神经网络的训练中用的较少，原因主要是拟牛顿法的训练需要使用全部的数据集。batch的拟牛顿法目前还不成熟。

参考

CS231N
MLDS

你可能感兴趣的:(神经网络优化算法综述)

3DUnetCNN 项目常见问题解决方案魏纯漫
3DUnetCNN项目常见问题解决方案3DUnetCNNPytorch3DU-NetConvolutionNeuralNetwork(CNN)designedformedicalimagesegmentation项目地址:https://gitcode.com/gh_mirrors/3d/3DUnetCNN项目基础介绍3DUnetCNN是一个基于PyTorch的3DU-Net卷积神经网络（CNN）
深度学习模块C2f代码详解你是狒狒吗目标检测人工智能计算机视觉 pytorch YOLO 神经网络
C2f是一个用于构建卷积神经网络（CNN）的模块，特别是在YOLOv5和YOLOv8等目标检测模型中。这个模块是一个改进的CSP（CrossStagePartial）Bottleneck结构，旨在提高计算效率和特征提取能力。下面是对C2f类的详细解释：类定义和初始化Python复制classC2f(nn.Module):“”“FasterImplementationofCSPBottleneckw
每天五分钟深度学习框架pytorch：基于vgg块搭建VGG卷积神经网络每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch cnn VGG 卷积神经网络
本文重点前面我们使用pytorch搭建了vgg块，本文我们使用vgg块搭建卷积神经网络VGG16，我们先来看一下vgg16的模型结构是什么样的：搭建vgg16importtorchfromtorchimportnndefvgg_block(num_convs,in_channels,out_channels):net=[nn.Conv2d(in_channels,out_channels,kern
假新闻检测论文（24）A comprehensive survey of multimodal fake news detection techniques... weixin_41964296 假新闻检测自然语言处理
本文综述了利用深度学习架构和注意力机制进行假新闻检测的最新和全面的研究一介绍假新闻定义：虚假或误导性新闻，或“假新闻”，是任何捏造或故意欺骗的媒体内容。假新闻危害：它可以被利用来操纵公众情绪，传播错误信息，甚至干预政治选举。它的主要目的是扭曲、欺骗或操纵个人的信仰和观点。假新闻的形式（类型）：虚假信息在媒体上传播的形式多种多样，包括讽刺、谣言、点击诱饵、错误信息等。讽刺作品通常充满幽默，用来强调特
【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts，纯卷积神经网络，更快更准，，降低参数量！ YOLO大师 YOLO 网络 cnn 目标检测论文阅读 yolov8
YOLOv8目标检测创新改进与实战案例专栏专栏目录：YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv8基础解析+创新改进+实战案例介绍摘要视觉识别的“咆哮20年代”开始于视觉Transformer（ViTs）的引入，ViTs迅速取代了卷积神经网络（ConvNets）成为最先进的图像分类模型。然而，普通的ViT在应用于诸
基于深度学习的人脸表情识别系统：YOLOv8 + UI界面 + 数据集完整实现 2025年数学建模美赛深度学习 YOLO ui 人工智能代码
1.引言近年来，人脸表情识别在情感计算、智能人机交互、心理学研究等领域有着广泛的应用。深度学习的快速发展，使得高效、准确的人脸表情识别成为可能。通过利用卷积神经网络（CNN）和目标检测技术，可以实现实时、精准的人脸表情识别。本文将基于YOLOv8构建一个完整的人脸表情识别系统。系统集成了数据集准备、YOLOv8模型训练、实时推理以及基于PyQt5的图形用户界面（UI）。通过本文，你将学习如何实现一
Web APP 阶段性综述预测模型的开发与应用研究 APP construction web app
WebAPP阶段性综述当前，WebAPP主要应用于电脑端，常被用于部署数据分析、机器学习及深度学习等高算力需求的任务。在医学与生物信息学领域，WebAPP扮演着重要角色。在生物信息学领域，诸多工具以WebAPP的形式呈现，相较之下，医学领域的此类应用数量相对较少。在医学和生物信息学的学术论文中，WebAPP是展示研究成果的有效工具，并且还能部署到网络上，服务于实际应用场景。ShinyAPP平台特性
【TVM 教程】为 x86 CPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：YaoWang,EddieYan本文介绍如何为x86CPU调优卷积神经网络。注意，本教程不会在Windows或最新版本的macOS上运行。如需运行，请将本教程的主体放在ifname=="__main__":代码块中。importosi
【Go】：深入解析 Go 1.24：新特性、改进与最佳实践寻找09之夏 Go golang 开发语言后端 go1.24
前言Go1.24尚未发布。这些是正在进行中的发布说明。Go1.24预计将于2025年2月发布。本文将深入探讨Go1.24中引入的各项更新，并通过具体示例展示这些变化如何影响日常开发工作，确保为读者提供详尽而有价值的参考。新特性及改进综述HTTP/2协议支持（HTTP/2ProtocolSupport）非加密HTTP/2：现在可以通过配置Server.Protocols和Transport.Prot
3D卷积神经网络：原理、应用与深入解析从零开始学习人工智能 cnn 人工智能神经网络目标跟踪 3d opencv
3D卷积原理3D卷积，或称为三维卷积，是卷积神经网络（CNN）中的一种技术，用于处理三维数据，如医学图像（如MRI、CT扫描）或视频数据。与标准的二维卷积（处理图像）不同，3D卷积在三个维度（通常是深度、高度和宽度）上操作。在这个图示中，我们可以看到一个3x3x3的卷积核（也称为滤波器或特征检测器）在一个5x5x5的输入数据块上滑动。在每个位置，卷积核与其覆盖的输入数据块的部分进行元素乘法并求和，
提示工程（Prompt Engineering）最全综述：本质、技术、最佳实践大模型之路 prompt prompt 算法人工智能 LLM 提示工程
提示工程（promptengineering），简而言之，是构建和优化输入提示以引导LLMs生成准确且富有洞察力的输出的艺术和科学。在LLMs的世界里，一个精心设计的提示就如同一位经验丰富的向导，能够引领模型穿越复杂的信息海洋，找到用户心中的答案。一、理解提示与提示工程（promptengineering）（一）提示的本质提示是我们输入给大语言模型以获取期望响应的信息。它的形式丰富多样，可以是一个
使用 AI 在医疗影像分析中的应用探索
摘要医疗影像分析是AI在医疗领域的重要应用方向，能够提高诊断效率，减少误诊率。本文将深入探讨AI技术在医疗影像数据分析中的应用，包括核心算法、关键实现步骤和实际案例，并提供一个基于卷积神经网络（CNN）的图像分类Demo。引言随着医疗影像数据的爆炸式增长，传统的人工分析已无法满足高效、精准诊断的需求。AI技术通过深度学习算法，在医疗影像的识别、分类和标注中发挥了重要作用。本文章将结合技术实现与案例
【机器学习】---神经架构搜索（NAS） Undoom 机器学习 Python 机器学习架构人工智能 python
这里写目录标题引言1.什么是神经架构搜索（NAS）1.1为什么需要NAS？2.NAS的三大组件2.1搜索空间搜索空间设计的考虑因素：2.2搜索策略2.3性能估计3.NAS的主要方法3.1基于强化学习的NAS3.2基于进化算法的NAS3.3基于梯度的NAS4.NAS的应用5.实现一个简单的NAS框架6.总结引言随着深度学习的成功应用，神经网络架构的设计变得越来越复杂。模型的性能不仅依赖于数据和训练方
Pytorch实现猫狗分类 NoKnowovo Python pytorch 分类人工智能
在进行编码之前，确保已经安装好Pytorch以及相关依赖环境模型定义构建构建一个较为简单的卷积神经网络模型#定义神经网络模型classCatDogClassifier(nn.Module):def__init__(self):super(CatDogClassifier,self).__init__()self.conv1=nn.Conv2d(3,16,kernel_size=5,stride=1
神经网络基础-价格分类案例 dwjf321 深度学习神经网络人工智能神经网络分类人工智能
文章目录1.需求分析2.导入所需工具包3.构建数据集4.构建分类网络模型5.训练模型6.模型训练7.评估模型8.模型优化学习目标：掌握构建分类模型流程动手实践整个过程1.需求分析小明创办了一家手机公司，他不知道如何估算手机产品的价格。为了解决这个问题，他收集了多家公司的手机销售数据。该数据为二手手机的各个性能的数据，最后根据这些性能得到4个价格区间，作为这些二手手机售出的价格区间。主要包括：bat
AlexNet：开启深度学习图像识别新纪元池央深度学习人工智能
一、引言在深度学习的璀璨星空中，AlexNet无疑是一颗极为耀眼的明星。它于2012年横空出世，并在ImageNet竞赛中一举夺冠，这一历史性的突破彻底改变了计算机视觉领域的发展轨迹，让全世界深刻认识到深度卷积神经网络在图像识别任务中的巨大潜力，从而掀起了深度学习研究与应用的热潮。二、AlexNet网络架构详解（一）输入层AlexNet的输入图像通常为224x224x3的彩色图像。这一尺寸的确定是
北大新模型FAN：新型神经网络架构，填补周期性特征建模空白海森大数据神经网络人工智能深度学习
在科学研究和技术发展的浪潮中，周期性现象作为自然界和人类社会的普遍规律，一直备受关注。从天文学中的行星运动到经济学中的商业周期，周期性无处不在，深刻影响着我们的生活和思考方式。然而，传统的神经网络模型，如多层感知器（MLP）和Transformer，在周期性建模方面却存在明显不足。面对这一挑战，北京大学李戈教授的团队提出了一种创新性的网络架构——FourierAnalysisNetworks（FA
深度学习：从基础到实践（上、下册）(安德鲁·格拉斯纳) fyjgfyjfg 深度学习人工智能
（pdf）:python33+(0m深度学习概述：深度学习是机器学习的一个分支，它试图通过使用深层神经网络来模拟人脑的学习过程。随机性与基础统计学：在深度学习中，随机性起着重要作用，了解基础统计学有助于更好地理解深度学习中的随机过程和不确定性。训练与测试：深度学习模型的训练过程包括使用训练数据来优化模型参数，而测试过程则使用测试数据来评估模型的性能。过拟合与欠拟合：过拟合是指模型在训练数据上表现过
2024年诺贝尔奖揭晓:机遇与挑战并存人工智能aigcopenai
ChatGPT竟然也不相信诺贝尔奖结果！2024年诺贝尔奖对科研领域来说是个重要的时刻。诺贝尔奖可谓是科学界的“奥斯卡”,每年的获奖者都会引起广泛关注。今年,瑞典皇家科学院公布,约翰·J·霍普菲尔德和杰弗里·E·辛顿荣获诺贝尔物理学奖,这个消息让不少人感到惊讶。诺贝尔物理学奖:意外的突破一次颁奖的震撼诺贝尔奖的官方网站指出,霍普菲尔德和辛顿因其在人工神经网络和机器学习领域的基础性研究而获奖。他们的
每天五分钟深度学习框架pytorch:快速搭建VGG网络的基础模块VGG块每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 网络卷积神经网络卷积层人工智能
本文重点前面我们介绍了VGG神经网络，我们知道VGG是由许多的VGG块构成，那么本文我们将使用pytorch搭建VGG块代码实现：importtorchfromtorchimportnndefvgg_block(num_convs,in_channels,out_channels):net=[nn.Conv2d(in_channels,out_channels,kernel_size=3,padd
大规模语言模型从理论到实践大语言模型预训练数据 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践：大语言模型预训练数据关键词：大规模语言模型、预训练数据、数据集选择、数据清洗、数据增强、数据集评估、数据集扩展1.背景介绍1.1问题的由来随着深度学习和大规模神经网络的发展，大型语言模型（LargeLanguageModels,LLMs）成为了自然语言处理（NLP）领域的一项突破性技术。LLMs能够生成流畅且具有上下文关联性的文本，这得益于它们在海量文本数据上的预训练。
卷积神经网络（CNN）：深度学习中的核心模型任义礼智信深度学习 cnn 人工智能
引言卷积神经网络（ConvolutionalNeuralNetworks,CNNs）是深度学习领域的一种重要模型，广泛应用于图像处理、计算机视觉、自然语言处理等多个领域。CNN凭借其卓越的特征提取能力和参数共享机制，已成为计算机视觉任务中最主流的算法之一。本文将深入探讨CNN的基本原理、结构组件、应用场景及其发展方向。CNN的基本原理CNN是一种特殊的前馈神经网络（FeedforwardNeura
【机器学习：十五、神经网络的编译和训练】 KeyPan 机器学习机器学习神经网络人工智能深度学习 pytorch ubuntu linux
1.TensorFlow实现代码TensorFlow是深度学习中最为广泛使用的框架之一，提供了灵活的接口来构建、编译和训练神经网络。以下是实现神经网络的一个完整代码示例，以“手写数字识别”为例：importtensorflowastffromtensorflow.kerasimportlayers,models#加载MNIST数据集(x_train,y_train),(x_test,y_test)
【机器学习：十六、其他的激活函数】 KeyPan 机器学习机器学习人工智能算法服务器运维 ubuntu
1.Sigmoid激活函数的替代方案Sigmoid激活函数在神经网络中曾广泛使用，其数学公式为：σ(x)=11+e−x\sigma(x)=\frac{1}{1+e^{-x}}σ(x)=1+e−x1输出范围为(0,1)，适合二分类问题。但随着深度学习的发展，Sigmoid函数逐渐被替代，主要原因包括：梯度消失问题：当输入绝对值较大时，梯度趋近于零，导致权重更新困难。非零中心问题：输出值始终为正，可能
深度学习图像算法中的网络架构：Backbone、Neck 和 Head 详解肥猪猪爸 #深度学习深度学习算法人工智能数据结构神经网络计算机视觉机器学习
深度学习已经成为图像识别领域的核心技术，特别是在目标检测、图像分割等任务中，深度神经网络的应用取得了显著进展。在这些任务的网络架构中，通常可以分为三个主要部分：Backbone、Neck和Head。这些部分在整个网络中扮演着至关重要的角色，它们各自处理不同的任务，从特征提取到最终的预测输出，形成了一个完整的图像处理流程。本文将详细介绍这三部分的作用以及它们在目标检测和图像分割中的应用，帮助大家更好
从RNN到Transformer：生成式AI技术演变与未来展望非著名架构师人工智能 rnn transformer
生成式人工智能（GenerativeAI）近年来取得了令人瞩目的进展，其背后的核心技术是自回归模型的不断演进。从传统的递归神经网络（RNN）到革命性的Transformer架构，本文将全面剖析这一技术发展历程。一、RNN：生成式模型的起点1.RNN的基本原理递归神经网络（RecurrentNeuralNetwork,RNN）是一种专为处理序列数据设计的神经网络架构。其核心思想是通过循环连接的隐藏状
遗传算法与深度学习实战（25）——使用Keras构建卷积神经网络盼小辉丶遗传算法与深度学习实战深度学习 keras cnn
遗传算法与深度学习实战（25）——使用Keras构建卷积神经网络0.前言1.卷积神经网络基本概念1.1卷积1.2步幅1.3填充1.4激活函数1.5池化2.使用Keras构建卷积神经网络3.CNN层的问题4.模型泛化小结系列链接0.前言卷积神经网络(ConvolutionalNeuralNetwork,CNN)的提出是为了解决传统神经网络的缺陷。即使对象位于图片中的不同位置或其在图像中具有不同占比，
遗传算法与深度学习实战（26）——编码卷积神经网络架构盼小辉丶遗传算法与深度学习实战深度学习 cnn 遗传算法
遗传算法与深度学习实战（26）——编码卷积神经网络架构0.前言1.EvoCNN原理1.1工作原理1.2基因编码2.编码卷积神经网络架构小结系列链接0.前言我们已经学习了如何构建卷积神经网络(ConvolutionalNeuralNetwork,CNN)，在本节中，我们将了解如何将CNN模型的网络架构编码为基因，这是将基因序列进化在为给定数据集上训练最佳模型的先决条件。1.EvoCNN原理进化卷积神
YOLOV8涨点技巧之MCA多维协作注意力模块呆头鹅AI工作室深度学习算法详解及代码复现 YOLO 深度学习人工智能计算机视觉 python conda
1.算法设计：基于MCA的YOLOv8优化1.1总体架构YOLOv8的优化算法在原有架构的基础上，引入了MCA模块，以增强特征提取能力和目标定位精度。MCA模块被嵌入到YOLOv8的主干网络（Backbone）和特征金字塔网络（FPN）中，用于捕捉多维度的上下文信息。1.2MCA模块设计MCA模块的核心思想是通过多维度的注意力机制（如通道注意力、空间注意力和尺度注意力）来增强特征表示。其结构如下：
NAS(Neural Architecture Search) 神经结构搜索 hxxjxw
Neuralarchitecturesearch(NAS)，神经结构搜索，是强化学习的一个重要应用方向，也是AutoML的一个非常火的研究方向.NAS的原理是给定一个称为搜索空间的候选神经网络结构集合，用某种策略从中搜索出最优网络结构
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他