Lovelation

Improving Sample Efficiency In Model-Free Reinforcement Learning From Images 论文翻译

文章目录

论文原文链接
摘要
INTRODUCTION
相关工作
背景
剖析利用 $\beta$ -变分自编码器进行状态表示学习的方法
- 实验环境设置
- 没有辅助任务的model-free off-policy RL
- 应用 $\beta$ -自编码器进行交替式的表示学习
- $\beta$ -自编码器端到端学习的尝试
我们的方法
- 在像素上的性能
简化实验
- 编码器产生的表示的能力
- 泛化到没有见过的任务
讨论
最后——自己的话

论文原文链接

“Improving Sample Efficiency In Model-Free Reinforcement Learning From Images”（2019 arxiv）

摘要

利用Model-Free的强化学习方法训练一个直接从高维图像数据到控制策略的智能体已经被证明非常困难。智能体在学习控制策略的同时还需要学习状态的隐表示（latent representation）。利用稀疏的reward来拟合一个高维度的encoder不仅非常地采样低效（sample inefficient），并且可能导致收敛到次优解。有两种方法来提升采样效率，一是提取与任务相关的特征，二是使用异策（off policy）算法。我们剖析了多种优秀的隐特征（latent feature）学习方法后，得出了一个结论：图像的重构误差是基于图像的强化学习非常必要的一个组成部分。基于这个发现，我们开发了一种能够端到端训练的异策AC（off-policy actor critic）算法，包含一个辅助的解码器，并且在state-of-art的model-free和model-based算法中达到了相似的性能。我们开源了代码。

INTRODUCTION

相机是非常方便且廉价的设备，能够获取环境的状态信息，尤其是复杂、非结构化的环境。通常需要得到在这些环境中的底层动力学状态才能进行有效的控制。因此，开发一种有效的利用像素作为输入的强化学习方法，将会为许多的真实世界中的问题提供解决方案。
如何仅适用稀疏的反馈信号来有效地学习一个从像素到适合控制的状态表示成为我们的挑战。虽然深度卷积网络能够学到很好的表示，但是它们需要非常庞大的训练数据。正如现有的强化学习方法已经存在非常严重的采样复杂度问题，直接使用像素输入将会使得训练非常地慢。例如：Atari, DeepMind Control 需要上亿训练步数，这在很多应用中是不切实际的，尤其是在机器人领域。
一种很自然的解决办法是在其中添加无监督的辅助任务，来提高采样效率。最简单的方法就是利用一个用重建误差来训练的自编码器。先前的工作已经尝试利用自编码器来从像素中学习状态的表示，通常是一种两步走的形式，首先训练自编码器，随后利用自编码器提供的状态表示来进行策略的训练。这样的训练方法相比于交替训练更加地稳定，但是会产生次优的策略。其他的一些工作利用额外的重构误差进行了同策的model-free end-to-end的训练。
我们重新来研究在model-free的强化学习中添加自编码器的方法，但是集中研究异策算法。我们进行了一系列细致（careful）的实验来理解为什么之前的算法不能够很好地工作。我们发现像素的重构误差对学习到一个好的表示至关重要，尤其是在端到端训练的情况下。基于这些发现，我们提出了一种简单的，端到端训练的，基于自编码器的异策算法。我们的方法是第一个能够同时，稳定且高效地训练状态表示和策略的model-free off-policy 算法。
当然，一些当前state-of-art的model-based方法在像素任务上相比model-free方法已经展现出了超人的采样效率。但是我们发现我们的model-free，off-policy，autoencoder-based方法尽管更加简单并且不需要一个环境模型，也能够达到同样的性能，这缩小了model-free和model-based算法性能在基于图像的强化学习任务上的距离。
本文共有三个主要的贡献：1、说明了在model-free off-policy的强化学习算法中添加额外的重构误差能够使其在一系列连续控制任务上获得与state-of-art model-based 算法相匹敌的性能；2、理解将自编码器添加到model-free off-policy算法中的关键问题；3、一个开源的Pytorch实现。

背景

第一段马尔科夫过程略。
第二段略，主要说明本文方法基于Soft Actor-Critic（SAC, RAIL实验室18年提出）算法，是一种DRL中的最大熵框架，在最大化reward的同时，也最大化策略的熵，以鼓励策略去探索。
第三、四段略，主要说明自编码器、变分自编码器、β-变分自编码器的原理，及其与RL算法的结合

剖析利用 $\beta$ -变分自编码器进行状态表示学习的方法

在本章中我们将系统地探索model-free off-policy RL算法是如何直接从像素完成训练的。首先我们先说明了SAC算法在像素输入时极大的性能损失（Section 4.2）。这一结果驱动我们去寻找不同的额外监督信息来加速表示学习（representation learning）。当然，有很多辅助的目标函数能够用来加速表示学习，从简单的角度考虑，我们专注于自编码器的研究。我们根据先前工作的方法（Section 4.3），尝试了一种交替式的无监督预训练β-自编码器来重建像素。对先前工作的训练过程的探索，说明了他们将导致次优策略的产生，并指出了β-自编码器与策略网络进行端到端训练的必要性。然而，在Section 4.4中我们发现这样的端到端训练将产生严重的训练不稳定性，尤其是在β较大时。我们重新来面对这个问题，并使用了确定性的变分自编码器和细致的学习过程。这引出了我们自己的算法。

实验环境设置

我们在此简要地说明我们的环境设置，详细的内容参阅附录B。在本文中，我们在6个基于图像的富有挑战性的连续控制任务评估各个算法。出于简单的目的，在正文中我们仅绘制3个主要的任务结果。对于一个任务来说，一个回合（episode）持续1000步，最大反馈1000。图像渲染为38484的RGB，并限制在[0, 1]范围内。为了从图像中推断出速度和加速度信息，我们堆叠3帧连续图像，就像DQN中所用的一样。在各个任务中我们保持所有超参数一致，出了重复动作数（action repeat）。参考先前的工作，我们仅在像素学习时才进行重复动作，这意味着部分训练数据将会被丢弃，例如在1000步的回合中，对每个动作重复4步，则仅有250个观察数据被用于训练。我们在每一万次训练后评估一次策略性能，每次评估持续10个回合，取平均。为了可靠的比较，每个回合我们都使用了不同的随机种子。

没有辅助任务的model-free off-policy RL

我们首先将SAC直接应用在像素学习上，与两个state-of-the-art model-based算法，PlaNet和SLAC。结果如下表。从结果可以看出，在像素上执行SAC的性能与利用额外辅助学习任务的model-based算法有很大的差距。Model-based算法能够达到非常接近于性能上界（使用state的SAC算法）的表现。故此，在像素上的SAC算法将作为性能的下界，我们将逐渐地引入额外的重建误差来缩小上下界之间的差距。

应用 $\beta$ -自编码器进行交替式的表示学习

参考先前的工作，我们实验了利用自编码器的无监督表示学习方法。我们首先使用随机的策略（random policy）来进行自编码器的预训练，并在策略训练时固定自编码器的参数。我们通过微调超参数 $\beta$ ，发现数值较大的 $\beta$ 效果更差，非常小的 $\beta \in [10^{-8}, 10^{-6}]$ 表现最好。同时，我们探索了在策略训练的同时更新自编码器的方法。在下图中展示了更新频率N对策略性能的影响，N表示每N步策略更新一次自编码器。N为无穷说明不再更新，N=1说明每步都更新。结果显示更新越频繁，性能越好。需要强调的是，自编码器的更新所使用的梯度不是从策略中来的，而是仅仅从重建误差而来。这一结果说明，将自编码器和策略训练结合在一起，通过稳定的端到端学习方式，能够提升性能。然而，在先前的工作中，研究人员并不能够成功地重现这一结果。我们需要更好地了解其中到底那部分出了问题。

$\beta$ -自编码器端到端学习的尝试

我们以上的发现以及先前工作，都启发我们应该允许策略学习的梯度传递到自编码器上来。我们构建了一个端到端的训练模式，令自编码器的训练不仅仅根据于重构误差，还根据于Actor-Critic的目标函数产生的梯度。然而，下图的结果表明端到端的训练方式并不稳定，容易产生发散的情况而降低性能。这一结果和先前的工作是一致的，先前的解决办法是交替地训练自编码器和策略网络，而不是通过端到端的方式。下面我们尝试使得端到端的训练变得稳定，并提出我们的方法。

我们的方法

我们现在来设计一种稳定的训练方式，使得像素自编码器能够和策略学习同时进行。我们基于SAC算法进行开发。基于我们在第四章中的发现，我们提出一个新的、简单的、端到端训练的算法，SAC+AE。我们发现使用确定的隐表示方法，而不是具有随机性的隐表示（如 $\beta$ -VAE），更能够使端到端的训练变得稳定。因此我们使用确定性的自编码器：正则自编码器（regularized autoencoder, RAE）。同时我们也发现，令卷积层的参数在target critic网络训练时更新地更快很重要。这一手段使得在保证训练稳定性的同时加快训练速度。最后，我们在actor和critic之间共享卷积层参数，但是卷积层不从actor处获得传播梯度。结构如下图所示。

在像素上的性能

我们现在来看看我们这一简单的方法能否稳定地进行端到端训练。（此处省略一些实现细节，如网络结构等）。
我们将我们的算法与目前最先进的model-free和model-based算法进行比较，包括D4PG（model-free）、PlaNet（model-based）、SLAC（model-based）。同时，我们将SAC算法在低维状态下的学习结果作为性能的上界来作比较。结果如下图所示，SAC+AE方法（本文提出的）能够达到持平基于图像的最优性能。

简化实验

为了进一步说明我们的算法在隐表示空间学习方面的一些属性，我们进行了一些模型简化实验。我们想要回答这样两个问题：1、我们的方法是否从原始像素中获取了足够多的信息，这些信息是否足够从中能否恢复出相应的状态信息？2、学习到的隐表示能否泛化到一些有相似像素观察但没有见过的任务？

编码器产生的表示的能力

为了说明我们的方法比不带自编码器的方法更优，我们假设从图像中学到的状态表示应该包含足够多的信息，并且从这些信息中能够很简单地提取出真实的状态信息。为了验证这一观点，我们在cheetah_run这一任务中训练了两个策略，SAC+AE和SAC（含自编码器与不含自编码器），训练到收敛为止。随后我们训练两个相同结构的线性映射，将从像素学习到的隐表示映射到真实状态空间。然后我们比较ground truth和这两个映射结果的差异，来说明哪一个学到了更有效的信息。结果如下图所示，结果说明，有自编码器的版本能够很好地从中恢复出真实的状态信息，而不含自编码器的版本则差异十分大。这也解释了为什么直接使用图像作为策略训练将导致严重的性能退化。

泛化到没有见过的任务

我们从Deep Mind Control中选择了3个像素相似的任务，但是它们有不同的reward结构。我们首先应用SAC+AE方法在其中一个中训练直到收敛，并获得它的编码器部分。随后我们为另外两个任务训练两个版本的agent，1、使用上一个任务训练好的编码器初始化，2、随机初始化编码器。并且在训练过程中不再添加重构误差，只使用critic网络产生的梯度来训练编码器。结果如下图所示，结果表明已训练好的编码器能够帮助SAC算法在其他的任务中很快地获得好的性能。

讨论

我们提出了第一个直接从图像输入并且仅适用重构误差作为额外训练的，端到端的、off-policy model-free的RL算法。它能够达到与目前最先进的model-based算法相媲美的性能，但更加简单、鲁棒，且不需要额外学习一个环境动力学模型。我们通过一些简化实验来说明了端到端训练相比于之前two-step训练方法的优势，说明了像素重建误差在从图像中获取真实状态信息非常必要，也说明了学习到的状态表示有一定的泛化能力和表现能力。
我们发现确定性的模型比β-VAE等具有随机性的模型性能要好，这可能是因为一些来自于其他方面的不确定性，例如bootstrapping、off-policy数据和端到端学习。我们认为即使在随机环境中仍然应该选择确定性的模型，确定性的模型能够有更好的解释性因为它们学习到的是一个更简单的分布。
在附录中我们提供了所有实验的结果以及超参数的设置。我们也将我们的代码开源。

最后——自己的话

读这篇文章的初衷是因为它所提出的问题与一直困扰的我问题一样，到底Image-based DRL是不是不可能/或不现实。很自然的，图像输入将会加大训练的难度，本文给出了相对详尽的研究，说明在图像输入的情况下，一般的方法将会严重退化，同时本文也给出了相应的解决方法，即是包含（确定性）自编码器的端到端训练方法。这一方法在我们实验室后面的实践中会有很大的帮助。本文也有不足之处，可能创新性上不太足，更像是实验性的文章，探究性、实践性更强，研究性不强。

英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）青云交大数据新视界 Java 大视界 java 大数据机器学习金融情绪指数投资决策量化策略情绪分析
Java大视界--Java大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）引言：正文：一、Java构建的金融市场情绪数据采集与预处理体系1.1多源异构数据接入引擎1.2数据采集延迟测试报告1.3情绪数据预处理管道二、Java驱动的金融市场情绪指数构建模型2.1多维度情绪指数计算框架2.2情绪指数与投资决策的映射模型三、Java在金融投资决策支持中的实战应用3.1量化私募情绪
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb