快乐地笑

行为克隆（End to End Learning for Self-Driving Cars 论文翻译）

摘要：我们训练了一个卷积神经网络(CNN)来将原始像素从一个向前倾斜的摄像头直接映射到转向指令。事实证明，这种端到端的方法非常强大。通过最少的人类训练数据，该系统学会了在有或没有车道标记的地方道路和高速公路上驾驶。它还在一些视觉引导不清晰的区域开展业务，比如停车场和未铺设的道路上。
该系统只以人的转向角作为训练信号，自动学习必要的过程步骤的内部表示，如检测有用的道路特征。我们从未明确地训练它去探测，例如，道路的分界线。
相对于车道标记、路径规划和控制等问题的显式分解，我们的端到端系统同时优化了所有处理步骤。我们认为这将最终导致更好的性能和更小的系统。更好的性能将产生，因为内部组件自我优化，以最大限度地提高整个系统的性能，而不是人工选择的中间标准，如车道检测。可以理解的是，选择这样的标准是为了便于人工解释，而不是自动地保证最大的系统性能。较小的网络是可能的，因为系统学会用最少的处理步骤来解决问题。
我们使用了NVIDIA DevBox和Torch 7进行培训，使用了NVIDIA DRIVE TM PX自动驾驶汽车计算机，也使用了Torch 7来决定去哪里驾驶。该系统以每秒30帧(FPS)的速度运行。

1介绍

CNNs[1]已经彻底改变了模式识别[2]。在CNNs被广泛采用之前，大多数模式识别任务都是使用手工制作的特征外向性的初始阶段和随后的分类器来完成的。CNNs的突破是通过训练实例自动学习特征。在图像识别任务中，CNN方法尤其强大，因为卷积运算可以捕获图像的二维性质。此外，通过使用卷积核扫描整个图像，相对于操作的总数，需要学习的参数相对较少。

虽然具有学习功能的CNNs已经在商业上使用了20多年的[3]，但由于最近的两个发展，它们的采用在过去几年出现了爆炸性增长。首先，大型标记数据集，如大规模视觉识别挑战(ILSVRC)[4]已经成为培训和验证的有用工具。其次，CNN学习算法已经在大规模并行图形处理单元(gpu)上实现，极大地加速了学习和推理。

在本文中，我们描述了一个超越模式识别的CNN。它学习驾驶汽车所需的整个处理过程。这个项目的基础工作是在10多年前的一个国防高级研究计划局(DARPA)的幼苗项目中完成的，该项目被称为DARPA自动车辆(DAVE)[5]，在这个项目中，一辆亚规模的无线电控制(RC)车行驶在一条垃圾填埋场的小路上。戴夫在类似但不完全相同的环境中接受了数小时的人类驾驶训练。训练数据包括来自两个摄像头的视频，以及来自人类操作员的左右转向指令。

在很多方面，DAVE-2的灵感来自于波默劳[6]的开创性工作，他在1989年在一个神经网络(ALVINN)系统中建立了自动陆地交通工具。它证明了末端训练的神经网络可以独立于方向盘和公共道路。25年的进步让我们可以在这项任务中运用更多的数据和计算能力。此外，我们在CNNs方面的经验使我们能够利用这一强大的技术。(ALVINN使用了一个全连通的网络，但以今天的标准来看，这个网络很小。)

虽然DAVE展示了端到端学习的潜力，并且确实被用来证明启动应用于地面机器人(LAGR)项目[7]的DARPA学习是合理的，但DAVE的表现还不够可靠，不足以提供一个完整的替代更模块化的越野驾驶方法。DAVE表示，在复杂环境下，两次碰撞的平均距离约为20米。
9个月前，英伟达(NVIDIA)启动了一项新计划，试图在DAVE的基础上建立一个强大的公共道路驾驶系统。这项工作的主要动机是避免识别人类指定的特定特性，例如车道标记、护栏或其他车辆，并避免根据对这些特性的观察创建if, then, else规则集合。本文描述了这项新工作的初步结果。

2 DAVE-2系统概述

图像为两个特定的偏离中心位移可以获得从左和右相机。通过对距离最近的摄像机图像进行视点变换，来模拟摄像机之间的位移和所有转动。精确的视点转换需要三维场景知识，而我们没有。因此，我们通过假设视界以下的所有点都在平坦的地面上，而视界以上的所有点都无限远来近似这个变换。这对于平坦的地形很有效，但是它会对地面上的物体造成变形，比如汽车、杆子、树和建筑物。幸运的是，这些扭曲并没有给网络培训带来大问题。转换后的图像的转向标签被调整到一个，将引导车辆回到所需的位置和方向在两秒内。
我们的培训系统框图如图2所示。图像被输入到CNN中，然后CNN计算出一个建议的控制命令。将建议的命令与图像所需的命令进行比较，调整CNN的权值，使CNN输出更接近所需的输出。权重调整是使用Torch 7机器学习包中实现的反向传播来完成的

一旦训练，网络可以从一个单中心摄像机的视频图像生成转向。此配置如图3所示。

3 数据收集

通过在各种各样的道路上以及在各种照明和天气条件下行驶来收集训练数据。尽管公路数据也来自伊利诺伊州，密歇根州，宾夕法尼亚州和纽约，但大多数公路数据是在新泽西州中部收集的。其他道路类型包括两车道道路（带和不带车道标记），带停放的汽车，隧道和未铺砌道路的住宅道路。白天和黑夜都在晴朗，多云，有雾，下雪和下雨的天气中收集数据。在某些情况下，太阳在天空中较低，导致眩光从路面反射并从挡风玻璃上散射。

这些数据是通过我们的线控驱动测试车(2016年的林肯MKZ)或2013年的福特福克斯(Ford Focus)获得的。该系统不依赖于任何特定的车辆制造或模型。司机们被鼓励保持全神贯注，但其他方面则照常开车。截至2016年3月28日，共收集了约72小时的驾驶数据。

4网络体系结构

我们训练网络的权重，以最小化网络输出的转向命令与人类驾驶员的命令或针对偏心和旋转图像调整后的转向命令之间的均方误差（请参见第5.2节）。我们的网络体系结构如图4所示。该网络由9层组成，包括标准化层，5个卷积层和3个完全连接的层。输入图像被拆分为YUV平面并传递到网络。

网络的第一层执行图像归一化。规范化器是硬编码的，在学习过程中不会进行调整。在网络中执行规范化可以使规范化方案随网络体系结构进行更改，并可以通过GPU处理来加速。

卷积层被设计用来执行特征提取，并通过一系列改变层配置的实验进行经验选择。我们在前三个卷积层中使用步幅卷积，步幅为2×2，内核为5×5，在最后两个卷积层中使用非卷积卷积为3×3内核。

我们在五个卷积层之后加入三个完全连接的层，得到一个输出控制值，即反向转弯半径。完全连接的层被设计成控制方向的控制器，但是我们注意到，通过端到端训练系统，不可能在网络的哪些部分主要作为特征提取器和哪些部分作为控制器之间做出明确的区分。

5训练细节
5.1 数据选择

训练神经网络的第一步是选择要使用的帧。我们收集的数据被标记为道路类型、天气状况和驾驶员的活动(保持车道、换车道、转弯等)。为了训练CNN进行车道跟踪，我们只选择司机所在车道的数据，而放弃其他数据。然后我们以10fps的速度采样。较高的采样率将导致包含高度相似的图像，因此不能提供太多有用的信息。

为了消除直线驾驶的偏差，训练数据包含了更高比例的表示道路曲线的帧。

5.2 增加数据量（特殊情况）

在选择了最后一组帧之后，我们通过添加人工移位和旋转来增强数据，以教导网络如何从不良的位置或方向中恢复。这些扰动的大小是随机选择的，而不是正态分布。分布的平均值为零，标准偏差是我们使用人工驾驶员测量的标准偏差的两倍。随着幅度的增加，人为地增加数据的确增加了不希望的假象（参见第2节）。

6模拟
在对训练好的CNN进行路试之前，我们首先在仿真中评估网络性能。仿真系统的简化框图如图5所示。

该模拟器从一辆由人驾驶的数据收集车上的一个前向机载摄像机中获取预先录制的视频，并生成图像，这些图像与CNN转向车辆时的图像大致相同。这些测试视频是与人类驾驶员产生的驾驶指令同步的。

由于人类驾驶员可能不会一直在车道中心行驶，所以我们需要手动校准模拟器使用的视频中与每一帧相关的车道中心。我们称这个位置为真实地面（“ground truth”）。

模拟器会转换原始图像，以说明与地面真实情况的偏差。请注意，这种转换还包括人为驱动的路径与地面真理之间的任何差异。转换是通过第2节中描述的相同方法完成的。

模拟器访问录制的测试视频以及在视频被捕获时发生的同步转向命令。模拟器将选择的测试视频的第一帧发送到训练好的CNN输入，并根据与地面真实情况的偏差进行调整。然后，CNN返回该帧的控制命令。将CNN转向命令和记录的人驾驶命令输入车辆动态模型[8]，更新模拟车辆的位置和方向。

然后模拟器修改测试视频中的下一帧，使图像看起来就像车辆处于由CNN发出的转向指令所导致的位置。然后这个新的图像被输入到CNN，然后重复这个过程。

模拟器记录离中心的距离(从车到车道中心的距离)、偏航和虚拟车行驶的距离。当偏离中心距离超过1米时，触发虚拟人为干预，复位虚拟车辆的位置和方向，使其与原测试视频对应帧的地面真值匹配。

7 评估

评估我们的网络需要两个步骤，首先是模拟，然后是路上测试。

在模拟中，我们让网络在模拟器中为一系列预先录制的测试路线提供驾驶指令，这些路线相当于在新泽西州蒙茅斯县(Monmouth County)行驶约3小时100英里。测试数据取自不同的照明和天气条件，包括高速公路、当地道路和居民街道。

7.1 仿真
我们估计网络能够自动驾驶汽车的时间百分比。该度量是通过计算模拟的人为干预来确定的(参见第6节)。这些干预发生在模拟的车辆偏离中心线超过1米时。我们假设在现实生活中，一次实际的干预总共需要6秒钟:这是一个人重新控制车辆，重新调整中心，然后重新启动自动转向模式所需的时间。我们通过计算干预的数量，乘以6秒，除以模拟测试的运行时间，然后从1中减去结果，从而计算出百分比自主性：

因此，如果我们在600秒内进行10次干预，我们的自主价值就会是：

图6:交互模式下模拟器的屏幕截图。性能计量的解释见第7.1节。由于视点变换，左边的绿色区域是未知的。地平线下高亮的宽矩形是发送给CNN的区域。

7.2 路上测试
经过培训的网络在模拟器中表现出良好的性能后，将网络加载到我们测试车中的DRIVE TM PX上并进行路测。对于这些测试，我们将性能测量为汽车执行自动转向的时间的一部分。这段时间不包括车道变化和从一条道路转向另一条道路。从新泽西州霍姆德尔办事处到大西洋高地，在新泽西州蒙茅斯县进行一次典型的驾车之旅，大约98％的时间我们都是自主的。我们还沿着花园州立公园大道（多车道划分的高速公路，上下坡道）行驶了10英里，拦截次数为零。

7.3 CNN内部状态可视化

图7和图8显示了两个不同示例输入(未铺设的道路和森林)的前两个功能映射层的激活情况。在未铺路的情况下，feature map的激活可以清晰的显示出道路的轮廓，而在森林的情况下，feature map包含的噪声较多，即CNN在这张图片中没有找到有用的信息。

这说明CNN学会了自己去检测有用的道路特征，即，仅以人的转向角度作为训练信号。例如，我们从未明确地训练它探测道路轮廓。

图7:CNN如何看待未铺设的道路。顶部:发送到CNN的摄像机图像子集。左下:激活第一层feature map。右下角:激活第二层feature map。这说明CNN学会了自己去检测有用的道路特征，即，仅以人的转向角度作为训练信号。我们从未明确地训练它去探测道路的轮廓。

图8：没有道路的示例图像。前两个特征图的激活似乎主要包含噪声，即CNN无法识别此图像中的任何有用特征。

8结论

我们已经通过实验证明，CNNs能够在不需要人工分解成道路或车道标记检测、语义抽象、路径规划和控制的情况下，学习车道和道路跟随的整个任务。从不足100小时的驾驶中得出的少量训练数据，就足以训练汽车在各种条件下，在阳光、多云和下雨的情况下，在高速公路、地方和居民区的道路上行驶。CNN能够从一个非常稀疏的训练信号(单独转向)中学习有意义的道路特征。

例如，系统在训练过程中不需要显式标签就可以检测道路轮廓。

强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
四、Actor-Critic Methods 沈夢昂志 DRL深度强化学习 python 深度学习
由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明，非常推荐B站“王树森老师的DRL强化学习”本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。目录A.书接上回1、Reinforce算法B.State-ValueFunctionC.PolicyNetWork（Actor）D.ActionValueNetwork(Critic)E.TraintheNeur
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
【零基础学AI】第33讲：强化学习基础 - 游戏AI智能体 1989 0基础学AI 人工智能游戏 transformer 分类深度学习神经网络
本节课你将学到理解强化学习的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium(原OpenAIGym)NumPyMatplotlib推荐使用JupyterNotebook进行实验前置知识Python基础编程（第1-8讲）基本数学概念（函数、导数）神经网络基础（第23讲
在Carla上应用深度强化学习实现自动驾驶（一）寒霜似karry 自动驾驶人工智能机器学习
carla环境下基于强化学习的自动驾驶_哔哩哔哩_bilibili本篇文章是小编在pycharm上自己手敲代码学习自动驾驶的第一篇文章，主要讲述如何在Carla中控制我们自己生成的汽车并且使用rgb摄像头传感器获取图像数据。以下代码参考自：（如有侵权，请联系我将立即删除）使用Carla和Python的自动驾驶汽车第2部分——控制汽车并获取传感器数据-CSDN博客1、导入carla（其中的路径根据自
【AI论文】Skywork-Reward-V2：通过人机协同实现偏好数据整理的规模化扩展
摘要：尽管奖励模型（RewardModels，RMs）在基于人类反馈的强化学习（ReinforcementLearningfromHumanFeedback，RLHF）中发挥着关键作用，但当前最先进的开源奖励模型在大多数现有评估基准上表现欠佳，无法捕捉人类复杂且微妙的偏好谱系。即便采用先进训练技术的方法也未能显著提升性能。我们推测，这种脆弱性主要源于偏好数据集的局限性——这些数据集往往范围狭窄、标
多智能体深度强化学习：一项综述 Multi-agent deep reinforcement learning: a survey 资源存储库笔记
Abstract抽象Theadvancesinreinforcementlearninghaverecordedsublimesuccessinvariousdomains.Althoughthemulti-agentdomainhasbeenovershadowedbyitssingle-agentcounterpartduringthisprogress,multi-agentreinforc
r语言改变数据框列名_数据决定离线强化学习将如何改变我们的语言习惯杨_明 python 大数据人工智能 java 机器学习
r语言改变数据框列名重点(Tophighlight)Aridesharingcompanycollectsadatasetofpricinganddiscountdecisionswithcorrespondingchangesincustomeranddriverbehavior,inordertooptimizeadynamicpricingstrategy.Anonlinevendorrec
ReAct (Reason and Act) OR 强化学习（Reinforcement Learning, RL） SugarPPig 人工智能人工智能
这个问题触及了现代AI智能体（Agent）构建的两种核心思想。简单来说，ReAct是一种“调用专家”的模式，而强化学习(RL)是一种“从零试错”的模式。为了让你更清晰地理解，我们从一个生动的比喻开始，然后进行详细的对比。一个生动的比喻想象一下你要完成一项复杂的任务，比如“策划一场完美的生日派对”。ReAct的方式（像一位经验丰富的活动策划师）你是一位知识渊博的专家（大语言模型LLM）。你首先会思考
【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理东临碣石82 人工智能
摘要：我们推出GLM-4.1V-Thinking这一视觉语言模型（VLM），该模型旨在推动通用多模态推理的发展。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型，可以说该模型为最终性能设定了上限。随后，借助课程采样强化学习（ReinforcementLearningwithCurriculumSampling，R
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南许泽宇的技术分享人工智能
“RAG不准？RL来救场！”——一位被RAG气哭的AI工程师前言：RAG的烦恼与AI炼丹师的自我修养在AI圈混久了，大家都知道RAG（Retrieval-AugmentedGeneration，检索增强生成）是大模型落地的“万金油”方案。无论是企业知识库、智能问答，还是搜索引擎升级，RAG都能插上一脚。但你用过RAG就知道，理想很丰满，现实很骨感。明明知识库里啥都有，问个“量子比特的数学表达式”，
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
策略梯度在网络安全中的应用：AI如何防御网络攻击 AI智能探索者 web安全人工智能安全 ai
策略梯度在网络安全中的应用：AI如何防御网络攻击关键词：策略梯度、网络安全、AI防御、强化学习、网络攻击、入侵检测、自适应防御摘要：本文将探讨策略梯度这一强化学习算法在网络安全领域的创新应用。我们将从基础概念出发，逐步揭示AI如何通过学习网络攻击模式来构建自适应防御系统，分析其核心算法原理，并通过实际代码示例展示实现过程。文章还将讨论当前应用场景、工具资源以及未来发展趋势，为读者提供对这一前沿技术
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！一、背景介绍在返利佣金软件中，动态佣金算法是提升用户活跃度和平台收益的关键技术。传统的佣金算法通常是静态的，无法根据用户的实时行为和市场动态进行调整。为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通
农业物联网平台中的灌溉系统研究 sj52abcd 农业物联网和人工智能物联网数据分析 python 大数据毕业设计
研究目的本研究旨在开发一个基于Python语言的农业物联网平台，整合土壤墒情监测与精准灌溉系统，通过现代信息技术手段实现农业生产的智能化管理。系统将采用Python作为主要开发语言，结合MySQL数据库进行数据存储与管理，利用ECharts.js实现数据可视化展示，并引入机器学习和强化学习算法优化灌溉决策。具体目标包括：1)构建实时土壤墒情监测网络，通过物联网传感器采集土壤温湿度、电导率等关键参数
用于人形机器人强化学习运动的神经网络架构分析
1.引言：人形机器人运动强化学习中的架构探索人形机器人具备在多样化环境中自主运行的巨大潜力，有望缓解工厂劳动力短缺、协助居家养老以及探索新星球等问题。其拟人化的特性使其在执行类人操作任务（如运动和操纵）方面具有独特优势。深度强化学习（DRL）作为一种前景广阔的无模型方法，能够有效控制双足运动，实现复杂行为的自主学习，而无需显式动力学模型。1.1人形机器人运动强化学习的机遇与挑战尽管DRL取得了显著
人形机器人运动控制技术演进：从强化学习到神经微分方程的前沿解析
1.引言：人形运动控制的挑战与范式迁移人形机器人需在非结构化环境中实现双足行走、跑步、跳跃等复杂动作，其核心问题可归结为高维连续状态-动作空间的实时优化。传统方法（如基于模型的预测控制MPC）依赖精确的动力学建模，但在实际系统中面临以下瓶颈：模型失配：复杂接触动力学（如足-地交互）难以显式建模；计算瓶颈：高维非线性优化难以满足实时性需求；环境扰动敏感：传统控制器对未知干扰的鲁棒性不足。近年来，以强
NVIDIA Isaac GR00T N1.5 人形机器人强化学习入门教程（五）强化学习与机器人控制仿真机器人与具身智能人工智能机器人深度学习神经网络强化学习模仿学习具身智能
系列文章目录目录系列文章目录前言一、更深入的理解1.1实体化动作头微调1.1.1实体标签1.1.2工作原理1.1.3支持的实现1.2高级调优参数1.2.1模型组件1.2.1.1视觉编码器（tune_visual）1.2.1.2语言模型（tune_llm）1.2.1.3投影器（tune_projector）1.2.1.4扩散模型（tune_diffusion_model）1.2.2理解数据转换1.2
强化学习：Deep Deterministic Policy Gradient (DDPG) 学习笔记烨川南强化学习学习笔记算法人工智能机器学习
一、DDPG是什么？1.1核心概念DDPG=Deep+Deterministic+PolicyGradientDeep：使用深度神经网络和类似DQN的技术（经验回放、目标网络）Deterministic：输出确定的动作（而不是概率分布）PolicyGradient：基于策略梯度的方法，优化策略以最大化累积奖励1.2算法特点特性说明连续动作空间直接输出连续动作值（如方向盘角度、机器人关节扭矩）离线学
提升自动驾驶导航能力：基于深度学习的场景理解技术星辰和大海都需要门票路径规划算法自动驾驶深度学习人工智能
EnhancingAutonomousVehicleNavigationUsingDeepLearning-BasedSceneUnderstanding提升自动驾驶导航能力：基于深度学习的场景理解技术摘要-为应对复杂环境下的自动驾驶导航，系统高度依赖场景理解的准确性。本研究提出一种基于深度学习的新方法，将目标识别、场景分割、运动预测与强化学习相结合以提升导航性能。该方法首先采用U-Net架构分解
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、微能源网能量管理的基本概念与核心需求二、深度强化学习（DRL）在微能源网中的应用优势三、关键技术挑战四、现有基于DRL的优化策略案例五、相关研究文档的典型结构与撰写规范六、结论与未来方向2运行结果2.1有/无策略奖励2.2训练结果12.2训练结果23参考文献
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

行为克隆（End to End Learning for Self-Driving Cars 论文翻译）

你可能感兴趣的:(强化学习)