洛阳羊肉汤-真香

深度强化学习 - 无人驾驶自行车

最近突发奇想做了个无人驾驶自行车，视频：无人驾驶自行车演示。本文讲述用深度强化学算法（DRL），unity环境制作完全基于物理引擎的无人驾驶自行车的流程。因为物理引擎可以替换，但思路和算法大同小异，因此该文章主要面向研究强化学习的人，而不是unity开发者。因此无人驾驶自行车的环境我会贴出gym环境的形式而不是unity工程的形式供大家把玩。

首先说句题外话，有很多哥们问我：“你这个做的有点意思，但是有啥用呢？” 是的，我做的这个是虚拟环境中实现的，但是目前很多强化学习在现实中的应用都是先在虚拟环境加速训练，再迁移到现实，比如anymal机器狗，树枝做的机器人等等。甚至，像openai的Dactyl机械手，直接虚拟环境训练好都不用微调，就能在现实中用，简直天秀。其思想就是：与其尽可能的模拟真实，不如在与真实环境较为相似的随机环境中训练，就能适应真实环境。我觉得用这种思路，虚拟环境+DRL会引发一轮新的革命。以上都是我胡诌的，请忽略（*゜ー゜*）。

1.环境搭建

虽然环境的搭建是用unity和C#写的，只有后端是python训练的，但是了解了环境才好设置状态，动作，奖励函数，所以这部分还是有用的。

1.1 基于物理的自行车

DRL研究者不一定熟悉unity引擎，我下面首先对unity环境的搭建进行简要介绍。

unity是一个专业的3d游戏引擎，有完整的物理系统。那么对于无人驾驶自行车，我们首先需要一辆基于物理运动的车。unity有一个内置的用于赛车游戏的车轮组件：Wheel Collider,它的参数除了图中截到的车轮重量，车轮半径，悬架弹力设置等等，还有前向，侧向摩擦等设置，该组件达到的效果就是能较为真实的模拟各种车轮。对于自行车，对各个参数设置一个较为合理的数值，比如车轮半径0.5m。

（1）

而这只是一个轮子的，自行车有两个轮子，那就需要两个Wheel Collider,在unity项目中，也就是front（前轮）和rear（后轮）

（2）

如果你使用的是其他游戏引擎，一般都会有相应的赛车制作方法，方法大同小异。甚至如果真没有相关支持，可以自己写一个赛车物理系统，虽然这很麻烦（虽然不用从袁隆平说起，至少也要从发动机，一系列计算后得到车轮的扭矩）,如果你真的需要在一些小众的虚拟环境中自己撸出来整个赛车物理，可以参考gameinstitute 的GI racing教程。

在unity中，做好的自行车长这个样子：

（3）

其中脚蹬没有实际用处，只是我抖个机灵；车身用一个板子简单的模拟，并且用这个板子来判断与其他物体的碰撞；而两个车轮各有一个wheel collider组件。然后，我们还需要一个定义自行车属性的脚本，如图中：设定了前轮（图中是Left wheel)勾选了steering（可以转向），后轮勾选了驱动（自行车当然是后轮驱动）。

（4）

如果你对如何制作自行车物理仍然听的有点晕，没关系，unity官网有一个教你五分钟搭建一个四轮车的教程，而你把四轮车拆掉两个轮子，余下两个轮子挪到中间，就成了自行车。

1.2 人体重心模拟

但是这样自行车就能不倒吗？我们人类骑车的话，身体的重心是在不停调整的，与车速，车倾斜角度等配合，达到了车不倒的效果，因此，在这个无人驾驶自行车中，除了车，还需要一个可移动的重心。当然，如果不用和人骑车类似的控制方式，也不是说就骑不了，比如谷歌在愚人节发布的吹牛逼版自行车，清华学霸发明的真 · 无人驾驶，还有泰国学霸版的，只不过我想玩这种靠重心的哈哈。这个重心的移动应该是靠力矩（就像人的腰部关节的扭矩力，让人身体各种倾斜），因此我在车上加了一个类似于机械臂的物体，该物体模拟人的倾斜，从而改变人与车整体的重心。机械臂以底端为关节点旋转，只能在图中红线所画的圆锥范围内（与垂直轴夹角不超过45度）靠扭矩力移动。机械臂利用了unity的configurable joint（可配置关节）实现，可配置关节比较复杂，我就不讲了，反正作用就和mujoco里的机械臂一样一样的，靠扭矩力（底端的关节点）移动。

（5）

1.3 其他

自行车和模拟人体重心的部分都做好了，剩下的就是车要交互的场景了，如果你看了开头的视频，里面展示了两个环境，一个是直线加速环境，另一个是训练转弯的环境。两个环境中都有一个target（直线环境中为位于终点的黄色物体，弯道环境中为派大星）。而自行车需要保持不倒，并且尽快碰到target。由于弯道环境比直线环境训练起来更加困难的多得多得多，因此我在弯道环境多次使用了迁移学习，所以gym版环境就不包含弯道环境了（不用迁移，直接训练弯道环境到达成目标应该是做不到的），只有直线的。

2. 定义DRL的输入与输出。

DRL算法从神经网络的角度看，还是给输入，神经网络吐出输出。输入就是状态，也就是环境中你需要了解的东西，吐出来的就是动作，也就是你在这种状态下该咋办。在无人驾驶自行车这个小项目中，我设置的状态如图：

（6）

图中标号1，代表在世界坐标系下车目前离目标的距离的向量（状态+3），并且用1500m来归一化（因为直线赛道我设置了1500米长，注释里的100m请无视），因为3d环境，所以向量是三维的，也就是已经有三个输入了。

图中标号2，代表车子到赛道中心（1500m长的板子的中心位置，750m处）的向量（+3）。需要说明的是，在后面的弯道环境中，并没有采用这个向量，只有车与目标间的相对位置，角度等。训练时与绝对坐标点无关，车子才能在任意地方都到达target。

图中标号3，当前时刻车速，也是向量（+3）。

图中标号4，当前车的角速度，也是向量（+3），考虑角速度是怕自行车逮虾户（漂移），在真的不确定某个状态需不需要时，我一般都会加上，多加个状态，结果又不会变多差，我觉得这不是造原型时需要过度考虑的。

图中标号5，车身的前向在世界坐标中的三维向量（也就是人坐车上脸超前的方向）（+3），该向量与标号1的向量做点积，可以得到两向量的夹角，这个信息是很有用的。

图中标号6，车子自身坐标的上方向，在世界坐标下的向量值（也就是车坐下面那根棍子，方向朝着车座，的单位向量）（+3）

图中标号7，车头相对于车身的旋转角度（左右旋转我都限制了不超过45度）（+1）。

图中标号8，当前时刻车子是否碰着地面（+1）

图中标号9，当前自行车后轮的扭矩力大小（动力，我设置的扭矩不超过80N）（+1）

图中标号10，11，14共同表示了重心的当前的状态（+3）。简单解释的话,图中红色和黄色代表了人在以车身为坐标系下的旋转，两个方向都只能左右倾斜45度，也就是每个方向有90度活动空间，0和1说明是归一化了，因此，图中正坐在车上时，状态10和11都是0.5. 而状态14代表了机械臂的扭矩力的大小（图中柱子的底端用力）。

（7）

图中标号12表示机械臂的在世界坐标下的旋转角度（由四元数表示，因此+4）

图中标号13表示机械臂当前的角速度（+3）

以上，共31个状态。我猜看到这，大家疑问最多的问题就是：你干嘛不用卷积，直接把图像当输入。(⊙﹏⊙)因为，我这是游戏引擎，我能直接得到上面这些信息，我干嘛还要用图像再去推断我车子现在倾斜多少，距离目标多远这些信息呢，对于车速等信息，还要将多帧图片堆叠，还要用RNN来表征，这使问题更复杂了。在做这个车时，我自己也没谱能否训练好，所以自然会去选最容易训练好的状态信息。现在我确信车子能训练好了，倒是可以用CNN+RNN当输入状态试试看（但是我懒?）

输入说完了，那么神经网络的输出动作呢？这就比较直觉了，输出动作共5个：

1.车头旋转角度的增量（即该时刻下车头应该增加的角度，限制了最大增量一秒100度（-100到+100），才真实嘛）

2.后轮扭矩的增量（一秒最多增加80N）

动作3，4，5共同决定了该时刻人的腰部准备往哪个方向用力，腰部用多大的力。动作3代表了图（7）中红色扇形中的某个位置（神经网络估计出的），相应的，动作4代表了黄色扇形中的一个位置，3，4共同确定了一个人想在此时到达的目标位置，而动作5表示了为了到该位置，人腰部目前用的力的大小（这可真真实?）

3.奖励函数的设置

环境搭好了，输入输出也都设置好了，那么就到了比较有意思又见仁见智的奖励函数设置环节啦。不管是直线加速环境还是拐弯训练环境，如果都只在碰到终点时给予奖励，倒了就失败，那真的是打死它它都训练不好，这是标准的稀疏奖励问题。那么一个比较常用的手段就是reward shaping，也就是除了最终奖励之外，我们造一些奖励引导AI达到目标。在直线环境中，我给AI的附加附加奖励是当车与目标的距离变短了，就给它奖励，这样它就会想尽办法尽量靠近目标。其他奖励就是，如果掉出板子，就-1，直接结束；如果车身倾斜角度大于45度，就-1，直接结束；如果碰到目标，就+1，结束。

而弯道环境更加复杂，只用reward shaping都不行，我还多次用了课程学习（其实就是迁移学习），如图：

（8）

在弯道环境中，如果一开始就让目标在车一定半径内随机位置出现，训练自行车，基本上训练不好，因为奖励太稀疏了，自行车需要不倒，并控制拐弯，还要拐好角度，最终才能碰到目标。因此我将整个训练分成了多个阶段性任务。首先，目标只会出现在红色扇形区域，并且给车一定的初速度，这样车比较容易碰到目标；训练好之后（可以为训练了足够轮数，或者reward达到了目标值），将目标区域扩大为蓝色区域，并减小初始车速；训练好后再逐个变到紫，黑，黄...区域，直至360度，同时半径也在增大，初始车速在减小。最终，一定半径内，从0车速出发，360度内，车都能碰到目标。

4.环境训练

我其实只是自己做着玩的[]~(￣▽￣)~*，所以算法部分就直接用的unity自带的ppo算法训练了。由于动作是连续值，dqn类不适合这个任务，如果你喜欢，可以用其他rl算法来训练。我把环境封装了下（可视化的呦，可以看到自己训练好后的无人驾驶自行车），你可以从两种方式中任选一种来自己训练自行车：

方式一：unity自带的训练方式

该方式需要下载github中的BikeScene_train压缩包。先安装mlagents（unity的机器学习工具包），安装方式很简单，建立一个新的python3.6的虚拟环境，然后pip install mlagents就完了,或者你也可以看官方的安装教程。在该环境下，读取环境，获取状态和动作的逻辑都在nogym.ipynb里，你可以添加自己的算法来训练自行车。官方参考脚本需要注意的是，在训练时，请保持ipynb中train_mode为True，表示处于训练模式，训练模式下游戏画面只有80*80像素，是为了加速训练而不是为了让人看；而训练好后，请设置train_mode为False，表示处于推理阶段，推理阶段的画面会自动为1280*720分辨率，并且时间也是正常速度，可以把玩自己的自行车。

方式二：gym环境

该方式同样需要安装mlagents（建立一个新的python3.6的虚拟环境，然后pip install mlagents就完了,或者你也可以看官方的安装教程。）。在gym环境下需要同时下载github中的BikeScene_train压缩包和BikeScene_inferer压缩包。该环境比较适合熟悉gym的童鞋，参考脚本为github中的gym.ipynb. 至于你想用openai的算法还是dopamine的算法还是自己写的算法，都可以，可以参考官方示例。在训练时加载BikeScene_train里的exe（80*80分辨率），训练好后，修改路径为BikeScene_inferer里的exe（1280*720分辨率），就可以看到训练好的自行车了。

最后，可以自己玩的自行车：

我还做了个可以玩的环境，就是github里的BikeScene_playable压缩包，解压后，里面的exe是可以双击运行的。按数字键0是我训练了500万步的AI自己控制的自行车（其实没训练好，有时会跌倒）；按数字键1是玩家自己控制自行车：w为蹬的力最大，A和D控制车头的左右，上下左右箭头控制中心（中间那个棍子）的移动；按数字键2是固定了车子的Z轴旋转之后，玩家控制自行车，控制按键同模式2. 因为其实人类是玩不转模式2的，所以我加了模式3ㄟ( ▔, ▔ )ㄏ这估计是我做过的最辣鸡的游戏了(￣_￣|||) 对了，我忘加退出游戏的选项了，请点 × 退出?。

如果有啥我没讲清楚的，可以加微信dada_biubiubiu ，之后做了好玩的环境我都会打包发布?。

OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
缩小模拟与现实之间的差距：使用 NVIDIA Isaac Lab 训练 Spot 四足动物运动 AI人工智能集结号人工智能
目录在IsaacLab中训练四足动物的运动能力目标观察和行动空间域随机化网络架构和RL算法细节先决条件用法训练策略执行训练好的策略结果使用JetsonOrin在Spot上部署经过训练的RL策略先决条件JetsonOrin上的硬件和网络设置Jetson上的软件设置运行策略开始开发您的自定义应用程序由于涉及复杂的动力学，为四足动物开发有效的运动策略对机器人技术提出了重大挑战。训练四足动物在现实世界中上
Codeforces Round 969 (Div. 2 ABCDE题) 视频讲解阿史大杯茶 Codeforces 算法 c++数据结构
A.Dora’sSetProblemStatementDorahasasetssscontainingintegers.Inthebeginning,shewillputallintegersin[l,r][l,r][l,r]intothesetsss.Thatis,anintegerxxxisinitiallycontainedinthesetifandonlyifl≤x≤rl\leqx\leq
论文速读|全身人型机器人控制学习与序列接触 28BoundlessHope 人形机器人文献阅读人工智能机器人
项目地址：WoCoCo:LearningWhole-BodyHumanoidControlwithSequentialContactsWoCoCo（Whole-BodyControlwithSequentialContacts）框架通过将任务分解为多个接触阶段，简化了策略学习流程，使得RL策略能够通过任务无关的奖励和模拟到现实的设计来学习复杂的人型机器人控制任务。该框架仅需要对每个任务指定少量任务
【3.7】贪心算法-解分割平衡字符串攻城狮7号贪心算法算法 c++
一、题目在一个平衡字符串中，'L'和'R'字符的数量是相同的。给你一个平衡字符串s，请你将它分割成尽可能多的平衡字符串。注意：分割得到的每个字符串都必须是平衡字符串。返回可以通过分割得到的平衡字符串的最大数量。示例1：输入：s="RLRRLLRLRL"输出：4解释：s可以分割为"RL"、"RRLL"、"RL"、"RL"，每个子字符串中都包含相同数量的'L'和'R'。示例2：输入：s="RLLLLR
基于强化学习的制造调度智能优化决策松间沙路hba 智能调度强化学习制造智能排程车间调度 APS 强化学习
获取更多资讯，赶快关注上面的公众号吧！文章目录调度状态和动作设计调度状态的设计调度动作的设计基于RL的调度算法基于值函数的RL调度算法SARSAQ-learningDQN基于策略的RL调度算法基于RL的调度应用基于RL的单机调度基于RL的并行机调度基于RL的流水车间调度基于RL的作业车间调度基于RL的其他调度RL与元启发式算法在调度中的集成应用讨论问题领域算法领域应用领域参考文献生产调度作为制造系
深度学习学习经验——强化学习（rl） Linductor 深度学习学习经验深度学习学习人工智能
强化学习强化学习（ReinforcementLearning,RL）是一种机器学习方法，主要用于让智能体（agent）通过与环境的互动，逐步学习如何在不同情况下采取最佳行动，以最大化其获得的累积回报。与监督学习和无监督学习不同，强化学习并不依赖于已标注的数据集，而是通过智能体在环境中的探索和试错来学习最优策略。强化学习的主要特点：基于试错学习：强化学习中的智能体通过与环境的互动，不断尝试不同的行动
粒子群优化算法和强化算法的优缺点对比，以表格方式进行展示。详细解释资源存储库笔记笔记
粒子群优化算法（PSO）和强化学习算法（RL）是两种常用的优化和学习方法。以下是它们的优缺点对比，以表格的形式展示：特性粒子群优化算法（PSO）强化学习算法（RL）算法类型优化算法学习算法主要用途全局优化问题，寻找最优解学习和决策问题，优化策略以最大化长期奖励计算复杂度较低，通常不需要梯度信息；计算复杂度与粒子数量和迭代次数有关较高，涉及到策略网络的训练和环境交互；复杂度取决于状态空间、动作空间以
请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施盛溪的猫猫感悟大数据英语加拿大
目录请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施国际化学生生活大语言模型目前的问题卡尔加里经济地理和气候文化和活动教育交通绿色城市AVL树的旋转单右旋（LL旋转）单左旋（RR旋转）左右旋（LR旋转）右左旋（RL旋转）请介绍一下大数据主要是干什么的？大数据是一个涉及从极其庞大和复杂的数据集中提
TinyUSB 基本使用 czy8787475 DDM 单片机
由于早期时候我们产品基于STM32开发,自然而然的用了STM32的USB库,这个本身没什么问题,库也很完善,而且有官方在完善,这本来是个不错的东西,但是随着ST的缺货,问题就越来越多,比如别人的芯片可不会兼容ST的库,如果是标准设备那还好,如果像我们还做HOTPKey这样的,移植起来就相当的麻烦.一开始他们推荐我使用RL-USB,但是RL-USB始终是挂载RTX上的,至于哪一天RTX也出毛病,这就
【强化学习】day1 强化学习基础、马尔可夫决策过程、表格型方法宏辉强化学习 python 算法强化学习
写在最前：参加DataWhale十一月组队学习记录【教程地址】https://github.com/datawhalechina/joyrl-bookhttps://datawhalechina.github.io/easy-rl/https://linklearner.com/learn/detail/91强化学习强化学习是一种重要的机器学习方法，它使得智能体能够在环境中做出决策以达成特定目标。
今日arXiv最热NLP大模型论文：无需数据集，大模型可通过强化学习与实体环境高效对齐 | ICLR2024 夕小瑶自然语言处理人工智能深度学习
引言：将大型语言模型与环境对齐的挑战虽然大语言模型（LLMs）在自然语言生成、理解等多项任务中取得了显著成就，但是在面对看起来简单的决策任务时，却常常表现不佳。这个问题的主要原因是大语言模型内嵌的知识与实际环境之间存在不对齐的问题。相比之下，强化学习（RL）能够通过试错的方法从零开始学习策略，从而确保内部嵌入知识与环境的对齐。但是，怎样将先验知识高效地融入这样的学习过程是一大挑战，为了解决这一差距
【RL】Bellman Optimality Equation（贝尔曼最优等式）大白菜～人工智能算法机器学习人工智能深度学习
Lecture3:OptimalPolicyandBellmanOptimalityEquationDefinitionofoptimalpolicystatevalue可以被用来去评估policy的好坏，如果：vπ1(s)≥vπ2(s) foralls∈Sv_{\pi_1}(s)\gev_{\pi_2}(s)\;\;\;\;\;\text{forall}s\inSvπ1(s)≥
Codeforces CF1516D Cut PYL2077 题解 #Codeforces 数论倍增线段树数据结构
题目大意给出一个长度为nnn的序列aaa，以及qqq次询问每次询问给出l,rl,rl,r，问最少需要把区间[l,r][l,r][l,r]划分成多少段，满足每段内元素的LCM等于元素的乘积这数据范围，这询问方式，一看就是DS题首先，我们考虑LCM的性质。如果一段区间内的数的LCM等于所有元素之积，那么这个区间中的数一定两两互质。我们设nxtinxt_inxti表示iii后面第一个与aia_iai不互
Linux下安装java11（亲测）小白想要逆袭开发环境配置与部署 linux 运维服务器
1.首先下载java11yumsearchjava-11-openjdk1.1选择相应版本（本人是x86_64）（ps:如果不知道选择哪个版本可以输入arch或者uname-a命令查看系统版本信息）1.2进行下载yuminstalljava-11-openjdk.x86_64-y2.查看java11下载位置ls-rl$(whichjava)3.进行环境配置vim/etc/profile3.1使配置
成语故事：乘兴而来墨殇一语
【乘兴而来】chéngxìngérlái，意思是趁着兴致来到，结果很扫兴的回去。出自于《晋书.王徽之传》：“徽之曰：‘本乘兴而来，兴尽而返，何必见安道耶？’”王徽之是东晋时的大书法家王羲之的三儿子，生性高傲，不愿受人约束，行为豪放不拘。虽说在朝做官，却常常到处闲逛，不处理官衙内的日常事务。后来，他干脆辞去官职，隐居在山阴（今绍兴），天天游山玩水，饮酒吟诗，倒也落得个自由自在。有一年冬天，鹅毛大雪纷
算法竞赛例题讲解：平方差第十四届蓝桥杯大赛软件赛省赛 C/C++ 大学 A 组 C平方差若亦_Royi C++算法算法蓝桥杯 c语言
题目描述给定LLL和RRR，问L≤x≤RL\leqx\leqRL≤x≤R中有多少个数xxx满足存在整数yyy,zzz使得x=y2−z2x=y^{2}-z^{2}x=y2−z2。输入格式输入一行包含两个整数LLL,RRR，用一个空格分隔。输出格式输出一行包含一个整数满足题目给定条件的xxx的数量。输入输出样例输入#115输出#14说明/提示【样例说明】1=12−021=1^{2}−0^{2}1=12
【RL】Bellman Equation （贝尔曼等式）大白菜～人工智能概率论人工智能算法机器学习
Lecture2:BellmanEquationStatevalue考虑grid-world的单步过程：St→AtRt+1,St+1S_t\xrightarrow[]{A_t}R_{t+1},S_{t+1}StAtRt+1,St+1ttt,t+1t+1t+1：时间戳StS_tSt：时间ttt时所处的stateAtA_tAt：在stateStS_tSt时采取的actionRt+1R_{t+1}Rt+
【RL】Basic Concepts in Reinforcement Learning 大白菜～人工智能机器学习算法人工智能深度学习
Lecture1:BasicConceptsinReinforcementLearningMDP(MarkovDecisionProcess)KeyElementsofMDPSetState:ThesetofstatesS\mathcal{S}S（状态S\mathcal{S}S的集合）Action:thesetofactionsA(s)\mathcal{A}(s)A(s)isassociatedf
AVL树土豆有点
AVL树是高度平衡的而二叉树。它的特点是：AVL树中任何节点的两个子树的高度最大差别为1。如果在AVL树中进行插入或删除节点后，可能导致AVL树失去平衡。这种失去平衡的可以概括为4种姿态：LL(左左)，LR(左右)，RR(右右)和RL(右左)。下面给出它们的示意图：image.png上图中的4棵树都是"失去平衡的AVL树"，从左往右的情况依次是：LL、LR、RL、RR。除了上面的情况之外，还有其它
DQN的理论研究回顾 Jay Morein 强化学习与多智能体深度学习学习
DQN的理论研究回顾1.DQN简介强化学习（RL）（Reinforcementlearning:Anintroduction,2nd,ReinforcementLearningandOptimalControl）一直是机器学习的一个重要领域，近几十年来获得了大量关注。RL关注的是通过与环境的交互进行连续决策，从而根据当前环境制定指导行动的策略，目标是实现长期回报最大化。Q-learning是RL中
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版（八）绝不原创的飞龙人工智能 tensorflow
原文：Hands-OnMachineLearningwithScikit-Learn,Keras,andTensorFlow译者：飞龙协议：CCBY-NC-SA4.0第十八章：强化学习强化学习（RL）是当今最激动人心的机器学习领域之一，也是最古老的之一。自上世纪50年代以来一直存在，多年来产生了许多有趣的应用，特别是在游戏（例如TD-Gammon，一个下棋程序）和机器控制方面，但很少成为头条新闻。
PyTorch 2.2 中文官方教程（八）绝不原创的飞龙人工智能 pytorch
训练一个玛丽奥玩游戏的RL代理原文：pytorch.org/tutorials/intermediate/mario_rl_tutorial.html译者：飞龙协议：CCBY-NC-SA4.0注意点击这里下载完整的示例代码作者：冯元松,SurajSubramanian,王浩,郭宇章。这个教程将带你了解深度强化学习的基础知识。最后，你将实现一个能够自己玩游戏的AI马里奥（使用双深度Q网络）。虽然这个
day18-三剑客-sed 杨丶子
16952149-298845fa3deeeae5.png三剑客——sed(增删改查)grep的参数grep过滤-i不区分大小写-v取反-n显示行号-o显示每次grep匹配到的内容-E支持扩展正则egrep-w按照单词匹配-A显示grep找出的内容下几行-B显示grep找出的内容上几行-C同时显示grep找出的内天上下几行-l过滤时只显示文件名不显示内容-R递归进行过滤grep-Rl'oldboy
leetcode167 两数之和 II - 输入有序数组南方乌鸦算法 leetcode 数据结构
文章目录1.解法：双指针2.原题[167.两数之和II-输入有序数组](https://leetcode.cn/problems/two-sum-ii-input-array-is-sorted/)1.解法：双指针定义两个指针分别l,rl,rl,r指向数组的最小和最大元素，即左右边界，其中lll向右遍历，rrr向左遍历当l,rl,rl,r指向的两数之和等于target，就是我们要的结果。如果大于t
H12-831_206 cn_1949 网络
206、根据本图，我们可以判断出?A.Rl的设备类型肯定不是Level-1B.R1有6条IS-IS的IPv6路由C.R1没有IS-IS的IPv6路由D.R1的GigabitEthernetO/0/1一定使能了IS-ISIPv6答案：ABD注释：这道题关注点是A选项。Level-1-2路由器和Level-2路由器才能学习到ISIS-L2路由。
用通俗易懂的方式讲解：一文详解大模型 RAG 模块 Python算法实战大模型理论与实战大模型人工智能大模型 langchain 深度学习 RAG 检索增强生成多模态大模型
文章目录什么是RAG？技术交流&资料通俗易懂讲解大模型系列RAG模块化什么是模块化RAG？索引模块块优化滑动窗口从小到大元数据附加结构化组织层次化索引知识图谱文档组织预检索模块查询扩展多查询子查询CoVe查询转换重写HyDE查询路由元数据路由器/过滤器语义路由器查询构建检索模块检索模型选择稀疏检索器密集检索器检索器微调SFT（自我训练）LSR（语言模型监督检索器）RL（强化学习）Adapter后处
Python 实战人工智能数学基础：强化学习 Python人工智能大数据 Python入门实战 Java入门实战 React入门实战大数据人工智能语言模型 Java Python React 架构设计
1.背景介绍强化学习（ReinforcementLearning，简称RL）是一种人工智能技术，它旨在让计算机代理在与环境的交互中学习如何执行行动，以最大化累积奖励。强化学习的核心思想是通过试错、反馈和奖励来学习，而不是通过传统的监督学习方法，如分类器或回归器。强化学习的主要应用领域包括游戏（如AlphaGo）、自动驾驶（如TeslaAutopilot）、机器人控制（如BostonDynamics
pytorch_car_caring 排坑记录 Debug的魔法小马项目复现踩坑记录 pytorch 人工智能 python
pytorch_car_caring排坑记录任务踩坑回顾简单环境问题代码版本问题症状描述解决方法cuda问题（异步问题）症状描述解决方法任务因为之前那个MPC代码跑出来的效果不理想，看了一天代码，大概看明白了，但要做改进还要有不少工作（对我来说），特别是如何对效果进行评估。正好我还要用到RL做这个任务的代码，就在github上看了下，发现有几个，打算都跑跑，看谁效果好，代码又干净，就用谁的。本菜鸡
【具身智能】论文系列解读-RL-ViGen & ArrayBot & USEEK JackCrum 具身智能 LLM 神经网络人工智能
1.RL-ViGen：视觉泛化的强化学习基准RL-ViGen:AReinforcementLearningBenchmarkforVisualGeneralization0摘要与总结视觉强化学习（VisualRL）与高维观察相结合，一直面临着分布外泛化的长期挑战。尽管重点关注旨在解决视觉泛化问题的算法，但我们认为现有的基准测试存在问题，因为它们仅限于孤立的任务和泛化类别，从而破坏了对智能体视觉泛化
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb