风度78

深度强化学习入门介绍

深度强化学习是一种机器学习，其中智能体(Agent，也翻译作代理)通过执行操作（Action）和查看结果（Reward）来学习如何在环境中采取最佳的动作或策略。

自 2013 年Deep Q-Learning 论文^[1]以来，强化学习已经有了很多突破。从击败世界上最好 Dota2 玩家的^[2]OpenAI到Dexterity ^[3]，我们正处于深度强化学习研究的激动人心的时刻。

OpenAI 5，一个打败了世界上最好的 Dota2 玩家 ^[4] 的人工智能

此外，由于很多开源库（TF-智能体s, Stable-Baseline 2.0…）和仿真环境的公开：Mine强化学习 (Minecraft), Unity ML-智能体s, OpenAI retro (NES, SNES, Genesis games…)。大家现在可以随时使用仿真游戏环境来测试自己的强化学习程序。

在本课程中，您将通过使用 Tensorflow 和 PyTorch 来训练能玩太空入侵者、Minecraft、星际争霸、刺猬索尼克等游戏的聪明的智能体。

在第一章中，您将学习到深度强化学习的基础知识。在训练深度强化学习智能体之前，掌握这些深度学习的基础知识非常重要。让我们开始吧！

一.什么是强化学习？

为了理解什么是强化学习，让我们从强化学习的核心思想开始。

强化学习的核心思想是，智能体（AI）将通过与环境交互（通过反复试验）并接收奖励（负面或正面）作为执行动作的反馈来从环境中学习。

例如，想象一下你把你的弟弟放在一个他从未玩过的电子游戏面前，手里拿着一个控制器，让他一个人呆着。

游戏场景

他通过按右键（动作）与环境（视频游戏）互动。得到了一枚硬币，这是+1的奖励。也许在这场比赛中，他只是知道必须得到金币。

获得奖励

当他碰到敌人时，获得-1的惩罚。

获得惩罚

通过反复试验与他的环境互动，你的弟弟才明白，在这个环境中，他需要获得金币，但要避开敌人。

在没有任何监督的情况下，孩子会越来越擅长玩游戏。

这就是人类和动物通过互动学习的方式。强化学习就是一种从行动中学习的最优解的方法。

1、正式定义

我们现在给出强化学习的一个正式的定义：

强化学习是一种通过构建智能体来解决控制任务（也称为决策问题）的框架。智能体通过与环境互动、反复试验和领取奖励来制定自己的策略。

但是强化学习是如何工作的呢？

二.强化学习框架

强化学习过程

强化学习过程：状态、动作、奖励和下一个状态的循环

为了理解强化学习过程，让我们想象一个智能体学习玩平台游戏：

智能体玩游戏场景

我们的智能体从环境接收状态 S0——我们接收游戏的第一帧（环境）。
基于状态 S0，智能体采取行动 A0——我们的智能体将向右移动。
环境转换到新状态 S1 — 新框架。
环境给了智能体一些奖励 R1——我们没有死*(Positive Reward +1)*。

这个强化学习循环输出状态、动作和奖励以及下一个状态的序列。

状态、动作、奖励、下一个状态

2、预期回报

智能体的目标是最大化累积奖励，称为预期回报，为什么智能体的目标是最大化预期回报？

因为强化学习是基于奖励假设，即所有目标都可以描述为预期回报（预期累积奖励）的最大化。这就是为什么在强化学习中，为了获得最佳行为，我们需要最大化预期累积奖励。

3、观察/状态空间

观察/状态是我们的智能体从环境中获得的信息。在视频游戏的情况下，它可以是一张截图，在交易智能体的情况下，它可以是某只股票的价值等。

观察和状态之间有一个区别：

State s：是对环境状态的完整描述（没有隐藏信息）。在完全观察的环境中。

国际象棋游戏中，我们从环境中接收状态，因为我们可以访问整个棋盘信息。
对于国际象棋游戏，我们处于完全观察的环境中，因为我们可以访问整个棋盘信息。

观察 o：是状态的部分描述。在部分观察的环境中。

在《超级马里奥兄弟》中，我们只能看到靠近玩家的关卡的一部分，因此我们收到了观察结果。

在《超级马里奥兄弟》中，我们只是处于一个部分观察的环境中，我们收到了一个观察结果，因为我们只看到了关卡的一部分。

4、行动空间

动作空间是环境中所有可能动作的集合。动作可以来自离散或连续空间：

离散空间：可能动作的数量是有限的。

在《超级马里奥兄弟》中，我们只有 4 个方向并且可以跳跃

在《超级马里奥兄弟》中，我们有一组有限的动作，因为我们只有 4 个方向和跳跃。

连续空间：可能的动作数量是无限的。

自动驾驶汽车智能体有无数种可能的动作，因为他可以左转 20°、21°、22°、鸣喇叭、右转 20°、20,1°……

自动驾驶场景

考虑这些信息是至关重要的，因为它在我们将来选择强化学习算法时很重要。

5、奖励和折扣因子

奖励是强化学习的基础，因为它是智能体和环境交互后的唯一反馈。有了它，我们的智能体才知道所采取的行动是否足够好。

每个时间步长 t 的累积奖励可以写成：

累积奖励等于该序列所有奖励的总和。

等式还可以写成：

累积奖励等于该序列所有奖励的总和。

但实际上，我们不能就这样简单累加奖励。在游戏开始时出现的奖励更有可能发生，因为它们比未来的奖励更可预测。

假设您的智能体是这只小老鼠，它可以在每个时间步移动一步，而您的对手是猫（它也可以移动）。你的目标是在被猫吃掉之前吃掉最大量的奶酪。

我们附近的奶酪比猫附近的奶酪更有可能被吃掉（我们离猫越近，它就越危险）

因此，靠近猫的奖励，即使它更大（更多的奶酪），该奖励的风险也会更大，因为我们不确定我们能否吃到它。为了计算这部分奖励，我们定义了折扣奖励。

为了计算折扣奖励，我们是这样进行的：

1、定义一个称为的γ 的折扣银子。它必须介于 0 和 1 之间。

γ越大，折扣越小。这意味着我们的智能体更关心长期奖励。另一方面，γ越小，折扣越大。这意味着我们的智能体更关心短期奖励（最近的奶酪）。

2、每个奖励将通过 γ 折现为时间步长的指数

随着时间步长的增加，猫离我们越来越近，所以未来的奖励发生的可能性越来越小。

我们的折扣累积预期奖励是：

折扣累积预期奖励

6、任务类型

任务是强化学习问题的一个实例。我们可以有两种类型的任务：离散的和连续的。

离散任务，在这种情况下，我们有一个起点和一个终点（终止状态）。这将创建一个序列：状态、操作、奖励和新状态。

例如，在《超级马里奥兄弟》游戏中，这个序列从新马里奥关卡开始，并马里奥被杀或到达关卡终点时结束。

序列的开始

连续任务，这些是永远持续的任务（没有终止状态）。在这种情况下，智能体必须学习如何选择最佳动作并随时与环境交互。

例如，进行自动股票交易的智能体。对于这个任务，没有起点和终点。智能体一直运行，直到我们决定关闭它。

股票交易场景

7、探索/利用权衡

最后，在研究强化学习解决问题的不同方法之前，我们必须讨论一个非常重要的点：探索/利用。

探索是通过尝试随机动作来探索环境，以找到有关环境的更多信息。利用是根据已知的信息来最大化奖励。

我们强化学习智能体的目标是最大化预期累积奖励。然而，我们可能会陷入一个陷阱。

老鼠吃奶酪游戏

在这个游戏中，我们的老鼠可以拥有无限量的小奶酪（每个+1）。但是在迷宫的顶部，有一堆大奶酪（+1000）。

如果我们只专注于利用，我们的智能体永远到不了大奶酪那里（探索）。它只会获取最近的奖励，即使这个奖励很小（利用）。

但是如果我们的智能体做一点探索，它可以发现更大的奖励（一堆大奶酪）。

这就是我们所说的探索/利用的权衡。我们需要平衡对环境的探索程度和对环境的了解程度。

因此，我们必须定义一个规则来处理这种情况。我们将在以后的章节中看到不同的处理方式。如果这个问题令人困惑，请考虑一个真正的问题：餐厅的选择。

餐厅的选择

利用：每天都去同一家您认为不错的餐厅，并冒着错过另一家更好餐厅的风险。

探索：尝试以前从未去过的餐厅，冒着体验不好的风险，但可能有机会获得美妙的体验。

三、解决强化学习问题的两种主要方法

既然我们学习了强化学习框架，那么我们如何解决强化学习问题呢？换句话说，如何构建一个可以选择最大化其预期累积奖励的动作的强化学习智能体？

1、策略π：智能体的大脑

策略π是我们智能体的大脑，它是告诉我们在给定状态下要采取什么行动的函数。所以它定义了在给定一段时间内的智能体行为。

状态、策略、动作

将策略视为我们智能体的大脑，该功能将告诉我们在给定状态下采取的行动，这个策略π就是我们要学习的函数，我们的目标是找到最优策略π*，当智能体按照它行动时，是期望收益最大化的策略。我们通过训练找到了这个π*。

有两种方法可以训练我们的智能体来找到这个最优策略π*：

直接地，基于策略的方法：通过教智能体学习在给定状态下要采取的行动。
间接地，基于价值的方法：教智能体了解哪个状态更有价值，然后采取会出现更有价值状态的行动。

2、基于策略的方法

在基于策略的方法中，我们直接学习策略函数。该函数将从每个状态映射到该状态的最佳对应动作，或者该状态下一组可能动作的概率分布。

基于策略的函数

正如我们在这里看到的，策略（确定性的）直接指示每一步要采取的行动。

我们有两种类型的策略：

确定地：在给定状态下该策略将始终返回相同的操作。

行动 = 政策（状态）

给定状态下输出动作

随机地：在给定状态下该该策略输出动作的概率分布。

policy(actions | state) = 给定当前状态的一组动作的概率分布

给定一个初始状态，随机策略将输出该状态下可能动作的概率分布

3、基于价值的方法

在基于价值的方法中，我们不是训练策略函数，而是训练一个将状态映射到处于该状态的预期值的值函数。

一个状态的价值是如果智能体从该状态开始，根据我们的策略采取行动，它可以获得的最大的折扣累积预期奖励。

“按照我们的策略行事”意味着我们的策略是“走向价值最高的”。

价值函数为每个可能的状态定义了价值

价值函数在迷宫游戏的使用

有了我们的价值函数，在每一步，我们的策略都会选择价值函数定义的具有最大价值的状态：-7，然后是-6，然后是-5（等等）来实现目标。

四、强化学习的“深度”

谈到了强化学习，但我们为什么要谈论深度强化学习？深度强化学习引入了深度神经网络来解决强化学习问题——因此得名“深度”。

例如，在下一篇文章中，我们将研究 Q-Learning（经典强化学习）和 Deep Q-Learning，两者都是基于价值的强化学习算法。

您会看到不同之处在于，在第一种方法中，我们使用传统算法来创建 Q 表，以帮助我们找到对每个状态要采取的操作。

在第二种方法中，我们将使用神经网络（来近似 q 值）。

Q-Learning和 Deep Q-Learning

五、总结

我们总结一下今天学到的知识：

强化学习是一种从行动中学习的计算方法。我们构建了一个智能体，它通过反复试验与环境交互并接收奖励（负面或正面）作为反馈，从环境中学习到动作的好坏。

任何强化学习智能体的目标都是最大化其预期累积奖励（也称为预期回报），因为强化学习基于奖励假设，所有目标都可以描述为预期累积奖励的最大化。

强化学习过程是一个循环，可以定义为：状态、动作、奖励和下一个状态的序列。

为了计算预期累积奖励（预期回报），我们对奖励打折：较早（在游戏开始时）出现的奖励更有可能发生，因为它们比长期未来奖励更可预测。

要解决强化学习问题，需要找到最佳策略，策略是智能体的“大脑”，它会告诉我们在给定状态下要采取什么行动。最佳的一种策略能提供最大化预期回报的行动。

有两种方法可以找到最佳策略：

通过直接训练的策略：基于策略的方法。

通过训练一个价值函数，告诉我们智能体在每个状态下将获得的预期回报，并使用这个函数来定义我们的策略：基于价值的方法。

最后，我们谈论深度强化学习，因为我们引入了深度神经网络来估计要采取的动作（基于策略）或估计状态的值（基于值），因此称为“深度”。

参考资料

[1]Deep Q-Learning 论文:

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

[2]击败世界上最好 Dota2 玩家的:

https://www.twitch.tv/videos/293517383

[3]Dexterity :

https://openai.com/blog/learning-dexterity/

[4]打败了世界上最好的 Dota2 玩家:

https://www.twitch.tv/videos/293517383

原文链接：

https://thomassimonini.medium.com/an-introduction-to-deep-reinforcement-learning-17a565999c0c

- EOF -

往期精彩回顾




适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑黄海广老师《机器学习课程》视频课

本站qq群851320808，加入微信群请扫码：

计算机视觉：解锁未来智能的钥匙及其代码实践我的运维人生计算机视觉人工智能运维开发技术共享
计算机视觉：解锁未来智能的钥匙及其代码实践在当今这个数据爆炸的时代，计算机视觉作为人工智能的一个重要分支，正以前所未有的速度推动着科技的边界。它不仅让机器“看懂”世界，更在自动驾驶、医疗影像分析、智能制造、安防监控等众多领域展现出巨大的应用潜力。本文将深入探讨计算机视觉的核心技术、最新进展，并通过一个具体的代码案例，展示如何在实践中应用这些技术，旨在为读者提供一个理论与实践相结合的全面视角。一、计
ImportError: DLL load failed while importing _rust: 找不到指定的程序的解决方案爱编程的喵喵 Python基础课程 python ImportError DLL load failed _rust 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:DLLloa
无重复字符的最长子串不停留 150道经典算法面试习题 javascript 开发语言 ecmascript
hello大家好！今天开写一个新章节，每一天一道算法题。让我们一起来学习算法思维吧！functionlengthOfLongestSubstring(s){//用于存储字符及其在字符串中最新出现的索引constcharIndexMap=newMap();//记录最长无重复字符子串的长度letmaxLength=0;//滑动窗口的起始位置letstart=0;//遍历字符串，end作为滑动窗口的结束
长度最小的子数组不停留 150道经典算法面试习题 javascript 数据结构算法
hello大家好！今天开写一个新章节，每一天一道算法题。让我们一起来学习算法思维吧！functionminSubArrayLen(target,nums){constn=nums.length;//初始化最小子数组长度为一个较大的值，用于后续比较更新letminLength=Infinity;//初始化当前子数组的起始位置letstart=0;//初始化当前子数组的元素总和letsum=0;//遍
算法-三数之和不停留 150道经典算法面试习题算法 javascript 数据结构
hello大家好！今天开写一个新章节，每一天一道算法题。让我们一起来学习算法思维吧！functionthreeSum(nums){//用于存储最终结果的数组constresult=[];//首先对数组进行排序，方便后续操作nums.sort((a,b)=>a-b);constn=nums.length;//遍历数组，将当前元素作为三元组的第一个元素for(leti=0;i0&&nums[i]===
python pickle 模块的使用 weixin_30305735 python json 数据结构与算法
用于序列化的两个模块json：用于字符串和Python数据类型间进行转换pickle:用于python特有的类型和python的数据类型间进行转换json提供四个功能：dumps,dump,loads,loadpickle提供四个功能：dumps,dump,loads,loadpickle可以存储什么类型的数据呢？所有python支持的原生类型：布尔值，整数，浮点数，复数，字符串，字节，None。
Rust中奖励函数的实现与应用 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Rust中奖励函数的实现与应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Rust,奖励函数,强化学习,机器学习,状态空间1.背景介绍1.1问题的由来在机器学习领域，特别是在强化学习（ReinforcementLearning,RL）中，奖励函数（RewardFunction）扮演着至关重要的角色。它定义了智能体（Agent）在执行任务时
Python中Pickle库 SteveKenny Python python 开发语言后端
文章目录简介函数dumpsloadsdumpload简介Python中有个序列化过程叫作pickle，它能够实现任意对象与文本之间的相互转化，也可以实现任意对象与二进制之间的相互转化。也就是说，pickle可以实现Python对象的存储及恢复。pickle模块的应用很简单，只有四个方法dumps()：将Python中的对象序列化成二进制对象，并返回loads()：读取给定的二进制对象数据，并将其转
代码随想录算法训练营第三十九天|198.打家劫舍、 jinshengqile 算法 leetcode 动态规划
题目链接：198.打家劫舍-力扣（LeetCode）思路：因为隔一家才能取，所以当前最大的价值要么是dp[i-2]+nums[i]或者是dp[i-1]classSolution(object):defrob(self,nums):""":typenums:List[int]:rtype:int"""dp=[0]*len(nums)if(len(nums)==1):returnnums[0]dp[0
python中的序列化 fate252 Python python 序列化 pickle json
序列化（picking）把不方便存储或不可传输的对象转换为可存储或可传输的数据的过程称之为序列化。序列化之后，就可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上。反过来，把从磁盘或网络得到的序列化数据重建为对象的过程称之为反序列化（unpickling）。序列化和反序列化实际是为了通用存储或传输而编码和解码的过程。举例：网络游戏mabi洛奇的存档功能，当每次不想玩的时候就可以存档到服务器
C语言经典贪心算法之加油站问题（详解）鸿蒙Next C语言算法算法 c语言贪心算法数据结构程序人生
文章目录一、贪心算法二、加油站问题一、贪心算法贪心算法暗示一种不追求最优解，只希望找到较为满意解的方法。贪心算法省去了为找最优解要穷尽所有可能而必须耗费大量时间，因此它一般可以快速得到较为满意的答案。贪心算法常常以当前情况为基础做最优选择，而不考虑各种的整体情况，所以贪心算法不需要回溯。二、加油站问题1、问题一辆汽车加满油后可以行驶n千米，旅途中有若干个加油站（加油站是已经确定好的），为了使沿途加
Selenium自动化测试框架入门与使用 Future_yzx selenium 测试工具
目录1.Selenium简介2.使用Selenium2.1Java使用Selenium2.2Python使用Selenium2.3支持的浏览器及WebDriver3.ChromeDriver的安装3.1查看本机Chrome版本3.2匹配对应的ChromeDriver并下载3.3配置ChromeDriver路径3.4在服务器（如CentOS）上安装ChromeJava中使用Selenium的代码示例
代码随想录算法训练营第三十九天-动态规划-198. 打家劫舍 taoyong001 算法动态规划 c++leetcode
动规五部曲dp[i]表示在下标为i的房间偷或不偷与前面所偷之和所能获得的最大价值递推公式：dp[i]=std::max(dp[i-2]+nums[i],dp[i-1])初始化：要给dp[0]与dp[1]来给定初始值，因为递推公式有-1与-2。dp[0]=nums[0],dp[1]=std::max(nums[0],nums[1]);其它下标值，初始成任意值都可以，因为其值是由前面元素推导出来的遍历
Haproxy入门学习二 DawnEillen 学习运维
一、Haproxy的算法1.haproxy通过固定参数balance指明对后端服务器的调度算法，其中balance参数可以配置在listen或backend选项中2.haproxy的调度算法分为静态和动态调度算法，其中有些算法可以根据参数在静态和动态算法中相互转换3.静态算法：按照事先定义好的规则轮询公平调度不关心后端服务器的当前负载、连接数和响应速度等并且不可以实时修改权重，只能靠重启hapro
小南每日 AI 资讯 | 国产AI之光DeepSeek暴击硅谷？？？ | 25/01/29 小南AI学院人工智能
1.中国AI模型震惊硅谷：DeepSeek为何一夜火出圈？国产AI大模型DeepSeek迅速崛起，引发硅谷关注。2.中国银行支持AI产业：1万亿元金融扶持助推智能化升级中国银行宣布提供1万亿元资金支持人工智能产业链发展，助力智能化升级。3.国产AI大模型DeepSeek惊艳全球：游戏科学冯骥称其为“国运级别科技成果”DeepSeek的AI模型引起全球关注，游戏科学的冯骥高度评价其意义。4.AI产业
【我的阅读】【nature |ai4science】Scientific discovery in the age of artificial intelligence【人工智能时代的科学发现】算法研究员【AI 4 Science】人工智能
相关资料：https://www.nature.com/articles/s41586-023-06221-2#Sec15文章目录Abstract摘要Conclusion结论Abstract摘要Artificialintelligence(AI)isbeingincreasinglyintegratedintoscientificdiscoverytoaugmentandaccelerateres
python selenium清除缓存_python 解决selenium 中的 .clear()方法失效问题许吴倩 python selenium清除缓存
最近在使用selenium做一个数字货币的自动化脚本时，遇到一个问题就是okex网站的input使用clear()方法居然无法清空，但是后来试了好多次发现方法是可以使用的，而且这个网站修改input的value也没用，必须在文本框里修改才行，本次的目的就是要清除输入框的默认值，然而clear()没有反应，最后还是用了别的方法解决了问题，那就是使用鼠标双击事件，全选后输入内容。fromseleniu
Django SimpleUI运维管理系统搭建教程 ivwdcwso 开发运维 sqlite 数据库 Django SimpleUI Django python 开发
DjangoSimpleUI运维管理系统搭建教程本教程将详细介绍如何从零搭建一个基于DjangoSimpleUI的运维管理系统。一、环境准备1.安装Python和相关依赖#安装Python3.8+sudoaptinstallpython3.8python3.8-dev#安装虚拟环境pip3installvirtualenv#创建并激活虚拟环境virtualenvvenvsourcevenv/bin
Robot Framework 测试总结 Change is good 测试框架和工具 robotframework
在2014年结识robotframework，缘于一个偶然的机会。一个测试前辈推荐了robotframework。Robotframework是python语言的测试框架。简单的看了一下介绍，觉得不错，很适合新手入门。而且测试部门的领导也很支持引入开源的自动化测试工具。RobotFramework是一个开源的测试自动化框架，用于验收测试和验收测试驱动开发。它遵循不同的测试用例样式——关键字驱动、行
python-unittest-selenium执行用例实例/执行多个用例 Change is good python python selenium 开发语言
我们在做selenium测试的时候呢，经常会碰到一些需要执行多个用例的情况，也就是多线程执行py程序，我们前面讲过单个的py用例怎么执行和生产html报告，下面给大家介绍下多个用例怎么执行并自动生成html报告。一、写好每个测试用例，如我_register/_boot/_check/_buy/_longin/，我这里写了六条用例，当然每个用例下还是有分支的测试点。上面是一个例子，其他的不截图出来了
python 连接数据库之jaydebeapi SmartManWind
让python通过jdbc连接数据库1、安装visualcppbuildtools_full.exe链接：https://pan.baidu.com/s/1MLxNJfWNGuKIxgNYkJgUnw密码：3etc2、pipinstallJayDeBeApihttps://pypi.org/project/JayDeBeApi/3、测试代码importjaydebeapiurl='jdbc:ora
揭秘排行榜系统：如何在高并发场景下实现高效更新！软件求生 #工作建议算法排序算法数据结构哈希算法 java
大家好，我是你们的技术分享伙伴小米！今天我们来聊聊一个非常有趣的话题——如何设计一个排行榜。在这个互联网时代，无论是游戏、学习平台，还是各种社交应用，排行榜都是用户互动和竞争的核心功能之一。而如何设计一个高效、实时更新的排行榜，是一个充满挑战性的问题。今天，我们就一起来探讨一下如何在个人实战中设计出一个既高效又实用的排行榜系统！需求分析在设计排行榜之前，我们需要明确以下需求：个人总得分和总排名实时
使用vs code + cline + deepseek 解析项目开发代码 chenchihwen python java
有些供应商没有把项目开发的内容详细说明，如果要挖掘里面的代码结构怎么办与团队或供应商沟通尽管供应商没有提供详细说明，但可以尝试与他们沟通，请求提供一些关键信息，如代码的整体架构设计文档、主要模块的功能概述、重要的配置文件说明等。向供应商询问一些关于代码结构的特定问题，例如某些关键功能是在哪些模块中实现的，或者某些复杂算法的设计思路等。通过与供应商的沟通，可以节省大量的代码挖掘时间。如果真没办法，我
Hugging Face挑战DeepSeek，AI开源竞赛升级！新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/DeepSeek的R1推理模型刚刚引发全球轰动，开源AI界的“顶流”HuggingFac
LLM based Single Agent System AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，随着深度学习技术的快速发展，大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。LLM凭借其强大的语言理解和生成能力，正在改变着人们与信息交互的方式。同时，人工智能领域的另一个重要研究
selenium clear（）方法清除文本框内容 Change is good selenium python 测试工具
在使用Selenium进行Web自动化测试时，清除文本框内容是一个常见的需求。这可以通过多种方式实现，取决于你使用的是哪种编程语言（如Python、Java等）以及你的具体需求。以下是一些常见的方法：1.使用clear()方法clear()方法是Selenium提供的一个非常直接的方法来清除文本框的内容。这个方法会删除文本框中的所有内容，并将其设置为空字符串。python：fromselenium
DeepSeek：硅谷AI格局的拐点？新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/本周，硅谷迎来了一个令人大跌眼镜的现实：打造先进人工智能模型，可能远没有想象中那么高深莫
理解随机森林算法菌菌的快乐生活算法随机森林机器学习
基本概念随机森林（RandomForest）是一种集成学习算法，它属于机器学习中的监督学习算法。简单来说，它就像是一群“专家”（决策树）在一起讨论并做出决策。想象你要判断一个水果是苹果还是橙子，你可以通过观察水果的颜色、形状、大小等特征。随机森林算法就是利用很多棵决策树来对这个水果进行判断。每一棵决策树就像一个小专家，它们根据自己对这些特征的判断来给出一个答案（是苹果还是橙子），最后综合这些小专家
conda创建新虚拟环境——从无到有 S.T.A.R. 深度学习 tensorflow anaconda
自己租的GPU最近有点鱼的记忆，base配什么环境自己都忘了，所以自己开始学习如何创建并且配置一个新环境，当然这一切建立在andonate3安装完的前提下自己的配置：Linux系统，Xshell编译器创建环境condacreate-nyourEnvnamepython=3.6激活环境condaactivateyourEnvname就可以看到命令行的base换成了你的环境名可以开始installco
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep

深度强化学习入门介绍

参考资料

你可能感兴趣的:(游戏,算法,python,机器学习,人工智能)