Chalo-T

强化学习基础概念详解

Reinforcement Learninig

文章目录

Reinforcement Learninig
- 1.基础数学概念
- - 1.1随机变量
  - 1.2概率密度函数
  - 1.3期望
  - 1.4随机抽样
- 2.强化学习概念理解
- - 2.1 State and Action
  - 2.2 Policy
  - 2.3 Reward
  - 2.4 State Transition
  - 2.5 Agent environment interaction
  - 2.6 Randomness in RL
  - 2.7 Rewards and Returns
  - 2.8 Value Functions
- 3.强化学习自动打游戏
- - 3.1 AI如何控制agent
  - 3.2 Gym
  - - 3.2.1 怎么样使用gym
- 小结1

1.基础数学概念

1.1随机变量

概率论方面：

随机变量：随机变量是一个未知的量，它只取决于一个随机事件的结果，比如我抛一个硬币，朝上记为零，朝下记为1，抛硬币是一个随机事件，抛硬币的结果记为一个随机变量X（大写字母表示）,随机变量有两种取值0/1,抛硬币前，我是不知道X的值是什么，但是我知道这个随机事件的概率均为0.5

通常用小写字母表示对随机变量的观测值，概率统计通常用大小写来区分随机变量和观测值，观测值是什么意思呢？当随机事件结束。会观测到硬币的哪一面朝上，这个观测值就几位小x,就是一个数，没有随机性，于是得到了4个观测值x_1 = 1, x_2 = 1, x_3 = 0, x_4 = 1.这四个数就是随机变量的观测值。

1.2概率密度函数

概率密度有什么物理意义呢？

它意味着随机变量在某个确定的取值点附近的取值性

高斯概率密度函数分布是这个样子，图像横轴随机变量取值，纵轴概率密度，曲线就是高斯分布的概率密度曲线，说明x在原点附近的取值比较大，远离原点的地方取值较小。

离散概率密度，随机变量为离散，

概率密度函数的性质：随机变量的定义域记为_x_,如果_p_是一个连续的概率分布，可以对_p(x)_做定积分，结果为1，把所有可能的结果都算上。

1.3期望

1.4随机抽样

随机摸出来一个球，三种颜色都有可能，概率分别为0.2，0.5，0.3，现在真的摸出来一个，睁开眼就一个是红色，那这个红色就是观测值，这个过程就叫随机抽样。

换一种问法：现在箱子里有很多的球，

我也不知道有多少个，随机抽样，抽到红色球的概率是0.2，绿色球的概率0.5，蓝色球的概率0.3，把手伸进箱子，摸一个球，摸到球的颜色是什么样的呢？跟刚才的一样。

现在随机摸一个放回，打散后重新摸，一共重复100次，记录下来的颜色有什么特点，这个就具有统计意义了，20红，30绿，30蓝。

【一定要深刻理解随机抽样，强化学习这一块反复用到，随后我会具体解释】

2.强化学习概念理解

强化学习很难的关键地方首先就是对其专业术语的理解，Terminologies，名词如果记不住的话真的完全看不懂文章，因此只能把这些专业术语都记住，都理解。

2.1 State and Action

State:状态，状态啥意思呢？假设你在玩超级玛丽游戏，你可以认为此时的状态就是屏幕中的一副画面（不严谨），你玩游戏时观察到上面的状态，你就可以做出反应，此时我的agent应该采取什么动作。

Action: 左右上，就是动作，动作是谁做的，谁就是agent

2.2 Policy

什么是policy策略，你观察到屏幕上这张画面时，你该让agent采取什么动作呢，往上下还是左----

policy: 根据观察到状态，做出决策，控制agent运动

在数学上policy函数是这么定义的, π是一个概率密度函数，π(a|s)= P(A=a|S=s}给定状态S所属的动作A的概率密度函数

如图，观察到这张图片，agent可以做出三种动作中的一种，把这张图片输入policy π, 会告诉你向左的概率0.2，向右概率0.1，向上概率0.7，如果你让这个policy函数自动来操作，它就会做一个随机抽样，以0.1的概率向右，0.7的概率向上，0.2的概率向左，三种动作都有可能发生，但是向上的概率最大。

强化学习学什么？就是学这个policy

为什么要让动作随机呢? 超级马丽里面这个agent不管动作是确实还是随机都没有问题，但如果是跟人博弈最好还是要随机，要是你的动作很确定，别人就有办法赢，石头剪子布时，如果你的策略确定，那就有规律可寻了，对手就能猜到你下一步出什么，你肯定输，只有你时随机的，别人猜不出来，你才有可能赢。所以很多应用里面policy最好是一个概率密度函数，动作最好时随机抽样得到，要有随机性。

2.3 Reward

agent做出一个动作，环境就会给一个奖励，这个奖励通常需要我们来定义，奖励定义的好坏非常影响强化学习的结果，怎么样定义奖励就是仁者见仁智者见智了，例如agent吃一个金币奖励就是+1,赢了这场游戏奖励就是+10000，打赢游戏的奖励应该大些，这样学到的policy才是答应游戏，而不是一味的吃金币，如果碰到敌人挂了那就是-10000，如果啥也没有发生奖励就是0，强化学习的总目标呢就是获得的奖励要高

2.4 State Transition

状态转移，当前状态下agent做一个动作，环境就会给一个新的状态，

比如agent跳一下画面的下一个状态就变了，这个过程就叫做状态转移

状态转移可以是确定的也可以是随机的，通常认为状态转移时随机的，结合Marlov链状态转移的随机性很好理解，状态转移的随机性是从环境里来的，环境是什么呢，环境就是游戏的程序，游戏程序决定下一个状态是什么，举例说明状态转移的随机性，如果agent向上跳，agent的位置就像上来了，这个位置的确定的，但是敌人可能往左也可能往右这个随机的，这就造成了下一个状态的随机性。

可以把状态转移函数用_p_函数表示这是个条件概率密度函数，，状态采取动作a到下一个s_的概率，注意这个状态转移函数，只有环境自己知道，因为比如敌人向左向右都是概率事件，这个也是最开始我一直没明白为什么已经做了确定动作为什么到下个状态还是概率

2.5 Agent environment interaction

2.6 Randomness in RL

理解强化学习的随机性，搞清楚两个来源，对后面理解算法很有帮助。

第一个随机性来源于动作，动作是根据policy函数随机抽样得到的，用policy函数来控制agent,给定当前状态s，agent的动作A是根据policy函数输出的概率来随机抽样，比如说当前观测的状态S，policy函数会告诉每个动作的概率有多大，左0.2，右0.1，上0.7,所以agent可能做其中任何一种动作，但动作的概率有大有小

另一个随机性来源是状态转移，如图agent做出了a的动作，那么环境就会生成一个s‘_，这个状态s‘具有随机性，环境用状态转移函数p算出概率，然后用概率来随机抽样得到下一个状态s’，

怎么样用AI来自动答应游戏？

通过强化学习学到policy函数 π，观测到游戏当前的这一帧状态s_1,AI用policy函数来算一个概率，然后**随机抽样的到动作a_1，然后环境又会生成下一个状态s_2，并且给agent一个奖励r_1-----------知道打赢游戏得到一个trajectory。

2.7 Rewards and Returns

未来的累计奖励，把t时刻的奖励记为Gt,把t时刻的奖励全部加起来，一直加到游戏结束，由于Rt和Rt+1，并不是同样重要的，举个例子，现在给你100块和未来给你100块，你选择哪一个，肯定会立刻选择得到这100块，未来的100块搞不好就是画饼，未来的不确定性很大，换一个问法：**现在立刻给你80块钱，和未来给你100块钱，你选择哪一个？**那就啥选择都有了，所以未来的100块奖励不如现在的好！未来的100恐怕就值现在的80！，因此应该给未来的奖励打一个折扣，后面的权重应该更低才可以

因为未来的奖励没有现在的奖励值钱，因此强化学习引入折扣因子gamma [0, 1] 折扣率是个超参数需要自己来调。

Return的随机性

观察如图所示，如果游戏此时为t已经结束了，那么这个时候的所有的奖励R都已经观测到了，那么奖励就都是数值，用小写字母表示，如果在t时刻还没有结束，那么这些奖励R还有事随机变量，没有被观测到，我们就用大写字母来表示

由于奖励G依赖于奖励R，所以Return G也是一个随机变量！

那么由于R与S，A都有关，因此从t时刻起，Return就与所有的后续状态以及动作都有关了。

2.8 Value Functions

我们获得了回报Gt(因为参考了几个ppt所以对于回报的字母不一样，还是统一以Sutton的为准)，是未来奖励的总和，为啥要定义Return，因为非常有用，我们agent的目标就是它越大越好，除此之外，知道了Gt,我就知道了这局游戏我是快赢了还是快输了，Gt只是一个随机变量，t时刻你并不知道Gt是什么，打个比方你抛硬币，正1反0，t时刻你还没有把硬币抛出去，你并不知道你会得到1还是0，记住Gt是一个随机变量，它依赖与后续的At,At+1----和St,St+1------，那么由于Gt是一个随机变量，在t时刻我并不知道Gt是什么，那么我该怎么样评估当前的形式呢？

我们可以对Gt求期望，把里面的随机性性用积分都给积掉，得到的就是一个实数，例如抛硬币，你知道期望就是0.5，

同样对随机变量Gt求期望，可以得到一个数记作Q_pai，这个期望怎么求得呢？

把Gt当作未来所有动作A和S的一个函数，未来的动作A和状态S都有随机性，A的概率密度函数是π，S的概率密度函数是p,期望就是对未来的动作和状态求的，把这些随机变量都用积分给积掉，除了St和At，t+1，t+2----的都被积掉了，求期望后的函数被称为Qpi（St,At）,只与当前的动作和状态有关，因为后面的都被积掉了！St和At没有被积掉，作为观测值被观测到，而不是作为随机变量，Qpi的值依赖于他俩，还与π有关，因为

积分的时候会用到policy函数，如果π不一样，积分得到的Qpi就不一样

那么动作价值函数直观上有啥意义呢？

函数Qπ告诉我们，如果用policy函数π，那么在状态St下，做做动作At是好还是坏。因为π会给当前状态下所有动作打分，就知道那个动作好和不好

那么怎么样去掉Qπ，中的π呢？

可以对Qπ中的π求最大化，意思是我们可以有无数种policy π,但是我们应该使用最好的那一种π，把Q^ 称为最优动作价值函数，Q^ 与 π无关，因为π已经被去掉了，Q^有啥直观意义呢？

可以用来对动作a做评价，此可状态St，这个时候动作At好不好，比如下围棋时，状态就是这个棋盘，Q^ 告我我们如果把棋子放在这个位置胜算有多大，Q^ 非常有用，因为有了它，agent就可一个根据它对动作的评价做决策，观察到一个状态，如果Q^认为往上跳分数最高，agent就应该往上跳，

最后一个State-Value function 状态价值函数Vπ

它是关于Qπ的期望，把动作A作为随机变量，然后关于A求期望，把A消掉，求导的Vπ只跟π和St有关，Vπ有什么直观的意义呢？

Vπ可以告诉我们当前的局势好不好，假如我用policyπ下围棋，让Vπ来看看，我的胜算有多大，

这里的随机变量是关于A求的，A的概率密度函数是π，根据期望的定义，离散是加，连续是积分，如果动作都是离散的比如上下左右，就可以把期望写成连加
如果动作是连续的，比如自动驾驶汽车方向盘的角度-90-+90

3.强化学习自动打游戏

3.1 AI如何控制agent

假设我们以超级玛丽游戏为例，假设我们的目标是操作agent多吃金币，避开敌人往前走，打败敌人，通关每一关游戏，我们写个程序让AI来控制agent，我们应该怎么做？

一种办法是学习一个policy函数π，这个在RL里叫Policy based learning-策略学习，后面再详细扯这个，假设我们有个π，我么就可以用π来控制动作了，老规矩，给一个观测状态St,π产生每n一个动作的概率，然后**用这个概率来做一个随机抽样，**得到At,最后Agent执行这个动作。

第二种方法是我们有了最优动作价值函数Q*，在RL里叫做Value baesd learning-价值学习后面再详细扯这个，我们假如有个Q*，在St状态下，采取At动作是好还是坏，每观测到一个状态St，就把St作为 Q* 函数的输入，让Q* 对每一个动作都给一个评价，那就知道每一个动作的Q值，选择最大的。

3.2 Gym

传统经典控制

Atari 小时候玩小霸王的那种

连续控制问题，可以模拟物理量等，

如果你设计的RL算法，你怎么知道你的算法比别人还还是坏呢？

在标准数据集上测试效果比如GYM

3.2.1 怎么样使用gym

第一步重置reset，然后开始循环，每一轮能够还原，每一轮里agent做一个动作，环境会更新状态，给出奖励，

env.render() # 是渲染，把游戏里的发生展示给人看，
action = env.action_space.sample() # 随机均匀的抽样一个动作，记为action，实际上不应该均匀抽样
step(action)  # 真正执行这个动作

小结1

基于32单片机的无人机直流电机闭环调速系统设计赵谨言论文毕业设计经验分享
标题:基于32单片机的无人机直流电机闭环调速系统设计内容:1.摘要本文针对无人机直流电机调速需求，设计了基于32单片机的无人机直流电机闭环调速系统。背景在于无人机应用场景不断拓展，对电机调速精度和稳定性要求日益提高。目的是开发一套高精度、响应快的闭环调速系统，以提升无人机飞行性能。方法上，采用32单片机作为控制核心，结合编码器反馈电机转速信息，运用PID控制算法实现闭环调速。通过实验测试，结果表明
今日行情明日机会——20250321 人大博士的交易之路人工智能区块链数学建模数据挖掘分类涨停回马枪大数据
后续投资机会分析结合2025年3月21日盘面数据（涨停56家，跌停31家），市场呈现结构性分化行情，海洋经济成为绝对主线，机器人概念局部活跃，人工智能表现较弱。以下是具体方向与策略建议：1.海洋经济（核心主线，政策+事件驱动）核心逻辑：板块23家涨停，梯队完整（七板至一板），神开股份（七板）打开高度，叠加海洋资源开发、碳中和政策（如海上风电、深海装备）催化，资金深度介入。大连重工（三板，海洋工程装
如何加快制造业数字化转型九河智造云制造云计算
加速制造业数字化转型的五大战略支点制造业数字化转型已进入深水区。工信部数据显示，2025年我国规模以上工业企业数字化研发工具普及率达88%，但全流程数字化覆盖率不足35%。破解转型困局需要构建“政策引导-技术突破-场景落地-生态协同”的加速机制，通过五大核心战略实现质效突破。一、强化顶层设计：构建转型制度保障体系政策创新需突破三大瓶颈：专项资金引导：设立2000亿元制造业数字化专项基金，对智能工厂
人工智能革命：技术演进图谱与人类文明重构路径 A达峰绮人工智能重构经验分享图形绘制数据处理 AI
当GPT-4在2023年3月通过注册会计师考试时，其财务分析模块展现的推理能力已超越85%的人类考生。这个标志性事件背后，折射出人工智能正在突破认知型工作的最后防线。我们正在见证的，不仅是技术迭代，更是人类文明范式的根本性转变。一、算力奇点降临：AI基础设施的指数级进化量子计算与神经形态芯片的融合正在重塑算力边界。IBM最新数据显示，其量子体积（QuantumVolume）从2020年的64跃升至
Python实战：开发经典猜拳游戏（石头剪刀布）藍海琴泉游戏
目录引言：为什么选择猜拳游戏作为入门项目？第一部分：基础知识点与代码实现1.游戏逻辑与流程2.代码分步实现2.1导入必要模块2.2定义游戏规则函数2.3生成计算机选择2.4判断胜负逻辑2.5主循环与交互3.代码运行效果示例第二部分：功能扩展与优化1.添加计分系统2.支持多轮游戏与退出选择3.增加图形化界面（可选）第三部分：进一步学习方向1.深化游戏功能2.学习相关知识3.书籍与资源推荐适合人群：编
蓝桥杯动态规划实战：从数字三角形到砝码称重藍海琴泉蓝桥杯动态规划职场和发展
适合人群：蓝桥杯备考生|算法竞赛入门者|DP学习实践者目录一、我的动态规划入门之路1.数字三角形：经典DP首战告捷2.砝码称重：背包问题的变形二、蓝桥杯高频算法考点三、蓝桥杯DP专项训练题四、备考建议一、我的动态规划入门之路1.数字三角形：经典DP首战告捷题目描述：从三角形的顶部到底部有很多条不同的路径。对于每条路径，把路径上面的数加起来可以得到一个和，你的任务就是找到最大的和（路径上的每一步只可
策略模式详解：实现灵活多样的支付方式 Dong雨策略模式 java
多支付方式的实现：策略模式详解策略模式（StrategyPattern）是一种行为设计模式，它定义了一系列算法，并将每个算法封装起来，使它们可以互换使用。策略模式使得算法可以独立于使用它的客户端变化。本文将通过一个具体的业务场景来介绍策略模式，并给出相应的代码实现。业务场景我们以一个电商平台为例，该平台支持多种支付方式，包括信用卡支付、PayPal支付和比特币支付。我们希望在不修改客户端代码的情况
蒙特卡罗树搜索算法依赖游戏树，也就是游戏的状态空间和可选动作的构成。游戏树是游戏设计者为了实现对战或博弈的目的 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介20世纪末到21世纪初，计算机科学和互联网科技迅速发展。在这些新兴领域中，蒙特卡罗方法是一个显著的研究热点。蒙特卡罗方法源自物理学和数学领域，其目的是模拟物理系统的随机运动，从而解决很多数学、物理等领域的问题。蒙特卡loor方法被广泛应用于各类模拟、预测、优化、控制等领域。在计算机领域，蒙特卡罗方法也扮演了重要角色。现如今，计算性能已经足够强大，人们可以轻松地进
代码随想录算法训练营第八天| 344 反转字符串、541 反转字符串II Anjoubecoding 算法数据结构 c++c语言 leetcode
这两天开的是字符串专题，我准备在做题的时候用C++做一遍，再用C做一遍，因为一直刷leetcode用的都是C++，导致C的基础太薄弱了，之后工作中有可能用到C，相当于再复习复习一、Leetcode344反转字符串题目链接：Leetcode344反转字符串这道题很简单，这才是真正的简单题voidreverseString(char*s,intsSize){intleft=0,right=sSize-
百某田网任务脚本点云-激光雷达-Slam-三维牙齿其他智能手机运维自动化
自动化操作百田游戏的任务脚本，特别是用于完成每日任务和积分兑换的功能。主要功能任务管理：脚本通过定时任务查询并执行每天的任务，自动完成任务并兑换积分。每个任务通过调用do_list()和do_task()函数来查询和完成。多账号支持：支持多个账号的登录和管理，账号信息通过baitianGameCookie变量传入，可以通过@或换行符分隔多个账号。积分兑换：根据配置的兑换ID进行积分兑换操作，支持选
比较分析：Windsurf、Cody、Cline、Roo Cline、Copilot 和通义灵码张3蜂开源编程语言与开发技术选型与架构设计 copilot c#AI编程
随着人工智能技术的快速发展，开发者工具变得越来越智能化，特别是在代码生成、辅助编程等领域，市面上涌现了多种AI驱动的工具。本文将从开源性、集成能力、功能覆盖范围、支持的编程语言、生态兼容性、成本、学习曲线、响应速度、离线支持以及与.NETCore的适配性等十个维度对以下几种产品进行比较：Windsurf、Cody、Cline、RooCline、Copilot和通义灵码。1.开源性Windsurf:
每日一题--内存池秋凉づᐇ java 开发语言
内存池（MemoryPool）是一种高效的内存管理技术，通过预先分配并自主管理内存块，减少频繁申请/释放内存的系统开销，提升程序性能。它是高性能编程（如游戏引擎、数据库、网络服务器）中的核心优化手段。内存池的核心原理预先分配：初始化时一次性申请一大块内存（称为“池”），避免程序运行时频繁调用malloc/new。自主管理：将大块内存划分为多个固定或可变大小的内存单元，由程序自行分配和回收。复用机制
便民服务一体化的智慧园区开源了 AI服务老曹音视频人工智能自动化运维能源开源
智慧园区场景视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。充分利用现有的摄像头设备，无需大规模更换，降低成本同时提升系统的实施效率。用户只需在界面上进行简单的操作，就可以实现全视频的接入及布控。项目搭建地址基础项目搭建地址：yihecode
实现物流行业数字化、智能化管理的新型模式的智慧物流开源了 AI服务老曹开源能源人工智能云计算安全
智慧物流视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。构建基于Ai技术的安全监管平台，可逐步实现智能化巡检，针对安全事故隐患进行有效监控预警，降低安全违规行为发生率，节省人工监管成本。用户只需在界面上进行简单的操作，就可以实现全视频的接入及
全流程数字化管理的智慧物流开源了 AI服务老曹开源科技生活人工智能自动化
智慧物流视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。构建基于Ai技术的安全监管平台，可逐步实现智能化巡检，针对安全事故隐患进行有效监控预警，降低安全违规行为发生率，节省人工监管成本。用户只需在界面上进行简单的操作，就可以实现全视频的接入及
降低成本、提高效率的智慧能源开源了。 ai产品老杨 vue.js 前端 javascript 人工智能安全
一、简介AI视频监控平台,是一款功能强大且简单易用的实时算法视频监控系统。愿景在最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，减少企业级应用约95%的开发成本，在强大视频算法加持下的AR使得远程培训和远程操作指导不仅仅能够实现前后场的简单互动，而且能够实现人机结合，最终实现整个巡检流程的标准化。用户仅需在界面上简单操作，即可实现全视频的接入及布控。通
使用Aim追踪LangChain执行 bavDHAUO langchain python
在现代人工智能应用中，调试和可视化自动化工作流变得越来越重要，Aim正是为此而生。通过Aim，你可以轻松地追踪LangChain中语言模型(LLM)和工具的输入输出，以及代理的动作，从而在执行过程中快速定位和解决问题。此外，Aim还支持并排比较多个执行流程，使之成为调试中的得力助手。Aim是一个完全开源的项目，你可以在GitHub上找到更多关于Aim的信息。在本文中，我们将展示如何启用和配置Aim
探究Three.js中模型移动与旋转的交互逻辑 Front_Yue 3D技术实践指南 javascript three.js 3d
前言Three.js作为一个功能强大的JavaScript3D库，极大地简化了在网页上创建和展示3D图形的过程。它在游戏开发、产品展示、虚拟现实等众多领域都被广泛应用。通过Three.js，开发者能够轻松创建出复杂的三维场景和交互性强的3D应用，为用户带来沉浸式的体验。一、模型移动的交互逻辑实现（一）键盘控制模型移动利用键盘事件来控制模型在三维空间中的位置移动，是一种常见且便捷的交互方式。以下为具
从零开始：使用原生JS打造简易飞机大战游戏西域情歌
本文还有配套的精品资源，点击获取简介：在本教程中，我们将探讨如何利用原生JavaScript的特性，包括事件处理、DOM操作、定时器和音频处理，来构建一个基础的“飞机大战”游戏。该游戏的核心元素包括玩家飞机、敌机、子弹和碰撞检测，它们通过HTML和CSS展现在页面上。通过编写JavaScript脚本，我们实现游戏对象的创建与状态管理，响应用户的键盘和点击事件，更新游戏内容，并通过定时器维护游戏循环
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
python之连连看游戏 CrMylive. python 游戏 pygame
实现一个简单的连连看游戏需要用到pygame库和一些基本的数据结构和算法。导入pygame库在程序开始之前，首先需要导入pygame库。在Python中，可以使用以下代码导入pygame库：importpygame初始化Pygame在导入pygame库之后，需要使用以下代码初始化pygame：pygame.init()设置游戏窗口设置游戏窗口的大小、标题等属性。可以使用以下代码设置游戏窗口大小为6
力扣刷题|链表面试题 02.02. 返回倒数第 k 个节点柯ran 力扣 leetcode 算法数据结构链表
题目：实现一种算法，找出单向链表中倒数第k个节点。返回该节点的值。快慢指针思想，画图更容易理解/***Definitionforsingly-linkedlist.*structListNode{*intval;*structListNode*next;*};*/intkthToLast(structListNode*head,intk){assert(head!=NULL);if(head==N
基于Qt的连连看游戏开发 CodeJolt qt 数据库 java QT
连连看是一种经典的益智游戏，它的目标是通过消除相同的配对图标来清空游戏界面。在本文中，我将向您展示如何使用Qt框架开发一个基于Qt的连连看小游戏。我们将使用C++编程语言和Qt库来实现游戏的逻辑和界面。首先，让我们创建一个新的Qt项目。在QtCreator中，选择"新建项目"，然后选择"QtWidgets应用程序"模板。为项目指定一个名称，然后点击"下一步"。在下一个对话框中，您可以选择项目的位置
大二下开始学数据结构与算法--07,单项循环链表的实现爱我的你不说话链表数据结构
自习所完成的任务单向循环链表代码的实现和测验任务学课程到p28复现相关代码感悟其实这个教程上的观念，跟我刚开始理解想的并不一样，我以为会是：头节点使实例化的节点的循环链表，但是，教程给的更像是存在头节点，但头节点没有实际意义的添加了尾节点单项循环链表（跟之前单向不循环链表相比，更像是只多了一尾节点）。#include#include#includeusingnamespacestd;//存在头节点
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
使用Three.js渲染器创建炫酷3D场景 Front_Yue 3D技术实践指南 javascript three.js 3d
引言在当今数字化的时代，3D图形技术正以其独特的魅力在各个领域掀起波澜。从影视制作到游戏开发，从虚拟现实到网页交互，3D场景以其强烈的视觉冲击力和沉浸式的体验，成为了吸引用户、传达信息的重要手段。而Three.js，作为一款功能强大且广受欢迎的JavaScript3D库，为我们提供了便捷、高效的途径来创建令人炫目的3D场景。本文将深入探讨使用Three.js渲染器创建炫酷3D场景的方方面面，带领读
java中vector和list_java中vector和list的区别 Creamy络
java中vector和list的区别发布时间：2020-06-1917:07:11来源：亿速云阅读：106作者：元一vector的概念Vector类是在java中可以实现自动增长的对象数组，vector在C++标准模板库中的部分内容，它是一个多功能的，能够操作多种数据结构和算法的模板类和函数库。vector的使用连续存储结构：vector是可以实现动态增长的对象数组，支持对数组高效率的访问和在数
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
【C++】priority_queue的使用及模拟实现（含仿函数介绍）梓䈑 C++学习 c++开发语言
文章目录前言一、priority_queue的介绍二、priority_queue的使用三、仿函数四、priority_queue的模拟实现前言一、priority_queue的介绍（优先级队列是默认使用vector作为其底层存储数据的容器适配器，在vector上又使用了堆算法将vector中元素构造成堆的结构，因此priority_queue就是堆）二、priority_queue的使用及模拟实
大二下开始学数据结构与算法--06，判断两个节点是否相交，删除链表倒数第K个节点爱我的你不说话链表数据结构
自习所完成的任务完成函数判断单项链表是否相交的代码编写和测试。完成函数删除倒数第K个节点的代码编写和测试。感悟其实这篇是昨天晚上写的，但是昨天下午在实验室呆了一下，然后写完这些代码后感觉脑袋昏沉，晚上十点就回宿舍了，想着看会儿书，但是，没看成，还是玩手机了。感觉坚持做一件事，还挺难的，老是为自己找逃避的借口，比如说周三晚上跟舍友出去吃，就放下了写代码的每日任务。我在想，是不是应该改变一下观念，以进
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/