松间沙路hba646333407

第一章强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现（强化学习导论第二版）

获取更多资讯，赶快关注上面的公众号吧！

本章目录

第一章强化学习及OpenAI Gym介绍

1.1 强化学习

1.1.1 强化学习与监督、非监督学习
1.1.2 强化学习案例
1.1.3 强化学习的要素
1.1.4 总结

1.2 OpenAI Gym教程

1.2.1 安装
1.2.2 从源代码进行构建
1.2.3 完全安装
1.2.4 环境
1.2.5 观察
1.2.6 空间
1.2.7 可用的环境
1.2.8 注册
1.2.9 背景：为什么有Gym？

第一章强化学习及OpenAI Gym介绍

本章内容将介绍强化学习的基本概念、工作原理和监督、非监督学习的不同，并说明如何使用开发和比较强化学习算法的工具Gym。

1.1 强化学习

当我们思考学习的本质时，我们首先想到的是通过与环境交互来学习。当婴儿玩耍，挥舞手臂或四处张望时，他没有明确的老师，但他可以通过直接的感觉运动与环境联系。他可以通过这种联系获得大量关于因果关系，行为结果结果，以及如何实现目标的信息。在我们的生活中，这样的互动无疑是对环境和我们自己的主要知识来源。无论我们是学开车还是交谈，我们都可以敏锐地意识到我们的环境对我们所做的事情将作出什么样的反应，并且我们试图通过我们的行为来影响所发生的事情。从交互中学习是几乎所有学习和智能理论的基本思想。
在这里，我们探索了一种从交互中学习的计算方法。我们不直接对人或动物如何学习进行理论分析，而是探索理想化的学习情境，评估各种学习方法的效率。也就是说，我们采用人工智能研究人员或工程师的角度。我们去探索设计在科学或经济学领域可以有效解决学习问题，并通过数据分析和计算实验来评估这些设计。我们将这种方法称为强化学习，其与其他机器学习方法相比，更侧重于目标导向的交互学习。

1.1.1 强化学习与监督、非监督学习

强化学习就是学习怎么做，即如何建立情境-动作映射，以最大化数值奖励信号。学习器并没有被告知采取什么动作，而是通过不断尝试去发现能最大奖励的动作。在最有趣和最具挑战性的情况中，动作不仅影响瞬时报酬，还会影响下一场景，并由此影响后续的奖励。试错搜素和延迟奖励是强化学习最重要的两个特征。
强化学习与监督学习不同，后者是目前机器学习领域研究较多的一种学习方式。监督学习是从由专家提供的一组带标签的训练集中学习的。每个示例都是对一个情境和说明即标签的描述，该标签就是系统在该情境应该采取的正确动作，通常用于标识该情境所属的类别。这类学习的目的是让系统推断或概括它的响应，以便在未知训练集上也能正确工作。这是一种重要的学习，但仅凭这一点不足以从交互中学习。在交互问题中，代理需要在所有情境中采取正确的典型的可选动作，而获取这样的例子通常是不切实际的。在一个未知的领域，若要使学习收益最大化，代理必须能够从自己的经验中学习。
强化学习也不同于机器学习研究人员所说的无监督学习，后者通常是发现隐藏在未标记数据集合中的结构。监督学习和非监督学习这两个术语似乎囊括了机器学习的范式，但它们并没有。尽管人们可能会倾向于认为强化学习是一种无监督学习，因为它不依赖于正确行为的例子，但强化学习试图最大化奖励信号，而不是试图寻找隐藏的结构。在一个代理的经验中发现结构对于强化学习当然是有用的，但它本身并不能解决最大化奖励信号的强化学习问题。因此，我们认为强化学习是第三种机器学习范式，与监督学习、非监督学习以及其他范式并列，如图1所示。

图1 机器学习分支平衡探索与开发是强化学习中其他学习算法所不具备的挑战之一。为了获得更过的收益，强化学习代理必须倾向于过去已经尝试过并且能够有效获益的动作，但是要发现这样的动作，它又必须去尝试以前没有选择的动作。代理必须充分利用它既有经验以获得收益，但它也必须探索，以便在未来做出更好的工作选择。进退两难的是，要保证任务不失败，不能单一地只探索或利用。代理必须尝试各种各样的动作，并逐步偏向选择那些看起来最好的行动。在随机任务中，每个动作都必须尝试多次，才能获得对期望回报的可靠估计。探索利用困境是数学家们几十年来研究的热点问题，至今仍未解决。现在，我们只是注意到，在有监督和无监督的学习中，甚至不存在探索和开发之间平衡的整个问题，至少在这些范式最纯粹的形式中是这样。强化学习的另一个关键特征是，它明确地考虑了目标导向的代理与不确定环境交互的整个问题。这与许多只考虑子问题而不考虑子问题如何融入全局的方法相反。例如，我们已经提到，许多机器学习研究关注监督学习，但没有明确说明这种能力最终将如何发挥作用。其他研究人员已经提出了具有一般性目标的规划理论，但没有考虑规划在实时决策中的作用，也没有考虑规划所需的预测模型从何而来。虽然这些方法已经产生了许多有用的结果，它们一个重要的限制在于过于关注子问题。

1.1.2 强化学习案例

• 直升机特技飞行；
• 在西洋双陆棋比赛中击败世界冠军；
• 管理投资组合；
• 控制发电站；
• 让一个人形机器人走路；
• 很多不同的雅达利游戏中玩得比人类更好。

1.1.3 强化学习的要素

除了代理和环境，强化学习系统一般有四个主要元素：策略，奖励信号，值函数，和一个可选的环境模型。
策略定义了学习代理在给定时间内的行为方式。粗略地说，策略是将环境中感知的状态映射为在这些状态下采取的行动。它对应于心理学中所谓的一系列刺激反应规则或关联。在某些情况下，策略可能是一个简单的函数或查找表，而在其他情况下，它可能涉及到大量的计算，如搜索过程。该策略是强化学习代理的核心，因为它本身就足以确定行为。一般来说，策略可能是随机的，指定了采取每个动作的概率。
奖励信号定义了强化学习问题的目标。在每一个时间步，环境发给代理的单一数字称为奖励。代理的唯一目标是最大化其长期获得的总奖励。因此，奖励信号定义了对代理而言的好坏事件。在生物系统中，我们可能认为奖励是类似于快乐或痛苦的经历。它们是代理所面临问题的直接精确的特征。奖励信号是改变策略的主要依据；如果策略选择的动作之后是得到了低回报，那么策略可能会被改变，以便在未来的情况下选择其他动作。总之，奖励信号可能是环境状态和所采取的行动的随机函数。
虽然奖励信号表明什么是直接意义上的好东西，但价值函数指明了长期内什么是好的。粗略地说，一个状态的价值是从该状态开始在未来可以预期累积的总奖励。鉴于奖励体现了环境状态的直接价值，价值则考虑了后续状态及奖励，从而反映了状态长期价值。例如，一个状态的瞬时奖励可能很低，但因为其后续状态具有高额奖励，因而也具有很高的价值，反之亦然。以人类作类比，奖励有点像快乐（如果是高的）和痛苦（如果是低的），而价值则对应于特定状态下一种更为精确和远见的对于满意与不满意的判断。
从某种意义上说，奖励是主要的，而价值作为奖励的预测是次要的。没有奖励就没有价值，估计价值的唯一目的是获得更多的奖励。然而，在制定和评估决策时，我们最关心的是价值。行动选择是基于价值判断的。我们寻求带来最高价值的动作，而不是最高奖励的，因为这些行动从长远来看对我们的回报最大。不幸的是，确定价值要比确定奖励难得多。奖励基本上是由环境直接给予的，但是价值必须通过一个代理在其整个生命周期中进行的一系列观察来评估和重新评估。事实上，我们所考虑的几乎所有强化学习算法中最重要的组成部分是一种有效估计值的方法。价值评估的中心作用可以说是我们在过去60年中学习强化学习的最重要的东西。
一些强化学习系统具有第四个也是最后一个要素，既环境模型。这是对环境的模拟，或者说，它对环境的行为做出推断。例如，给定一个状态和动作，该模型可以预测生成的下一个状态和下一个奖励。模型用于规划，规划指的是在实际经历之前考虑未来可能发生的情况来决定行动路线的任何方式。使用模型和规划解决强化学习问题的方法被称为基于模型的方法。更简单的无模型方法正好相反，它通过试错学习。

1.1.4 总结

强化学习是一种理解和自动进行目标导向学习和决策的计算方法。它与其他计算方法不同之处在于它强调了代理通过与环境的直接交互进行学习，而不依赖于监督或完整的环境模型。在我们看来，第一个认真处理从与环境的交互中学习以实现长期目标中出现的计算问题的领域就是强化学习。
强化学习使用马尔可夫决策过程的正式框架来定义学习代理与其环境之间的交互作用，包括状态、动作和奖励。这个框架用简单的方法来表示人工智能问题的基本特征。这些特征包括因果性、不确定性和不确定性，以及目标的存在性。
奖励和价值函数的概念是大多数强化学习方法的主要特征。我们认为，在策略空间中，价值函数对于有效搜索是非常重要的。价值函数的使用区分了强化学习方法和根据整个策略的评估直接在策略空间中搜索的进化方法。

1.2 OpenAI Gym教程

Gym是一个开发和比较强化学习算法的工具包。它对代理的结构没有任何假设，并且兼容于任何数值计算库(如TensorFlow或Theano)。
Gym库中包含许多可以用于制定强化学习算法的测试问题（即环境），这些环境有共享接口，允许编写通用的算法。

1.2.1 安装

首先，需要安装Python 3.5+，只需使用pip安装gym：

pip install gym

这里需要更新pip至19.2.2版本，直接用以下命令即可：

python -m pip install --upgrade pip

图2 更新pip

图3 安装gym 安装成功后可查看安装路径（D:\Python35\Lib\site-packages）。

图4 安装路径

1.2.2 从源代码进行构建

如果喜欢的话，也可以直接克隆gym git库，当需要更改gym或者添加新的环境时这非常有用。用以下进行下载和安装：

git clone https://github.com/openai/gym
cd gym
pip install -e .

1.2.3 完全安装

为了安装整个环境集，需要先安装部分系统包。
MuJoCo安装教程见https://github.com/openai/mujoco-py#obtaining-the-binaries-and-license-key。
Pip版本
要求Pip版本至少为1.5.0，可执行pip install --ignore-installed pip进行pip升级。
之后（mujoco-py需要单独安装）可以运行以下命令对所有环境进行完成安装：

pip install -e .[all]

1.2.4 环境

下面是运行程序的简单案例，运行环境CartPole-v0 1000步，每一步都渲染环境，然后弹出的窗口将呈现经典的小车倒立摆问题。

import gym
env = gym.make('CartPole-v0')
env.reset()
for _ in range(1000):
    env.render()
    env.step(env.action_space.sample()) # take a random action
env.close()

图5 运行示例一般情况下，我们会在卡杆离开屏幕之前结束模拟，稍后会详细介绍。现在，请忽略关于即使这个环境已经返回done = True仍然调用step()的警告。

图6 警告

如果想看到其他环境的运行效果，可以将上面的CartPole-v0替换为MountainCar-v0、MsPacman-v0(需要Atari依赖)或Hopper-v1(需要MuJoCo依赖)。

1.2.5 观察

如果想要在每一步比随机行为做的更高，就需要知道采取的动作是如何在环境中进行交互的。
环境的step函数返回的值就是我们所需要的，实际上，每一步环境都会返回四个值：

observation(object)：一个特定的环境对象，代表了从环境中得到的观测值，例如从摄像头获得的像素数据，机器人的关节角度和关节速度，或者棋盘游戏的棋盘状态。
reward(float)：前一行为所获得的奖励。奖励大小因环境而异，但目标总是提高总奖励。
done(boolean)：决定是否再次初始化环境。大多数（不一定所有）任务都被定义好了什么情况该结束这个回合。(举个例子，倒立摆倾斜地太远，或失去最后一条命)
info(dict)：调试过程中诊断信息，有时它会对我们的强化学习学习过程很有用（例如，有时它会包含最后一个状态改变后的原始概率），然而在评估你的智能体的时候你是不会用到这些信息去驱动你的智能体学习的。

一个经典的强化学习智能体与环境交互的过程可以被描述成如下方式：每次迭代，智能体选择一个动作，这个动作输入到环境中去，智能体会得到下一个观察(也就是下一个状态)和奖励。
程序开始时先调用reset()，它会返回一个初始的观测值，一个合适的方式编写代码如下所示：

import gym
env = gym.make('CartPole-v0')
for i_episode in range(20):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break
env.close()

通过运行这段代码，可以输出以下视频和结果，可以清楚地看到在哪进行了reset。

图7 输出结果

1.2.6 空间

在上面的例子中，我们一直在从环境的动作空间中随机抽取动作。但这些动作究竟是什么呢?每个环境都有一个action_space和一个observation_space。这些属性属于Space类型，它们描述了有效动作和观察的格式：

import gym
env = gym.make('CartPole-v0')
print(env.action_space)
#> Discrete(2)
print(env.observation_space)
#> Box(4,)

离散空间允许一个固定的非负数范围，所以在这种情况下有效的动作为0或1。Box空间表示一个n维的box，因此有效的观察值将是一个由4个数字组成的数组。可以通过以下来检查动作的边界范围：

print(env.observation_space.high)
#> array([ 2.4       ,         inf,  0.20943951,         inf])
print(env.observation_space.low)
#> array([-2.4       ,        -inf, -0.20943951,        -inf])

这种方式可以很有效地帮助我们编写不同环境下的代码，Box和离散的space是最常见的space。你可以从space中进行采样，或者查看一些信息：

from gym import spaces
space = spaces.Discrete(8) # Set with 8 elements {0, 1, 2, ..., 7}
x = space.sample()
assert space.contains(x)
assert space.n == 8

1.2.7 可用的环境

Gym配有多种从难到易的环境，也包含多种不同类型的数据，full list of environments中可以查看概览。

Classic control和toy text：完整的小规模任务，大多来自于强化学习文献，适合于入门。
Algorithmic：执行计算例如多位数加法和反转序列。一般认为这些任务对于计算机来说很容易，但是挑战在于纯粹从例子中去学习这些算法。这些任务有一个很好的特性，即通过改变序列长度很容易改变难度。
Atari：玩经典的Atari游戏。我们以一种易于安装的形式集成了学习环境(这对强化学习研究产生了很大的影响)。
2D and 3D robots：控制仿真机器人。这些任务使用MuJoCo物理引擎，用于快速准确的仿真。包含了一些来自由UC Berkeley研究人员提供的benchmark环境。MuJoCo是一款私有软件，但也提供了免费试用许可证。

1.2.8 注册

gym的主要目的是提供大量的环境集合，这些环境暴露了一个公共接口，并进行了版本控制以便进行比较。要列出已安装可用的环境，只需询问gym.env .registry：

from gym import envs
print(envs.registry.all())
#> [EnvSpec(DoubleDunk-v0), EnvSpec(InvertedDoublePendulum-v0), EnvSpec(BeamRider-v0), EnvSpec(Phoenix-ram-v0), EnvSpec(Asterix-v0), EnvSpec(TimePilot-v0), EnvSpec(Alien-v0), EnvSpec(Robotank-ram-v0), EnvSpec(CartPole-v0), EnvSpec(Berzerk-v0), EnvSpec(Berzerk-ram-v0), EnvSpec(Gopher-ram-v0), ...

这将给出EnvSpec对象的列表。这些对象定义了特定任务的参数，包括要运行的试验数量和最大步数。例如，EnvSpec(Hopper-v1)定义了一个环境，其中的目标是让一个2D模拟机器人跳跃：EnvSpec(Go9x9-v0)在9x9棋盘上定义了围棋游戏。
这些环境id被视为不透明的字符串。为了确保将来进行有效比较，环境永远不会以影响性能的方式更改，只会被更新的版本替换。我们现在给每个环境加上一个v0后缀，以便将来的替换可以自然地称为v1、v2等。将
将自己的环境添加到注册表中非常容易，从而使它们对gym.make()可用。make():只需在加载时注册register()它们。

1.2.9 背景：为什么有Gym？

强化学习(RL)是机器学习中涉及决策和电机控制的子领域。它研究代理如何在复杂、不确定的环境中学习如何实现目标。令人兴奋的原因有两个：
RL非常普遍，包括所有涉及到做出一系列决策的问题：例如，控制机器人的马达使其能够跑和跳；做出商业决策，如定价和库存管理；或玩视频游戏和棋盘游戏。RL甚至可以应用于具有顺序或结构化输出的监督学习问题。
RL算法已经开始在许多困难的环境中取得良好的效果。RL有着悠久的历史，但直到最近在深度学习方面取得的进展之前，它还需要许多针对特定问题的工程。DeepMind的Atari results、Pieter Abbeel小组的BRETT和AlphaGo都使用了深度RL算法，这些算法没有对环境做太多假设，因此可以应用于其他设置。
然而，RL的研究也受到两个因素的影响：

需要更好的benchmas。在监督学习中，像ImageNet这样的大型标记数据集驱动了其进步。在RL中，类似的就是大量多样的环境集合。然而，现有的RL环境的开源集合没有足够的多样性，而且它们通常很难设置和使用。
缺乏环境的标准化。在问题定义上的细微差别，如奖励函数或动作集合，可以极大地改变任务的难度。这个问题使得复制已发表的研究和比较不同论文的结果变得困难。

Gym正试图解决这两个问题。

ogre 学习笔记 - Day 1 頖╃縌 ①oO% #ogre 学习笔记游戏引擎
ogre学习笔记-Day1OGRE:Object-OrientedGraphicsRenderingEngine从名称可以得出，OGRE是一个渲染引擎下载地址https://www.ogre3d.org/最新版ogre-13.1.0编译工具cmake-gui,vs2019,vscodeConfigureconfigure时发现ogre会自动从github下载/编译依赖项，github速度有可能很慢
Nginx 学习笔记韩某- nginx 学习笔记
目录一、引言二、Nginx概述三、Nginx的作用（一）正向代理（二）反向代理（三）负载均衡策略（四）动静分离四、Nginx安装五、Nginx的常用命令六、Nginx实战及总结一、引言在项目发展初期，并发量和用户量较少时，简单地将一个jar包部署到服务器tomcat上即可满足需求。然而，随着用户数量的不断增长以及并发量的持续增大，单台服务器容易面临性能瓶颈，出现“红温”现象。此时，为了提升系统的处
Selenium学习笔记--Webdriver API 2--常用方法 jiang_guo 自动化测试笔记 selenium
Webdriver重用方法浏览器控制控制浏览器窗口大小控制浏览器后退、前进切换标签页（窗口切换）switch方法获取url使用get方法模拟浏览器刷新关闭浏览器常用方法clearsend_keysclicksubmitsizetextget_attributeis_displayedtitlecurrent_url鼠标操作键盘操作元素等待显示等待隐式等待切换iframe单表单切换嵌套表单切换平行表
Shiro框架源码学习笔记 a88729845 shiro
文章目录介绍认证术语如何使用Shiro的认证1.手机认证主体和凭据2.提交认证主体和凭据到认证系统3.允许访问，重新认证，或阻止访问"RememberMeSupport"RememberedvsAuthenticated登出授权授权三要素权限权限的粒度角色隐式的角色显式的角色(推荐)用户Shiro如何执行授权编程式授权角色检查权限检查实现`Permission`接口的方式使用`String`表示一
Maui学习笔记-身份认证和授权案例 Mr.L70517 Maui学习笔记学习笔记 ios c#http
在深入研究身份验证和授权时，可能会遇到很多术语。我们来简单介绍一下。Authentication，简单来讲时认证、验证身份检查用户名和密码，更高级方法设计到指纹、扫描、人脸识别或2FA认证。Authorization，授权，一旦通过身份认证，系统就可以决定当前用户是否有访问某些信息或执行一些操作的授权。OpenAuthorization(OAuth)，开放授权，它允许第三方用户访问你的程序，而无需
链表的基础知识 erchazhan 链表网络数据结构
在大一学习链表的过程中，感觉有许多没有学过的知识，这篇文章，算是我的第一篇学习笔记，可以在后续学习中回顾，有不对的情况可以提出，谢谢大家的建议。#pragmaonce#include#include//#include"SList.h"typedefintSLDateType;//voidSListPrint(SListNode*phead);定义结构体typedefstructNode{SLDa
Python编程从入门到实践(第2版)个人学习笔记 Xx_Studying Python基础 python 开发语言
这是本人学习Python编程从入门到实践(第2版)个人学习笔记，书本如下目录一、变量和简单数据类型1.1字符串和数1.1.1字符串部分方法的使用1.1.2f字符串的用法1.1.3删除空白1.1.4数中的下划线1.1.5同时给多个变量赋值二、列表简介2.1列表(list)2.1.1概念引入2.1.2访问列表元素2.1.3查找某元素的下标（index方法）2.2修改、添加和删除元素2.2.1修改列表元
人工智能学习框架：深入解析与实战指南一ge科研小菜鸡人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着人工智能（AI）技术的飞速发展，深度学习、强化学习和自然语言处理等领域的应用愈加广泛。掌握人工智能学习框架（如TensorFlow、PyTorch、Keras等）已成为开发智能系统、研究前沿技术的必备技能。本指南将全面介绍人工智能主流学习框架的特点、安装方法、核心功能，以及通过实践案例展示如何使用这些框架进行AI模型开发、训练与优化。1.
机器学习&深度学习目录 UQI-LIUWJ 各专栏目录深度学习人工智能 1024程序员节
机器学习模型机器学习笔记：Transformer_刘文巾的博客-CSDN博客attention相关机器学习笔记：attention_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ELMOBERT_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ViT（论文AnImageIsWorth16X16Words:TransformersforImageRecognitionatScale）_UQ
Linux学习笔记（复习版day008） ccnnlxc Liux学习复习笔记 linux 学习笔记
1.僵尸进程僵尸进程（ZombieProcess）是指那些已经终止（即完成执行）的进程，但其父进程尚未读取其退出状态信息的进程。简单来说，僵尸进程的生命周期已经结束，但它的进程描述符仍然存在于系统中，以便父进程能够获取其退出状态。处理：1.top命令查询是否有僵尸进程，此处1zombie表示有一个僵尸进程2.ps-aux|grepZ查询僵尸进程的pid,STAT状态为Z+的即为僵尸进程。3.pst
Hadoop学习笔记 --- YARN执行流程与工作原理杨鑫newlfe 数据仓库大数据挖掘与大数据应用案例 YARN Hadoop 大数据资源调度数据仓库
一、YARN简述首先介绍一下YARN在Hadoop2.0版本引进的资源管理系统，直接从MapReduceV1演化而来(由于引擎的功能缺陷)；原因是将MapReduce1中的JobTracker的资源管理和作业调度两个功能分开，分别由ResourceManager和ApplicationMaster进行实现；ResourceManager：负责整个集群的资源管理和调度ApplicationMaste
IsaacLab从入门到精通（六）真机部署与Sim2real NathanWu7 IsaacLab 人工智能机器人深度学习机器学习
在之前的教程中，我们已经完成了整个强化学习任务流程，现在我们需要将自己训练的策略迁移到真机上1.1Sim2real简要方法论强化学习的Sim2real问题一直以来是非常难解决的问题，在仿真环境中训练的policy往往很难迁移到实际的机器人系统上，因此我们需要用一些特殊的方法协助来实现这个过程。1.1.1建立数字孪生（Digitaltwin）在仿真环境中，我们建立的环境需要尽可能与真实世界对齐，因此
《spring编程常见错误50例》学习笔记 Day1 qq_31273845 学习 spring
1.为什么有时候我们代码移了一下包，就扫描不到了？在构建web服务的时候，我们启动服务程度如果不设置扫描包的话，默认会扫描运行程序所在的包。如果包和应用程序不在同一个包，就会失效。这个之前知道，至于为什么？今天才了解到，我就这里复述一下：@SpringBootApplication里面会有@ComponentScan注解。参考配置如下@ComponentScan(excludeFilters={@
Prometheus学习笔记柠檬编程工作室 k8s 运维 Docker prometheus 学习笔记
Prometheus官方教程Prometheus官方下载网址Prometheus简介Prometheus是一个开源的监控和报警系统，专为大规模分布式系统设计。它能够实时地收集、存储和查询时间序列数据，广泛用于监控云原生应用、微服务架构和容器化环境（如Kubernetes）。Prometheus的关键特点：时间序列数据存储：Prometheus以时间序列的形式存储数据，数据点由时间戳、指标名称和标签
【gopher的java学习笔记】代码分层之controller和service ThisIsClark gopher的java学习笔记 java 学习笔记
在Java的Web开发中，Controller层和Service层是两个至关重要的层次，它们各自承担着不同的职责，共同协作以实现复杂的应用程序功能。本文将详细介绍Java中Controller层和Service层的技术特点和作用。一、Controller层（控制层）Controller层是应用程序的入口点，负责接收用户的请求并处理。它通常处理来自前端或客户端的请求，并将请求转发给相应的Servic
【llm对话系统】RL强化学习的技术演进与RLHF kakaZhui 人工智能 chatgpt llama
一、强化学习基础知识强化学习(ReinforcementLearning,RL)是一种机器学习方法，它通过智能体(Agent)与环境(Environment)的交互来学习如何行动以最大化累积奖励(Reward)。1.核心概念:智能体(Agent):做出决策并采取行动的学习者。环境(Environment):智能体所处的外部世界，对智能体的行动做出反应。状态(State,S):对环境当前情况的描述。
python学习笔记---中文词云 DiAsdream 数据分析学习 python 学习开发语言
python学习笔记–中文词云提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加发现词云的展示还挺有意思的，比较多的应用场景是给用户打标签，社交软件应用较多。今天随便找了一些文字电影《肖申克的救赎》的一些评价，做了一个词云，其实还挺简单的。Python的学习路上真的需要这样的小成功来激发更多学习的动力。Comeon！提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章
学习笔记： MySQL进阶篇一之架构和日志文件蜗牛_snail 学习笔记 mysql
MySQL架构图Connectors连接器：负责跟客户端建立连接ManagementServeices&Utilities系统管理和控制工具ConnectionPool连接池：管理用户连接，监听并接收连接的请求，转发所有连接的请求到线程管理模块SQLInterfaceSQL接口：接受用户的SQL命令，并且返回SQL执行结果Parser解析器：SQL传递到解析器的时候会被解析器验证和解析Optimi
openmv模块学习笔记：openmv瞳孔识别代码详细解析 DIY机器人工房 openmv学习笔记计算机视觉人工智能深度学习 opencv python 学习笔记
这段代码的主要功能是使用OpenMV摄像头持续采集图像，通过Haar级联分类器检测图像中的眼睛，然后在检测到的眼睛区域内寻找瞳孔，并使用矩形框标记眼睛、十字形标记瞳孔的位置，同时输出程序的处理帧率。#瞳孔识别例程##这个例子展示了如何找到图像中的眼睛后的瞳孔（瞳孔检测）。该脚本使用#find_eyes函数来确定应该包含瞳孔的roi的中心点。它通过基本上找到瞳孔#中心的眼睛最黑暗的区域的中心。##注
Ansible详细学习笔记和实战案例沉淅尘 Linux #Ansible 运维 Ansible 自动化 linux
Ansible详细学习笔记和实战案例（容易忘记的内容）一、主机清单ansiblelocalhost-mcommand-a"ls"##主机列表文件cat/etc/ansible/hosts主机描述形式：主机IP地址和主机名##blue.example.com##192.168.100.1散列主机列表和主机组列表散列主机列表主机组列表嵌套主机组列表##blue.example.com##[webser
人工智能技术的应用前景及未来发展键盘上的蚂蚁- 人工智能生活
引言人工智能（AI）作为21世纪最具创新性和革命性的技术之一，正在全球范围内深刻地改变着我们的生产、工作和生活方式。随着深度学习、强化学习、自然语言处理（NLP）、计算机视觉（CV）等技术的飞速进展，AI不再仅仅是学术研究中的一个热点，而是渗透到各个行业，成为推动创新、优化生产和提升效率的核心力量。对于开发者来说，理解和掌握AI技术不仅是提升个人技能的途径，更是应对未来技术变革、抓住职业机遇的关键
R语言学习笔记5-数据结构-多维数组 Colin♛ R语言 r语言学习笔记开发语言数据结构
R语言学习笔记5-数据结构-多维数组多维数组(array)介绍特点和用途创建多维数组多维数组的索引和切片多维数组的运算获取多维数组的维度和属性多维数组的合并和拆分多维数组的逻辑操作多维数组的转置和重塑多维数组的元素操作多维数组的统计函数多维数组的循环操作使用reshape2包的melt()和dcast()函数利用purrr包对多维数组进行函数应用对多维数组进行条件筛选和替换多维数组的子集选择使用d
R语言学习笔记6-数据框 Colin♛ r语言学习笔记开发语言信息可视化
R语言学习笔记6-数据框数据框(DataFrame)介绍数据框用途创建数据框从矩阵创建数据框索引和切片添加和修改列数据框的预处理数据框的排序数据框的筛选处理缺失值应用函数处理数据重塑数据框使用dplyr进行数据框的管道操作数据框的时间序列操作大数据框的处理数据框的绘图数据框的文本处理数据框的连接与关联按行或列连接数据框按键值关联数据框数据框的条件处理与逻辑操作条件筛选逻辑操作数据框的汇总与统计分析
corba学习笔记一枚前端猿
CORBA公用对象请求代理（调度）程序体系结构（CommonObjectRequestBrokerArchitecture），缩写为CORBA，是对象管理组织（ObjectManagementGroup）对应当今快速增长的软硬件的协同工作能力的要求而提出的方案。简而言之，CORBA允许应用程序和其他的应用程序通讯，而不论他们在什么地方或者由谁来设计。CORBA曾经是分布式计算的主流技术，在电信等领
二、机器学习模型评估与选择没见过西瓜嘛机器学习学习笔记机器学习人工智能数据分析
机器学习模型评估与选择学习笔记一、核心概念1.1经验误差与过拟合误差相关定义错误率与精度：分类错误样本数占样本总数比例为错误率E=a/mE=a/mE=a/m，精度=1-错误率。训练误差与泛化误差：学习器在训练集上误差为训练误差（经验误差），在新样本上误差为泛化误差，泛化误差越小越好。过拟合与欠拟合过拟合：学习器把训练样本学得“太好”，将训练样本特点当作所有样本一般性质，导致泛化性能下降。欠拟合：学
Java 学习笔记面向对象的七大设计原则「已注销」学习笔记 java 学习开发语言
文章目录参考资料一、单一职责原则SRP二、开闭原则OCP三、里氏替换原则LSP四、依赖倒转原则DIP五、接口隔离原则ISP六、合成复用原则CRP七、迪米特法则LOD八、总结参考资料参考资料：视频资料面向对象设计，ObjectOrientedDesign，简称OOD。在进行软件开发时，需要考虑项目的可维护性和可复用性，开发项目一般是由一个开发团队来维护，因此我们在编写代码时，应可能规范，防止项目出现
英伟达DeepStream学习笔记39———使用netplan固定ip 翟羽嚄英伟达TX2 /Xavier /deepstream开发学习 linux 运维
英伟达DeepStream学习笔记39———使用netplan固定ip简介●介绍Netplan是一个在linux系统上轻松配置网络的实用工具。您只需创建所需网络接口的YAML描述以及每个接口应配置的功能。根据此描述，Netplan将为您选择的渲染器工具生成所有必要的配置。●原理Netplan从/etc/Netplan/*.yaml读取网络配置，这些文件由管理员、安装人员、云映像实例化或其他操作系统
网络技术搭建学习笔记 m0_70960708 笔记学习笔记网络
局域网属于计算机网络中的一种，具有计算机网络的性能，有自己的特点和类型。随着网络技术的不断发展，网络设备的价格不断降低，性能不断提高，为局域网的发展提供了良好的物质基础；同时现代社会对信息资源的需求，也促使局域网技术迅猛发展。在计算机网络发展过程中，局域网技术占据非常重要的地位。1972年，Bell（贝尔）公司提出了两种环型局域网技术。1975年，美国Xerox公司推出了Ethernet（以太网）
CSS学习笔记10——元素的显示与隐藏&&布局技巧之margin，三角形 green_pine_ CSS css 学习笔记前端 html
元素的显示与隐藏类似广告display显示隐藏visibility显示隐藏overflow溢出显示隐藏display属性display:none;隐藏对象display:block;除了转换为块级元素外，还有显示元素的意思display隐藏元素后，不再占有原来位置visibility可见性visibility:visible;元素可视visibility:hidden;元素隐藏visibility
学习笔记 20240805 Rust语言-Rust语言圣经-Box＜T＞ zhangfan-辰祎学习笔记 rust
文章目录20240805智能指针概述Box\堆对象分配Rust中的堆栈Box的使用场景使用Box\将数据存储在堆上避免栈上数据的拷贝将动态大小类型变为Sized固定大小类型特征对象Box内存布局Box::leak总结参考文献20240805智能指针概述在各个编程语言中，指针的概念几乎都是相同的：指针是一个包含了内存地址的变量，该内存地址引用或者指向了另外的数据。在Rust中，最常见的指针类型是引用
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现（强化学习导论第二版）