微笑小星

ML-Agents案例之地牢逃脱

本案例源自ML-Agents官方的示例，Github地址：https://github.com/Unity-Technologies/ml-agents，本文是详细的配套讲解。

本文基于我前面发的两篇文章，需要对ML-Agents有一定的了解，详情请见：Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。

我前面的相关文章有：

ML-Agents案例之Crawler

ML-Agents案例之推箱子游戏

ML-Agents案例之跳墙游戏

ML-Agents案例之食物收集者

ML-Agents案例之双人足球

Unity人工智能之不断自我进化的五人足球赛

环境说明

设置：特工被困在一个有龙的地牢中，必须共同努力才能逃脱。为了取回钥匙，其中一名特工必须找到并杀死龙，为此牺牲自己。龙会掉落一把钥匙供其他人使用。然后其他特工可以拿起这把钥匙并打开地牢门。如果特工花费的时间过长，龙将通过传送门逃跑并且环境会重置。
目标：打开地牢门并离开。
任何智能体成功打开门并离开地牢，则 +1 团队奖励。
此项目的训练难点在于，智能体为了团队奖励，必须学会牺牲自己。
输入：智能体的输入包含一个射线传感器RayPerceptionSensor3D，识别的标签分别为墙，队友，龙，钥匙，门锁，龙的洞穴。共15根射线，参数见下方图片。关于该传感器的详细说明见ML-Agents案例之推箱子游戏。

除了传感器之外，程序中还加入了一项检测智能体身上是否有钥匙的输入。
输出：智能体只采取了一项的离散输出，其中这个离散输出包含七个只，代表什么都不做、前进、后退、向左走、向右转、向左转、向右转。较少的输出会大大降低神经网络复杂度，减少训练时间。缺点是同一时间只能执行一个动作，降低智能体的灵活性，例如不能同时前进和旋转，也不能前进和向右转等。

代码讲解

首先是标准的三件套Behavior Parameters、Decision Requester 、Model Overrider。其中只有Behavior Parameters需要调参数，设置见上图。以前已详细讲解了各自的作用，这里不再讲解。

现在看看主要的智能体代码PushAgentEscape.cs：

初始化方法Initialize()：

public override void Initialize()
{
    // 获取组件
    m_GameController = GetComponentInParent();
    m_AgentRb = GetComponent();
    m_PushBlockSettings = FindObjectOfType();
    // 默认没有钥匙
    MyKey.SetActive(false);
    IHaveAKey = false;
}

每一个episode开始时的处理OnEpisodeBegin()方法：

public override void OnEpisodeBegin()
{
    MyKey.SetActive(false);
    IHaveAKey = false;
}

状态输入CollectObservations方法：

public override void CollectObservations(VectorSensor sensor)
{
    sensor.AddObservation(IHaveAKey);
}

可以看到除了传感器的输入之外，这里只有是否拥有钥匙一个输入。

动作输出OnActionReceived方法：

public override void OnActionReceived(ActionBuffers actionBuffers)
{
    MoveAgent(actionBuffers.DiscreteActions);
}

public void MoveAgent(ActionSegment act)
{
    var dirToGo = Vector3.zero;
    var rotateDir = Vector3.zero;

    var action = act[0];

    switch (action)
    {
        case 1:
            dirToGo = transform.forward * 1f;
            break;
        case 2:
            dirToGo = transform.forward * -1f;
            break;
        case 3:
            rotateDir = transform.up * 1f;
            break;
        case 4:
            rotateDir = transform.up * -1f;
            break;
        case 5:
            dirToGo = transform.right * -0.75f;
            break;
        case 6:
            dirToGo = transform.right * 0.75f;
            break;
    }
    // 执行旋转
    transform.Rotate(rotateDir, Time.fixedDeltaTime * 200f);
    // 给刚体施加力，执行移动
    m_AgentRb.AddForce(dirToGo * m_PushBlockSettings.agentRunSpeed,
                       ForceMode.VelocityChange);
}

可以看到这里只有一个离散输出，包含0-6七个值，其中0为什么都不做。

碰撞检测：

碰撞检测分为两个部分，其中洞穴，龙，门锁是碰撞体，调用的是OnCollisionEnter方法：

void OnCollisionEnter(Collision col)
{
     // 当身上有钥匙，碰到锁，那么门打开，同时消耗钥匙，调用UnlockDoor方法
    if (col.transform.CompareTag("lock"))
    {       
        if (IHaveAKey)
        {
            MyKey.SetActive(false);
            IHaveAKey = false;
            m_GameController.UnlockDoor();
        }
    }
    // 当碰到龙时，销毁身上的钥匙（实际上身上此时不可能有钥匙，为了逻辑完整这样写），并且调用KilledByBaddie方法
    if (col.transform.CompareTag("dragon"))
    {
        m_GameController.KilledByBaddie(this, col);
        MyKey.SetActive(false);
        IHaveAKey = false;
    }
    // 当碰到洞穴时，调用TouchedHazard方法
    if (col.transform.CompareTag("portal"))
    {
        m_GameController.TouchedHazard(this);
    }
}

另一部分是钥匙，它被设定为触发器而非碰撞体，调用的是OnTriggerEnter方法：

void OnTriggerEnter(Collider col)
{
    // 如果钥匙是和智能体在同一个父物体下并且智能体为激活状态
    // 那么取消激活钥匙并激活身上的子物体钥匙，所以看起来像捡起来钥匙一样
    if (col.transform.CompareTag("key") && col.transform.parent == transform.parent && 	                           		  gameObject.activeInHierarchy)
    {
        print("Picked up key");
        MyKey.SetActive(true);
        IHaveAKey = true;
        col.gameObject.SetActive(false);
    }
}

如果玩家想手动操控其中一个智能体，则需要在智能体没有模型的情况下重写Heuristic方法：

public override void Heuristic(in ActionBuffers actionsOut)
{
    var discreteActionsOut = actionsOut.DiscreteActions;
    if (Input.GetKey(KeyCode.D))
    {
        discreteActionsOut[0] = 3;
    }
    else if (Input.GetKey(KeyCode.W))
    {
        discreteActionsOut[0] = 1;
    }
    else if (Input.GetKey(KeyCode.A))
    {
        discreteActionsOut[0] = 4;
    }
    else if (Input.GetKey(KeyCode.S))
    {
        discreteActionsOut[0] = 2;
    }
}

下面讲解控制整个环境的脚本DungeonEscapeEnvController.cs：

脚本先定义了智能体和恶龙所拥有的信息类，把关键信息封装起来便于调用，使得代码更加简洁美观：

// 定义智能体信息类
public class PlayerInfo
{
    // 智能体脚本
    public PushAgentEscape Agent;
    // 智能体起始位置
    public Vector3 StartingPos;
    // 智能体起始旋转向量
    public Quaternion StartingRot;
    // 智能体刚体
    public Rigidbody Rb;
    // 智能体碰撞体
    public Collider Col;
}

// 定义龙信息类
public class DragonInfo
{
    // 龙的脚本
    public SimpleNPC Agent;
    // 龙的起始位置
    public Vector3 StartingPos;
    // 龙的其实旋转向量
    public Quaternion StartingRot;
    // 龙的刚体
    public Rigidbody Rb;
    // 龙的碰撞体
    public Collider Col;
    // 起始的Transform
    public Transform T;
    // 是否死亡
    public bool IsDead;
}

然后定义了一系列的变量：

// 每一个episode的最大步数和最大时间，超过两者环境会重置
[Header("Max Environment Steps")] public int MaxEnvironmentSteps = 25000;
private int m_ResetTimer;
// 区域大小
public Bounds areaBounds;
// 地面
public GameObject ground;
// 地面材质
Material m_GroundMaterial; 
// 地面渲染
Renderer m_GroundRenderer;
// 智能体信息列表
public List AgentsList = new List();
// 龙的信息列表
public List DragonsList = new List();
// 建立一个字典，键为智能体脚本，值为智能体信息
private Dictionary m_PlayerDict = new Dictionary();
// 是否随机智能体的位置和旋转
public bool UseRandomAgentRotation = true;
public bool UseRandomAgentPosition = true;
// 把推方块的脚本拿过来复用了，名字都没改
PushBlockSettings m_PushBlockSettings;
// 存货的智能体数量
private int m_NumberOfRemainingPlayers;
// 钥匙
public GameObject Key;
// 墓碑
public GameObject Tombstone;
// 智能体组（重中之重）
private SimpleMultiAgentGroup m_AgentGroup;

然后就是对场景初始化，调用的Start方法：

void Start()
{
    // 获取地面界限
    areaBounds = ground.GetComponent().bounds;
    // 获取地面渲染，方便改变材质
    m_GroundRenderer = ground.GetComponent();
    // 初始材质
    m_GroundMaterial = m_GroundRenderer.material;
    // 获取全局设定脚本
    m_PushBlockSettings = FindObjectOfType();
    // 重新计算场上存在的智能体
    m_NumberOfRemainingPlayers = AgentsList.Count;
    // 隐藏钥匙
    Key.SetActive(false);
    // 给列表中的智能体添加上对应的信息，并把智能体添加到组中，同一组的智能体会相互合作
    m_AgentGroup = new SimpleMultiAgentGroup();
    foreach (var item in AgentsList)
    {
        item.StartingPos = item.Agent.transform.position;
        item.StartingRot = item.Agent.transform.rotation;
        item.Rb = item.Agent.GetComponent();
        item.Col = item.Agent.GetComponent();
        // 添加到组
        m_AgentGroup.RegisterAgent(item.Agent);
    }
    // 给龙列表中的龙添加信息
    foreach (var item in DragonsList)
    {
        item.StartingPos = item.Agent.transform.position;
        item.StartingRot = item.Agent.transform.rotation;
        item.T = item.Agent.transform;
        item.Col = item.Agent.GetComponent();
    }
	// 重置场景
    ResetScene();
}

在ResetScene中：

 void ResetScene()
 {
     // 重置计时
     m_ResetTimer = 0;
     // 重置生存的智能体数量
     m_NumberOfRemainingPlayers = AgentsList.Count;
	// 四个方向任意旋转场景，可以防止过拟合在一个位置上
     var rotation = Random.Range(0, 4);
     var rotationAngle = rotation * 90f;
     transform.Rotate(new Vector3(0f, rotationAngle, 0f));

     // 重置列表中的每个智能体
     foreach (var item in AgentsList)
     {
         // 如果设定了随机，在场景中随机一个位置，没有就固定位置
         var pos = UseRandomAgentPosition ? GetRandomSpawnPos() : item.StartingPos;
         var rot = UseRandomAgentRotation ? GetRandomRot() : item.StartingRot;		
         item.Agent.transform.SetPositionAndRotation(pos, rot);
         // 状态都清零
         item.Rb.velocity = Vector3.zero;
         item.Rb.angularVelocity = Vector3.zero;
         item.Agent.MyKey.SetActive(false);
         item.Agent.IHaveAKey = false;
         item.Agent.gameObject.SetActive(true);
         // 这一行我认为可以去掉，无需再次添加
         m_AgentGroup.RegisterAgent(item.Agent);
     }
     // 重置钥匙
     Key.SetActive(false);

     // 重置墓碑
     Tombstone.SetActive(false);

     // 重置列表中的每一只龙
     foreach (var item in DragonsList)
     {
         if (!item.Agent)
         {
             return;
         }
         // 设定固定的起始位置
         item.Agent.transform.SetPositionAndRotation(item.StartingPos, item.StartingRot);
         // 设定随机的行走速度
         item.Agent.SetRandomWalkSpeed();
         // 激活智能体
         item.Agent.gameObject.SetActive(true);
     }
 }

在获取任意场景中位置的时候，调用的是GetRandomSpawnPos，这段代码可复用很强。

public Vector3 GetRandomSpawnPos()
{
    var foundNewSpawnLocation = false;
    var randomSpawnPos = Vector3.zero;
    while (foundNewSpawnLocation == false)
    {
        var randomPosX = Random.Range(-areaBounds.extents.x * m_PushBlockSettings.spawnAreaMarginMultiplier,
                                      areaBounds.extents.x * m_PushBlockSettings.spawnAreaMarginMultiplier);

        var randomPosZ = Random.Range(-areaBounds.extents.z * m_PushBlockSettings.spawnAreaMarginMultiplier,
                                      areaBounds.extents.z * m_PushBlockSettings.spawnAreaMarginMultiplier);
        randomSpawnPos = ground.transform.position + new Vector3(randomPosX, 1f, randomPosZ);
        // 检查生成的位置有没有碰撞体，有的话就重新生成，没有就退出循环
        if (Physics.CheckBox(randomSpawnPos, new Vector3(2.5f, 0.01f, 2.5f)) == false)
        {
            foundNewSpawnLocation = true;
        }
    }
    return randomSpawnPos;
}

接下来是每0.02秒都执行一次的FixedUpdate方法：

这里主要检测一个episode是否已经到达了设定的时间和最大步数，满足两者则环境重置。

void FixedUpdate()
{
    m_ResetTimer += 1;
    if (m_ResetTimer >= MaxEnvironmentSteps && MaxEnvironmentSteps > 0)
    {
        m_AgentGroup.GroupEpisodeInterrupted();
        ResetScene();
    }
}

接下来定义了三个对应接触龙，接触洞穴，接触门锁的方法：

当智能体接触洞穴时：

public void TouchedHazard(PushAgentEscape agent)
{
    // 智能体死亡，数量-1，数量为0时重置环境
    m_NumberOfRemainingPlayers--;
    if (m_NumberOfRemainingPlayers == 0 || agent.IHaveAKey)
    {
        m_AgentGroup.EndGroupEpisode();
        ResetScene();
    }
    else
    {
        agent.gameObject.SetActive(false);
    }
}

当智能体接触门锁时：

public void UnlockDoor()
{
    // 获得集体奖励
    m_AgentGroup.AddGroupReward(1f);
   // 改变地面材质0.5秒
    StartCoroutine(GoalScoredSwapGroundMaterial(m_PushBlockSettings.goalScoredMaterial, 0.5f));
    print("Unlocked Door");
    // 结束游戏
    m_AgentGroup.EndGroupEpisode();
	// 重置场景
    ResetScene();
}

当智能体接触龙时：

public void KilledByBaddie(PushAgentEscape agent, Collision baddieCol)
{
    // 龙被杀死，隐藏
    baddieCol.gameObject.SetActive(false);
    // 一个智能体死亡，隐藏
    m_NumberOfRemainingPlayers--;
    agent.gameObject.SetActive(false);
    print($"{baddieCol.gameObject.name} ate {agent.transform.name}");

    // 激活墓碑
    Tombstone.transform.SetPositionAndRotation(agent.transform.position, agent.transform.rotation);
    Tombstone.SetActive(true);

    // 激活钥匙
    Key.transform.SetPositionAndRotation(baddieCol.collider.transform.position, baddieCol.collider.transform.rotation);
    Key.SetActive(true);
}

此处可以试试扣除接触龙智能体本身的分数，看看智能体是否舍己为人，牺牲自己的分数换取团队的收益。

改变地面材质的携程：

IEnumerator GoalScoredSwapGroundMaterial(Material mat, float time)
{
    m_GroundRenderer.material = mat;
    yield return new WaitForSeconds(time); // Wait for 2 sec
    m_GroundRenderer.material = m_GroundMaterial;
}

以下是NPC龙的代码，很简单，只有移动的逻辑：

using UnityEngine;

public class SimpleNPC : MonoBehaviour
{

    public Transform target;
    private Rigidbody rb;
    public float walkSpeed = 1;
    private Vector3 dirToGo;
	// 比Start更早执行
    void Awake()
    {
        rb = GetComponent();
    }
    void Update()
    {
    }
	// 每0.02秒执行一次
    void FixedUpdate()
    {
        dirToGo = target.position - transform.position;
        dirToGo.y = 0;
        rb.rotation = Quaternion.LookRotation(dirToGo);
        // 执行移动
        rb.MovePosition(transform.position + transform.forward * walkSpeed * Time.deltaTime);
    }
    // 设置一个随机速度
    public void SetRandomWalkSpeed()
    {
        walkSpeed = Random.Range(1f, 7f);
    }
}

在龙下还挂着一个脚本，用来检测龙是否接触到洞穴：

using UnityEngine;
using UnityEngine.Events;

namespace Unity.MLAgentsExamples
{

    public class CollisionCallbacks : MonoBehaviour
    {
 		// 以下定义了多个事件，需要在Unity编辑器中订阅它们
        [System.Serializable]
        public class TriggerEvent : UnityEvent
        {
        }

        [Header("Trigger Callbacks")]
        public TriggerEvent onTriggerEnterEvent = new TriggerEvent();

 	    // 这个案例只用到了这个方法，其他方法都没有订阅
        private void OnCollisionEnter(Collision col)
        {
            if (col.transform.CompareTag(tagToDetect))
            {
                onCollisionEnterEvent.Invoke(col, transform);
        }      
    }
}

订阅事件：

其中执行的方法如下：

public void BaddieTouchedBlock()
{
    m_AgentGroup.EndGroupEpisode();
    StartCoroutine(GoalScoredSwapGroundMaterial(m_PushBlockSettings.failMaterial, 0.5f));
    ResetScene();
}

配置文件

最简单的配置：

behaviors:
  DungeonEscape:
    trainer_type: poca
    hyperparameters:
      batch_size: 1024
      buffer_size: 10240
      learning_rate: 0.0003
      beta: 0.01
      epsilon: 0.2
      lambd: 0.95
      num_epoch: 3
      learning_rate_schedule: constant
    network_settings:
      normalize: false
      hidden_units: 256
      num_layers: 2
      vis_encode_type: simple
    reward_signals:
      extrinsic:
        gamma: 0.99
        strength: 1.0
    keep_checkpoints: 5
    max_steps: 20000000
    time_horizon: 64
    summary_freq: 60000

效果演示

后记

这一个案例是多智能体案例，探索了智能体自我牺牲以求团队利益的可能性，以后可以以此为依据，做一个更为复杂的解密类游戏，其中包含人类想不到的解密方法，但智能体可以学习出来，这对于奖励函数的设置是一个巨大的挑战。

muzero 算法原理战神哥
Muzero算法是一种通用的强化学习算法，它可以在没有预先设定策略的情况下进行学习。它通过模拟整个游戏进程来自我学习，并通过回报函数来评估每一步的决策。Muzero算法的核心部分是一个叫做模型的神经网络，它会对游戏的状态进行预测，预测未来的游戏状态。另一部分是策略网络，它会根据当前状态预测每一步的最优决策。Muzero算法通过不断地训练模型和策略网络，来提高它们的准确性，从而使得机器学到了如何玩游
Oculus SDK：Oculus集成Unity开发环境_2024-07-26_05-43-25.Tex chenjj4003 游戏开发 unity 游戏引擎 microsoft mr ui c#python
OculusSDK：Oculus集成Unity开发环境OculusSDK：Oculus集成Unity开发环境环境准备Unity版本选择在开始集成OculusSDK到Unity开发环境之前，选择正确的Unity版本至关重要。OculusSDK支持特定版本的Unity，因此确保你的Unity版本与OculusSDK兼容是必要的。截至撰写本教程时，Oculus建议使用Unity2020.3.14f1或更
Linux安装MySQL 小小程序员.¥ MySQL数据库 linux mysql 运维
1.下载MySQL安装包2.在Linux创建Linuxmysql文件夹，并解压mkdirlinuxmysqltar-xvfmysql-8.0.26-1.el7.x86_64.rpm-bundle.tar-Clinuxmysql大C是安装到指定目录3.切换到linuxmysql目录按顺序解压cdlinuxmysqlrpmivhmysql-community-common-8.0.26-1.e17.x
DeepSeek技术跟踪和本地部署实践一望无际的大草原人工智能学习笔记 deepseek 大模型技术跟踪 deepseek
春节期间，我也紧跟技术潮流，跟踪学习了并部署了一下DeepSeek，应该说DeepSeek是中国人在AI领域一次技术创新，甚至超越，给各大AI公司提供了一条全新的赛道，其推出的强化学习等技术提醒大家AI不单单是Transformer架构下的堆算力、堆数据，还需要在算法和工程落地方面的不断创新实践，下面具体来说说，供大家参考学习。DeepSeek（深度求索）是一家杭州地区量化私募巨头幻方量化旗下的A
MongoDB部署木子运维 mongodb 数据库
MongoDB部署一、MongoDB安装配置1.下载安装包#https://www.mongodb.com/try/download/communitywgethttps://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-7.0.14.tgz2.解压tarfxmongodb-linux-x86_64-rhel70-7.0.14.tgz-C
AI架构师必知必会系列：强化学习在金融领域的应用 AI天才研究院 AI实战 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录AI架构师必知必会系列：强化学习在金融领域的应用1.背景介绍1.1问题的由来1.2研究现状1.3研究意义1.4本文结构2.核心概念与联系1.强化学习交易系统的总体架构2.强化学习模型训练流程3.强化学习风控系统架构3.核心算法原理&具体操作步骤3.1算法原理概述3.1.1Q学习3.1.2REINFORCE3.1.3A3C3.2算法步骤详解3.3算法优缺点3.4算法应用领域4.数学模型和公式
Unity中，每一帧的渲染CPU和GPU都做了些什么你一身傲骨怎能输商业化游戏开发技术专栏 unity 游戏引擎
在Unity中，每一帧的渲染过程涉及到CPU和GPU的协同工作。CPU和GPU各自承担不同的任务，以实现高效的图形渲染。以下是每一帧渲染过程中CPU和GPU的主要工作内容：CPU的工作输入处理：处理用户输入（键盘、鼠标、触摸等）。更新输入状态。游戏逻辑更新：执行游戏脚本（如C#脚本）。更新游戏对象的状态（位置、旋转、缩放等）。处理物理引擎（如碰撞检测和刚体模拟）。动画更新：更新动画状态机。计算骨骼
基于基于强化学习(Q-Learning)用于底层动态频谱接入(DSA)认知无线电网络的资源分配研究（Matlab代码实现）长安程序猿网络 matlab 开发语言
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、动态频谱接入（DSA）的基本原理与挑战1.DSA的核心机制2.关键挑战二、Q-Learning在DSA资源分配中的应用框架1.算法原理2.典型应用场景三、关键参数与模型设计1.状态空间定义2.动作空间设计3.奖励函数设计四、研究进展与优化方法1.
Unity UI优化总结 Don里个冬 Unity3D技术分享 unity unity3d ugui
UnityUI优化总结前言最近又再一次回顾总结了一下UnityUI的优化，在此作下笔记，供学习参考。核心四大问题在Unity中UI优化的核心问题就是重绘和批处理之间的平衡。虽然说可以通过一些简单的技巧单方面地减少批次或者减少重绘，但进行过一波优化之后，最终还是要面临批次和重绘的平衡问题的。常见的四大UI优化问题：1、片段着色器利用率过高（或者说GPUfill-rate填充率过高），即每个片段处理的
【虚拟仿真】Unity3D中如何实现让3D模型显示在UI前面恬静的小魔龙 #Unity3D VR/AR开发 unity 3d ui
推荐阅读CSDN主页GitHub开源地址Unity3D插件分享简书地址我的个人博客QQ群：1040082875大家好，我是佛系工程师☆恬静的小魔龙☆，不定时更新Unity开发技巧，觉得有用记得一键三连哦。一、前言最近有小伙伴在群里问我，如何将3D模型显示在UI前面，比如这样：
【自学笔记】机器学习基础知识点总览-持续更新 Long_poem 笔记机器学习人工智能
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录机器学习重点知识点总览一、机器学习基础概念二、机器学习理论基础三、机器学习算法1.监督学习2.无监督学习3.强化学习四、机器学习处理流程五、机器学习常见问题与解决方法六、机器学习应用领域总结机器学习重点知识点总览一、机器学习基础概念定义：机器学习是一种人工智能技术，通过对数据的学习和分析，让计算机系统自动提高其性能。本质：找到
强化学习：原理、概念与代码实践 AndrewHZ 深度学习新浪潮人工智能深度学习强化学习机器学习算法 deepseek
一、引言强化学习（ReinforcementLearning）作为机器学习的一个重要分支，旨在通过智能体（agent）与环境的交互，学习到最优的行为策略，以最大化长期累积奖励。它在机器人控制、游戏、自动驾驶、资源管理等众多领域都取得了显著的成功。本文将深入介绍强化学习的数学原理、核心概念，并通过公式推导来加深理解，同时结合一个具体的实例，使用Python语言进行代码实现，帮助读者全面掌握强化学习的
如何训练LLM“思考”（像o1和DeepSeek-R1一样, 高级推理模型解析果冻人工智能 AI员工人工智能 chatgpt 深度学习
2024年9月，OpenAI发布了它的o1模型，该模型基于大规模强化学习训练，赋予了它“高级推理”能力。不幸的是，他们是如何做到这一点的细节从未被公开披露。然而，今天，DeepSeek（一个AI研究实验室）成功复现了这种推理行为，并公开了他们方法的完整技术细节。在这篇文章中，我将讨论这一创新背后的关键思想，并描述它们在底层是如何运作的。一台会思考的笔记本电脑OpenAI的o1模型标志着训练大语言模
SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别钟小宇 LLM 人工智能语言模型
SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别STF（SupervisedFine-Tuning）和RLHF（ReinforcementLearningfromHumanFeedback）是两种不同的模型训练方法，分别用于不同的阶段和目的。以下是它们的主要区别：1.方法概述STF（监督微调）：定义：STF是指在已经预训练好的模型基础上，使用标注好的数据进一步训练模型，使其在特定任务上
Unity游戏icon 木雁之游戏 android ios unity
图片格式，统一为PNG格式文章目录iOSiconAndroidiconAndroid8.0以下(API25andbelow)的版本Android8.0及以上(API26andabove)的版本iOSiconiOS平台icon资源，规格如下：文件名尺寸ICON_20.png20x20ICON_29.png29x29ICON_40.png40x40ICON_58.png58x58ICON_60.png
评测系统的神经架构搜索优化 AI天才研究院 ChatGPT 计算 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
评测系统的神经架构搜索优化关键词评测系统神经架构搜索优化强化学习人工智能摘要本文将探讨评测系统的神经架构搜索优化这一主题。首先，我们将介绍评测系统的基本概念和重要性，然后深入解析神经架构搜索优化的基本原理和算法。接下来，我们将探讨神经架构搜索优化的应用场景和实战案例分析，最后进行总结和展望。第1章：引言1.1评测系统的重要性评测系统在各个领域都有着广泛的应用，如教育、工业、金融等。它的主要作用是对
DeepSeek教unity------UI框架 Edision_li DeepSeek教unity unity ui c#学习
/****************************************************文件：BasePanel.cs作者：Edision日期：#CreateTime#功能：面板基类*****************************************************/usingUnityEngine;publicclassBasePanel:MonoBeha
class unity 定义类_[Unity]用PropertyDrawer自定义struct/class的外观 weixin_39722025 class unity 定义类
一般来说，当我们要扩展编辑器时，我们会从Editor类继承，为自己的MonoBehaviour实现不同的外观。但是如果有一个struct/class，在许多地方被使用，Unity默认的外观又不够好看，此时想修改它的外观，就需要使用PropertyDrawer了。上图是一个Monobehaviour中包含一个简单的struct(TileCoord类)，包含两个int，但是显示效果十分别扭。实现对应的
【Unity粒子特效分享-卡通特效2】井队Tell #粒子特效篇 unity 游戏引擎
卡通特效2前言回顾效果图前言回顾可以点击传送门预览。传送门:【Unity粒子特效分享-宇宙星系】.传送门:【Unity粒子特效分享-魔法粒子特效超炫大招】.传送门:【Unity粒子特效分享-刀光特效】.传送门:【Unity粒子特效分享-技能特效】.传送门:【Unity粒子特效分享-科幻魔法光圈脉冲特效】.传送门:【Unity粒子特效分享-血迹飞溅特效】.传送门:【Unity粒子特效分享-高级炫丽粒
Alpine 安装应用错误 ERROR: unable to select packages seojava linux 运维服务器
/#apkaddcurlfetchhttps://dl-cdn.alpinelinux.org/alpine/v3.19/community/x86_64/x86_64/APKINDEX.tar.gzWARNING:updatingandopeninghttps://dl-cdn.alpinelinux.org/alpine/v3.19/community/x86_64/:Nosuchfileor
强化学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1什么是强化学习？强化学习（ReinforcementLearning,RL）是机器学习的一个重要分支，它关注的是智能体（Agent）如何在环境中通过与环境交互来学习最优的行为策略。与其他机器学习方法不同，强化学习并不依赖于预先标注的数据，而是通过试错的方式来学习。想象一下，你正在训练一只小狗学习坐下。你不会给它看成千上万张“坐下”的照片，而是会给它一些指令，比如“坐下”，如果它照
强化学习在连续动作空间的应用：DDPG与TD3 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍1.1强化学习简介强化学习（ReinforcementLearning，简称RL）是一种机器学习方法，它通过让智能体（Agent）在环境（Environment）中与环境进行交互，学习如何根据观察到的状态（State）选择动作（Action），以最大化某种长期累积奖励（Reward）的方法。强化学习的核心问题是学习一个策略（Policy），即在给定状态下选择动作的映射关系。1.2连续动
YIUI Unity UI框架安装与使用教程翟培任Lame
YIUIUnityUI框架安装与使用教程YIUIUnity3DUGUIFramework项目地址:https://gitcode.com/gh_mirrors/yi/YIUI1.项目目录结构及介绍YIUI项目的目录结构如下：YIUI/├──YIUIFramework/│├──Assets/││├──Scripts/││├──Resources/││├──Scenes/││├──Shaders/││
《C#与Unity携手，构建沉浸式虚拟现实三维场景》墨夶 C#学习资料1 c#unity vr
随着虚拟现实（VirtualReality,VR）技术的迅猛发展，越来越多的开发者开始探索如何利用这一新兴媒介创造更加引人入胜的应用程序。在众多开发工具中，Unity以其强大的功能和易用性脱颖而出，成为了VR应用开发者的首选平台之一。而作为Unity官方支持的主要编程语言——C#，则为开发者提供了实现复杂逻辑、优化性能的强大手段。本文将详细介绍如何使用C#结合Unity来构建一个完整的虚拟现实三维
翻译Deep Learning and the Game of Go（14）第十二章采用actor-critic方法的强化学习 idol_watch 围棋与深度学习
本章包括:利用优势使强化学习更有效率用actor-critic方法来实现自我提升AI设计和训练Keras的多输出神经网络如果你正在学习下围棋，最好的改进方法之一是让一个水平更高的棋手给你复盘。有时候，最有用的反馈只是指出你在哪里赢棋或输棋。复盘的人可能会给出这样的评论，“你下了30步后已经远远落后了”或“在下了110步后，你有一个获胜的局面，但你的对手在130时扭转了局面。”为什么这种反馈是有帮助
Jenkins导出流水线记录 u013745685 Unity自动化打包 unity 游戏引擎动画
Jenkins导出流水线记录pipeline{agentanyparameters{booleanParam(name:'SyncSvn',defaultValue:false,description:'')booleanParam(name:'BuildAssets',defaultValue:false,description:'')booleanParam(name:'UnityExport
【DeepSeek】一文详解GRPO算法——为什么能减少大模型训练资源？ FF-Studio DeepSeek R1 算法
GRPO，一种新的强化学习方法，是DeepSeekR1使用到的训练方法。今天的这篇博客文章，笔者会从零开始，层层递进地为各位介绍一种在强化学习中极具实用价值的技术——GRPO（GroupRelativePolicyOptimization）。如果你是第一次听说这个概念，也不必慌张，笔者会带领你从最基础的强化学习背景知识讲起，一步步剖析其来龙去脉，然后再结合实例讲解GRPO在实际应用中的思路和操作示
【Unity】打包运行后如何查看日志与日争风 Unity新手 unity 游戏引擎
在Unity中，打包后的应用程序（如Windows、Android或macOS应用）默认不会直接显示日志信息。为了查看打包后的日志，你需要根据目标平台使用不同的方法来捕获和查看日志。以下是常见平台的日志查看方法：通过代码输出日志到文件你可以编写代码将日志输出到自定义的文件中，方便查看：（本篇文章目前只写了windows的日志查看方法）usingSystem.IO;usingUnityEngine;
lua和unity如何交互_(XLua)C#与Lua中的交互三脚猫功夫猴 lua和unity如何交互
Paste_Image.png下载后接下来就是导入XLua到unity里了，解析出来的XLua有下面几个文件夹Paste_Image.png我们只需要将Assests:主目录里面的东西全部导入到Unity里面就OK了，导入后再XLua的文件夹下有这么几个。里面都有学习的文档，也可自行去学。Paste_Image.pnghotfix的环境配置在unity的PlayerSetting下的OtherSe
ch02离散仿真引擎基础——Unity3D学习 yesor_not 3D游戏学习 c#unity 游戏游戏策划
ch02离散仿真引擎基础——Unity3D学习一、简答题1.解释游戏对象（GameObjects）和资源（Assets）的区别与联系游戏对象（GameObjects）：一般为玩家，敌人，环境等资源（Assets）：一般包括声音，脚本，材质等区别与联系：对象一般是一些资源的集合体资源可以被多个对象使用资源作为模版，可实例化游戏中具体的对象。2、下载几个游戏案例，分别总结资源、对象组织的结构（指资源的
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

ML-Agents案例之地牢逃脱

环境说明

代码讲解

配置文件

效果演示

后记

你可能感兴趣的:(Unity强化学习,强化学习,unity,强化学习,ML-Agents)