微笑小星

ML-Agents案例之推箱子游戏

本案例源自ML-Agents官方的示例，Github地址：https://github.com/Unity-Technologies/ml-agents

本文基于我前面发的两篇文章，需要对ML-Agents有一定的了解，详情请见：Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。

参考资料：ML-Agents（八）PushBlock、训练ML-Agents玩躲避球、ML-Agents 2.0：合作行为训练

游戏目标：智能体把白色的方块推到指定的绿色区域为游戏胜利。

推箱子游戏分为单人模式和多人模式。

单人模式

脚本代码

由于推箱子在环境上的设定较简单，我们可以直接来查看挂载在Agent本体的脚本有什么。

首先是正常的Behavior Parameters，Decision Requester，Model Overrider三件套，Behavior Parameters的观测维度直接设定为0，这是由于我们采用了Ray Perception Sensor3D脚本来采集观测数据。输出的空间是离散的，只有一个输出，这就表示移动和旋转共用一个输出且移动方向固定。

射线感知器Ray Perception Sensor Component 3D组件

可以看到一个智能体上挂了两个Ray Perception Sensor Component 3D组件,第一个在脚下，主要用来探测方块和目标点，第二个在头顶，主要是为了越过方块探测到方块后有没有墙体。两个传感器的参数只在两个offset上有差异。

Sensor Name：该Sensor的名字，类似于ID。
Detectable Tags：设置射线能检测到物体的Tag集合。这里设置了3个Tag，分别代表了场景中的目标小白块、目标区域和墙体。
Rays Per Direction：每个方向射线的条数。智能体正前方固定有一条射线，这里设置为3表示左右各3条，加上中间一条一共七条。
Max Ray Degrees：射线覆盖的角度最大范围。90指的是左右两边各90，一共覆盖180度。
Sphere Cast Radius：设置投射出去的碰撞球体的半径。也指射线的粗细，设为0代表一条线。
Ray Length：设置射线投射的最远距离。
Ray Layer Mask：设置射线可以检测到的Layer。
Observation Stacks：堆叠之前观察的结果的数量，若设置为1则表示不堆叠以前的观察。
Start Vertical Offset：调整射线发出的高度。
End Vertical Offset：设置射线尾部的高度。这两个offset一起调整可以达到任意从上往下或从下往上的射线。
Ray Hit Color：射线发生碰撞的颜色。
Ray Miss Color：射线没有发生碰撞的颜色。

这里可以计算输维度了，我们有两个传感器，每个传感器七条射线，每条射线检测三个标签（one-hot向量表示），再加上射线自带的两个维度（碰撞距离的标准化和碰撞与否），在此基础上，叠加3次的观察信息就是3 * 2 * 7 * (2 + 3) = 210个观察维度。

把输入提交给智能体的方法有三种，这里用了最难的一种，也就是继承了一个ISensor的接口，其中的Write方法被用于实际生成观察。相机传感器，渲染贴图传感器，射线传感器，棋盘传感器，网格传感器都继承了这个接口。

详细内容查看文档：https://github.com/Unity-Technologies/ml-agents/blob/main/docs/Learning-Environment-Design-Agents.md

接下来看看主脚本Push Agent Basic：

先看看初始化时做了什么：

void Awake()
{
    // 找到挂载训练参数的脚本
    m_PushBlockSettings = FindObjectOfType();
}

public override void Initialize()
{
    goalDetect = block.GetComponent();
    goalDetect.agent = this;

    m_AgentRb = GetComponent();
    m_BlockRb = block.GetComponent();
    // 获取碰撞器的世界空间边界体积（只读）。
    areaBounds = ground.GetComponent().bounds;
    // 获取地面渲染器，便于更换材质
    m_GroundRenderer = ground.GetComponent();
    // 初始材质
    m_GroundMaterial = m_GroundRenderer.material;
	// 获取配置文件中的参数
    m_ResetParams = Academy.Instance.EnvironmentParameters;
	//设置参数
    SetResetParameters();
}
void SetResetParameters()
{
    // 设置方块动摩擦和静摩擦系数
    SetGroundMaterialFriction();
    // 设置方块的大小，以及空气阻力
    SetBlockProperties();
}

public void SetGroundMaterialFriction()
{
    var groundCollider = ground.GetComponent();
    groundCollider.material.dynamicFriction = m_ResetParams.GetWithDefault("dynamic_friction", 0);
    groundCollider.material.staticFriction = m_ResetParams.GetWithDefault("static_friction", 0);
}

public void SetBlockProperties()
{
    var scale = m_ResetParams.GetWithDefault("block_scale", 2);
    //Set the scale of the block
    m_BlockRb.transform.localScale = new Vector3(scale, 0.75f, scale);
    // Set the drag of the block
    m_BlockRb.drag = m_ResetParams.GetWithDefault("block_drag", 0.5f);
}

最为关键的OnActionReceived函数：

public void MoveAgent(ActionSegment act)
{
    var dirToGo = Vector3.zero;
    var rotateDir = Vector3.zero;
    // 获取一个离散输出，范围是0~6
    var action = act[0];
	// 根据离散的输出判断六种运动可能分别是前后左右移动和左右旋转，0是什么都不做。
    switch (action)
    {
        case 1:
            dirToGo = transform.forward * 1f;
            break;
        case 2:
            dirToGo = transform.forward * -1f;
            break;
        case 3:
            rotateDir = transform.up * 1f;
            break;
        case 4:
            rotateDir = transform.up * -1f;
            break;
        case 5:
            dirToGo = transform.right * -0.75f;
            break;
        case 6:
            dirToGo = transform.right * 0.75f;
            break;
    }
    transform.Rotate(rotateDir, Time.fixedDeltaTime * 200f);
    // 注意这里要对刚体施加力的方式让其前进，不能直接改变其位置，否则不能达到一个智能体推不动大方块的效果
    m_AgentRb.AddForce(dirToGo * m_PushBlockSettings.agentRunSpeed,
                       ForceMode.VelocityChange);
}

// 每个step都调用的函数，每次都扣除微量分数，这就鼓励智能体完成得越快越好
public override void OnActionReceived(ActionBuffers actionBuffers)

{
    MoveAgent(actionBuffers.DiscreteActions);
    AddReward(-1f / MaxStep);
}

Heuristic方法，可以由玩家手动控制智能体：

public override void Heuristic(in ActionBuffers actionsOut)
{
    var discreteActionsOut = actionsOut.DiscreteActions;
    if (Input.GetKey(KeyCode.D))
    {
        discreteActionsOut[0] = 3;
    }
    else if (Input.GetKey(KeyCode.W))
    {
        discreteActionsOut[0] = 1;
    }
    else if (Input.GetKey(KeyCode.A))
    {
        discreteActionsOut[0] = 4;
    }
    else if (Input.GetKey(KeyCode.S))
    {
        discreteActionsOut[0] = 2;
    }
}

每个episode开始时调用的OnEpisodeBegin方法：

public override void OnEpisodeBegin()
{
    // 场地四个角度任意旋转
    var rotation = Random.Range(0, 4);
    var rotationAngle = rotation * 90f;
    area.transform.Rotate(new Vector3(0f, rotationAngle, 0f));
	// 重置方块的参数,速度和角速度归零，位置随机
    ResetBlock();
    // 重置智能体参数，速度和角速度归零，位置随机
    transform.position = GetRandomSpawnPos();
    m_AgentRb.velocity = Vector3.zero;
    m_AgentRb.angularVelocity = Vector3.zero;
	// 设置方块动摩擦和静摩擦系数，方块大小，空气阻力
    SetResetParameters();
}
void ResetBlock()
{
    block.transform.position = GetRandomSpawnPos();
    m_BlockRb.velocity = Vector3.zero;
    m_BlockRb.angularVelocity = Vector3.zero;
}

public Vector3 GetRandomSpawnPos()
{
    var foundNewSpawnLocation = false;
    var randomSpawnPos = Vector3.zero;
    while (foundNewSpawnLocation == false)
    {
        var randomPosX = Random.Range(-areaBounds.extents.x * m_PushBlockSettings.spawnAreaMarginMultiplier,
                                      areaBounds.extents.x * m_PushBlockSettings.spawnAreaMarginMultiplier);

        var randomPosZ = Random.Range(-areaBounds.extents.z * m_PushBlockSettings.spawnAreaMarginMultiplier,
                                      areaBounds.extents.z * m_PushBlockSettings.spawnAreaMarginMultiplier);
        randomSpawnPos = ground.transform.position + new Vector3(randomPosX, 1f, randomPosZ);
        // checkBox检查生成的地方是否与其他碰撞体碰撞，第一个参数是中心，第二个是cube范围半径
        if (Physics.CheckBox(randomSpawnPos, new Vector3(2.5f, 0.01f, 2.5f)) == false)
        {
            foundNewSpawnLocation = true;
        }
    }
    return randomSpawnPos;
}

最后就是看看挂载在方块上检测碰撞的脚本了：

public class GoalDetect : MonoBehaviour
{
    [HideInInspector]
    public PushAgentBasic agent;  
    void OnCollisionEnter(Collision col)
    {
        // 调用agent中的函数
        if (col.gameObject.CompareTag("goal"))
        {
            agent.ScoredAGoal();
        }
    }
}

在主脚本Push Agent Basic中有：

public void ScoredAGoal()
{
    // 方块到达指定区域加5分
    AddReward(5f);
    // 结束本轮
    EndEpisode();
    // 改变材质
    StartCoroutine(GoalScoredSwapGroundMaterial(m_PushBlockSettings.goalScoredMaterial, 0.5f));
}

配置文件

PPO算法：

behaviors:
  PushBlock:
    trainer_type: ppo
    hyperparameters:
      batch_size: 128
      buffer_size: 2048
      learning_rate: 0.0003
      beta: 0.01
      epsilon: 0.2
      lambd: 0.95
      num_epoch: 3
      learning_rate_schedule: linear
    network_settings:
      normalize: false
      hidden_units: 256
      num_layers: 2
      vis_encode_type: simple
    reward_signals:
      extrinsic:
        gamma: 0.99
        strength: 1.0
    keep_checkpoints: 5
    max_steps: 2000000
    time_horizon: 64
    summary_freq: 60000

SAC算法：

behaviors:
  PushBlock:
    trainer_type: sac
    hyperparameters:
      learning_rate: 0.0003
      learning_rate_schedule: constant
      batch_size: 128
      buffer_size: 50000
      buffer_init_steps: 0
      tau: 0.005
      steps_per_update: 10.0
      save_replay_buffer: false
      init_entcoef: 0.05
      reward_signal_steps_per_update: 10.0
    network_settings:
      normalize: false
      hidden_units: 256
      num_layers: 2
      vis_encode_type: simple
    reward_signals:
      extrinsic:
        gamma: 0.99
        strength: 1.0
    keep_checkpoints: 5
    max_steps: 2000000
    time_horizon: 64
    summary_freq: 100000

多人模式

接下来就是重头戏多人模式了：

这个模式拥有三个智能体，六个大小不一的方块随机放置在不靠近墙体边缘的地方，小方块一个人能推动，中等方块需要两个人才能推动，大的方块需要三个人才能推动，推的方块越大，奖励越高。如何把所有的方块都推到指定目标，并且用时最短是我们追求的目标。

由于拥有多个智能体，所有团队协作是我们需要考虑的重要因素之一，因此单智能体算法已经满足不了我们的需求了，这里ML-Agents官方示例使用了一种多智能体算法MA-POCA，这也是ML-Agents目前新推出的唯一一种多智能体算法。在版本16之后，我们可以定义具有共同目标的多智能体了，MA-POCA是一个多智能体训练器，是所有智能体的“教练”。教练向整个团队发放奖励，智能体们也可以学习如何更好为共同目标做出贡献，每个智能体可以获得个人的reward，这样它们可以很好地保持积极性，并帮助彼此实现目标。即使有个智能体死亡（被移除），也依然可以采集信息，理解它们的行为是否可以有助于获得胜利，把群体放在第一位，能够通过自我牺牲来获取游戏的胜利。

这种新算法采用了集中式学习与分散式执行。一个中心裁判负责评估所有智能体的状态，进而对其表现进行打分，而多个分散的执行程序（每个智能体一个）负责控制智能体。如此一来，每个智能体可根据自己的感知进行决策，同时评估其行为在整个群体中的作用。下图展示了MA-POCA的集中式学习和分散式执行。

MA-POCA算法的一个新颖之处在于，它使用了一种称为attention networks（注意力网络）的特殊神经网络结构，可以处理不定量输入。这意味着裁判可以评估任意数量的智能体，而MA-POCA也因此特别适用于游戏中的合作行为。智能体可在任何时候加入或退出小组——类似于游戏角色在团战中的复活与死亡。MA-POCA的设计是为了让智能体能够做出利他性决定，让团队利益最大化。这种利他行为很难通过人工编程实现，但可在其他智能体为团队做贡献的先例中学习。最后，大多数多智能体强化学习算法默认让所有智能体在同一时间点选择下一个行动，但在真实游戏中，多智能体同时决策很有可能会产生掉帧。这也是为什么MA-POCA不会采取这种方法，而是支持异步的智能体行为决策。

MA-POCA 使用与 PPO 相同的配置，并且没有额外的 POCA 特定参数。

对比单人模式的推箱子，多人模式的机制并没有太大的改变。

脚本代码

Grid Sensor

多人模式的脚本甚至可以说变得更为简单了，Behavior Parameter的设置和单智能体一致。在获取观测值的方面，没有采用单智能体的射线传感器，而是采用了Grid Sensor（网格传感器），这个传感器并没有直接挂在智能体下，而是挂在智能体的子物体（空物体）下，这是为了使得这个传感器的中心不要放在智能体上，这样就能训练出一个只能探测到180度范围的传感器。现在我们来看看Grid Sensor。

Grid Sensor使用一组网格形状的框查询作为观察。

基于网格的观测结合了视觉观测中二维空间表示的优势和RayCast 观测中定义可检测对象的灵活性。传感器使用一组网格形状的框查询，并提供围绕智能体的自上而下的 2D 视图。

在观察过程中，传感器检测每个单元格中可检测物体的存在，并将其编码为 one-hot 表示。从每个单元收集的信息形成一个 3D 张量观察，并将像视觉观察一样馈入代理策略的卷积神经网络 (CNN)。对应标签的物体只要于网格发生碰撞，这个网格就会打上相应的标签。

因此，在平面2D的观察下，输入的维度就是网格的数量乘以标签数，也就是20 * 20 * 6 = 2400维的输入。

其中的参数属性如下：

Cell Scale表示网格中每个单元格的比例。
Grid Size表示每一侧的单元格数。
Agent Game Object表示搭载该组件的智能体物体。便于把自己从检测范围排除。
Rotate With Agent决定了网格是否随着智能体而转动，在相对变化较小的环境可以固定网格达到更好的训练效果。
Detectable Tags是一个标签的列表，可以填上我们需要检测到的物体的标签。
Collider Mask决定了检测碰撞的层级（layer），决定了哪些层的物体是能够检测的。
Compression Type：压缩类型，可以选择PNG或者不压缩。
Initial Collider Buffer Size在每个单元的非分配物理调用中使用的碰撞器经验池的初始大小。
Max Collider Buffer Size在每个单元的非分配物理调用中使用的碰撞器经验池的最大大小。
Show Gizmos可以可视化传感器的具体效果。
Gizmo Y offset：Gizmo在Y轴上的偏移量。
Debug Colors：检测到物体后响应的格子标注的颜色。

可检测的标签的数量和网格的数量要尽可能小，以减少数据量，这需要在观察精度和训练速度直接权衡。

注意：这个组件只使用3D环境，2D环境下无法运行。

智能体脚本

初始化：

void Awake()
{
    m_PushBlockSettings = FindObjectOfType();
}

public override void Initialize()
{
    m_AgentRb = GetComponent();
}

动作执行（和单智能体一样）：

public void MoveAgent(ActionSegment act)
{
    var dirToGo = Vector3.zero;
    var rotateDir = Vector3.zero;

    var action = act[0];

    switch (action)
    {
        case 1:
            dirToGo = transform.forward * 1f;
            break;
        case 2:
            dirToGo = transform.forward * -1f;
            break;
        case 3:
            rotateDir = transform.up * 1f;
            break;
        case 4:
            rotateDir = transform.up * -1f;
            break;
        case 5:
            dirToGo = transform.right * -0.75f;
            break;
        case 6:
            dirToGo = transform.right * 0.75f;
            break;
    }
    transform.Rotate(rotateDir, Time.fixedDeltaTime * 200f);
    m_AgentRb.AddForce(dirToGo * m_PushBlockSettings.agentRunSpeed,
                       ForceMode.VelocityChange);
}

public override void OnActionReceived(ActionBuffers actionBuffers)
{
    MoveAgent(actionBuffers.DiscreteActions);
}

人工操作（和单智能体一样）：

public override void Heuristic(in ActionBuffers actionsOut)
{
    var discreteActionsOut = actionsOut.DiscreteActions;
    if (Input.GetKey(KeyCode.D))
    {
        discreteActionsOut[0] = 3;
    }
    else if (Input.GetKey(KeyCode.W))
    {
        discreteActionsOut[0] = 1;
    }
    else if (Input.GetKey(KeyCode.A))
    {
        discreteActionsOut[0] = 4;
    }
    else if (Input.GetKey(KeyCode.S))
    {
        discreteActionsOut[0] = 2;
    }
}

挂载在物块上的脚本：

public class GoalDetectTrigger : MonoBehaviour
{

    [Header("Trigger Collider Tag To Detect")]
    public string tagToDetect = "goal"; //collider tag to detect

    [Header("Goal Value")]
    public float GoalValue = 1;

    private Collider m_col;
    // 继承了一个泛型事件
    [System.Serializable]
    public class TriggerEvent : UnityEvent
    {
    }

    // 实例化了三个事件，订阅事件要到Unity编辑器中
    [Header("Trigger Callbacks")]
    public TriggerEvent onTriggerEnterEvent = new TriggerEvent();
    public TriggerEvent onTriggerStayEvent = new TriggerEvent();
    public TriggerEvent onTriggerExitEvent = new TriggerEvent();

    private void OnTriggerEnter(Collider col)
    {
        if (col.CompareTag(tagToDetect))
        {
            onTriggerEnterEvent.Invoke(m_col, GoalValue);
        }
    }

    private void OnTriggerStay(Collider col)
    {
        if (col.CompareTag(tagToDetect))
        {
            onTriggerStayEvent.Invoke(m_col, GoalValue);
        }
    }

    private void OnTriggerExit(Collider col)
    {
        if (col.CompareTag(tagToDetect))
        {
            onTriggerExitEvent.Invoke(m_col, GoalValue);
        }
    }
    // Start is called before the first frame update
    void Awake()
    {
        m_col = GetComponent();
    }
}

事件是一种方便调用其他脚本函数的方法，订阅事件：

订阅事件对应的方法，位于环境脚本中（下面会讲）：

public void ScoredAGoal(Collider col, float score)
{
    print($"Scored {score} on {gameObject.name}");

    // 场上剩余物体计数
    m_NumberOfRemainingBlocks--;

    // 是否结束游戏
    bool done = m_NumberOfRemainingBlocks == 0;

    // 把物体暂时从场景中删除
    col.gameObject.SetActive(false);

    // 添加集体奖励
    m_AgentGroup.AddGroupReward(score);

    // Swap ground material for a bit to indicate we scored.
    StartCoroutine(GoalScoredSwapGroundMaterial(m_PushBlockSettings.goalScoredMaterial, 0.5f));

    if (done)
    {
        //重新开始一轮游戏
        m_AgentGroup.EndGroupEpisode();
        ResetScene();
    }
}

注意了，多智能体的不同点显现出来了，添加奖励使用的是AddGroupReward函数添加的是集体奖励

环境控制脚本

这个脚本挂载在空物体上运行，智能体作为子物体。

using System.Collections;
using System.Collections.Generic;
using Unity.MLAgents;
using UnityEngine;

public class PushBlockEnvController : MonoBehaviour
{
    // 智能体信息类
    [System.Serializable]
    public class PlayerInfo
    {
        public PushAgentCollab Agent;
        [HideInInspector]
        public Vector3 StartingPos;
        [HideInInspector]
        public Quaternion StartingRot;
        [HideInInspector]
        public Rigidbody Rb;
    }
	// 物块信息类
    [System.Serializable]
    public class BlockInfo
    {
        public Transform T;
        [HideInInspector]
        public Vector3 StartingPos;
        [HideInInspector]
        public Quaternion StartingRot;
        [HideInInspector]
        public Rigidbody Rb;
    }

    [Header("Max Environment Steps")] public int MaxEnvironmentSteps = 25000;

	// 区域边界
    [HideInInspector]
    public Bounds areaBounds;
 
    public GameObject ground;

    public GameObject area;

    Material m_GroundMaterial; //cached on Awake()
    Renderer m_GroundRenderer;

    // 智能体信息的列表
    public List AgentsList = new List();
    // 物块信息的列表
    public List BlocksList = new List();

    public bool UseRandomAgentRotation = true;
    public bool UseRandomAgentPosition = true;
    public bool UseRandomBlockRotation = true;
    public bool UseRandomBlockPosition = true;
    private PushBlockSettings m_PushBlockSettings;

    private int m_NumberOfRemainingBlocks;
	// 注意了，这是一个多智能体类
    private SimpleMultiAgentGroup m_AgentGroup;
    private int m_ResetTimer;

    void Start()
    {

        // Get the ground's bounds
        areaBounds = ground.GetComponent().bounds;
        // Get the ground renderer so we can change the material when a goal is scored
        m_GroundRenderer = ground.GetComponent();
        // Starting material
        m_GroundMaterial = m_GroundRenderer.material;
        m_PushBlockSettings = FindObjectOfType();
        // Initialize Blocks
        foreach (var item in BlocksList)
        {
            item.StartingPos = item.T.transform.position;
            item.StartingRot = item.T.transform.rotation;
            item.Rb = item.T.GetComponent();
        }
        // Initialize TeamManager
        m_AgentGroup = new SimpleMultiAgentGroup();
        foreach (var item in AgentsList)
        {
            item.StartingPos = item.Agent.transform.position;
            item.StartingRot = item.Agent.transform.rotation;
            item.Rb = item.Agent.GetComponent();
            // 把单智能体都添加到多智能体中
            m_AgentGroup.RegisterAgent(item.Agent);
        }
        ResetScene();
    }

    void FixedUpdate()
    {
        m_ResetTimer += 1;
        // 到时间了并到达最大训练步数就结束训练
        if (m_ResetTimer >= MaxEnvironmentSteps && MaxEnvironmentSteps > 0)
        {            
            m_AgentGroup.GroupEpisodeInterrupted();
            ResetScene();
        }

        // 存在惩罚
        m_AgentGroup.AddGroupReward(-0.5f / MaxEnvironmentSteps);
    }

    //返回在场地内没物体的位置，同单智能体
    public Vector3 GetRandomSpawnPos()
    {
        var foundNewSpawnLocation = false;
        var randomSpawnPos = Vector3.zero;
        while (foundNewSpawnLocation == false)
        {
            var randomPosX = Random.Range(-areaBounds.extents.x * m_PushBlockSettings.spawnAreaMarginMultiplier,
                areaBounds.extents.x * m_PushBlockSettings.spawnAreaMarginMultiplier);

            var randomPosZ = Random.Range(-areaBounds.extents.z * m_PushBlockSettings.spawnAreaMarginMultiplier,
                areaBounds.extents.z * m_PushBlockSettings.spawnAreaMarginMultiplier);
            randomSpawnPos = ground.transform.position + new Vector3(randomPosX, 1f, randomPosZ);
            if (Physics.CheckBox(randomSpawnPos, new Vector3(1.5f, 0.01f, 1.5f)) == false)
            {
                foundNewSpawnLocation = true;
            }
        }
        return randomSpawnPos;
    }

    // 重置物块
    void ResetBlock(BlockInfo block)
    {
        block.T.position = GetRandomSpawnPos();
        block.Rb.velocity = Vector3.zero;
        block.Rb.angularVelocity = Vector3.zero;
    }

    // 携程，任务完成时短暂切换地面材质
    IEnumerator GoalScoredSwapGroundMaterial(Material mat, float time)
    {
        m_GroundRenderer.material = mat;
        yield return new WaitForSeconds(time); // Wait for 2 sec
        m_GroundRenderer.material = m_GroundMaterial;
    }

    // 当物块触碰到目标时，被物块脚本中的事件调用，上面已经解释过
    public void ScoredAGoal(Collider col, float score)
    {
        print($"Scored {score} on {gameObject.name}");
        m_NumberOfRemainingBlocks--;
        bool done = m_NumberOfRemainingBlocks == 0;
        col.gameObject.SetActive(false);
        m_AgentGroup.AddGroupReward(score);
        StartCoroutine(GoalScoredSwapGroundMaterial(m_PushBlockSettings.goalScoredMaterial, 0.5f));
        if (done)
        {
            m_AgentGroup.EndGroupEpisode();
            ResetScene();
        }
    }
	// 返回任意的旋转四元数
    Quaternion GetRandomRot()
    {
        return Quaternion.Euler(0, Random.Range(0.0f, 360.0f), 0);
    }

    // 重置场景
    public void ResetScene()
    {
        m_ResetTimer = 0;

        // 场景四个角度任意旋转
        var rotation = Random.Range(0, 4);
        var rotationAngle = rotation * 90f;
        area.transform.Rotate(new Vector3(0f, rotationAngle, 0f));

        // 重置智能体们
        foreach (var item in AgentsList)
        {
            var pos = UseRandomAgentPosition ? GetRandomSpawnPos() : item.StartingPos;
            var rot = UseRandomAgentRotation ? GetRandomRot() : item.StartingRot;

            item.Agent.transform.SetPositionAndRotation(pos, rot);
            item.Rb.velocity = Vector3.zero;
            item.Rb.angularVelocity = Vector3.zero;
        }

        // 重置物块们
        foreach (var item in BlocksList)
        {
            var pos = UseRandomBlockPosition ? GetRandomSpawnPos() : item.StartingPos;
            var rot = UseRandomBlockRotation ? GetRandomRot() : item.StartingRot;

            item.T.transform.SetPositionAndRotation(pos, rot);
            item.Rb.velocity = Vector3.zero;
            item.Rb.angularVelocity = Vector3.zero;
            item.T.gameObject.SetActive(true);
        }

        // 重置物块计数
        m_NumberOfRemainingBlocks = BlocksList.Count;
    }
}

多智能体训练注意事项

ML-Agents 中的协作行为可以通过实例化来启用SimpleMultiAgentGroup，通常在环境控制器或类似脚本中，并使用该RegisterAgent方法向其中添加智能体。请注意，添加到同一个的所有智能体SimpleMultiAgentGroup 必须在Behavior Parameters中具有相同的Behavior Name和参数。使用SimpleMultiAgentGroup使组内的智能体能够学习实现共同目标（最大化团体奖励），即使一个或多个组成员在episode结束之前被移除，也同样可以添加团体奖励，可以使用AddGroupReward()，`SetGroupReward()，EndGroupEpisode()，和 GroupEpisodeInterrupted()方法。

这种多智能体的用法要与MA-POCA算法一起使用。

一个智能体一次只能注册到一个 MultiAgentGroup。如果要将智能体从一个组重新分配到另一个组，则必须先将其从当前组中取消注册。
不支持同一组中具有不同行为名称的智能体。
组内的智能体应始终将Max Steps智能体脚本中的参数设置为 0。通过使用GroupEpisodeInterrupted() 结束整个组的episode。
EndGroupEpisode并GroupEpisodeInterrupted在游戏中做同样的工作，但对训练的影响略有不同。如果该episode已完成，您将需要使用EndGroupEpisode。但是如果episode还没有结束但它已经运行了足够多的步数，即达到最大步数，会调用GroupEpisodeInterrupted.
如果智能体提前完成，例如已完成的任务/在游戏中被移除/被杀死，请不要呼叫 EndEpisode()代理。应该禁用智能体并在下一个episode开始时重新启用它，或者完全销毁智能体。这是因为调用EndEpisode()会调用OnEpisodeBegin()，这将立即重置智能体。虽然可以通过EndEpisode()这种方式调用，但不推荐。
如果需要重新启用在场景中禁用的智能体，则必须将其重新注册到 MultiAgentGroup。
群体奖励旨在加强智能体按照群体而非个人的最佳利益行事，并且在训练期间的处理方式与个体智能体奖励不同。所以调用AddGroupReward()不等同于对组中的每个智能体调用agent.AddReward()。
我们仍然可以使用Agent.AddReward()对在一个组中的智能体添加奖励，这个作为个人的奖励，智能体激活时才能收到。
使用多智能体的环境可以使用 PPO 或 SAC 进行训练，但智能体将无法在停用/删除后从组奖励中学习，也不会有合作的表现。

配置文件

在配置上，MA-POCA算法和PPO算法的配置参数一致。

behaviors:
  PushBlockCollab:
    trainer_type: poca
    hyperparameters:
      batch_size: 1024
      buffer_size: 10240
      learning_rate: 0.0003
      beta: 0.01
      epsilon: 0.2
      lambd: 0.95
      num_epoch: 3
      learning_rate_schedule: constant
    network_settings:
      normalize: false
      hidden_units: 256
      num_layers: 2
      vis_encode_type: simple
    reward_signals:
      extrinsic:
        gamma: 0.99
        strength: 1.0
    keep_checkpoints: 5
    max_steps: 15000000
    time_horizon: 64
    summary_freq: 60000

个人改进想法

物块上可以加上一个物理材质，静摩擦力设置到合理水平，防止一个人就能稍微推动大的方块。
可以加上个人奖励，方块到达终点时出力最多的加更多的分数。
把稀疏奖励变得稠密，把方块和终点的距离作为奖励之一，同时只有推动方块的人才能获得个人奖励。
网格感知器有不合理的地方，第一是穿墙，能够无障碍物观察，第二是现在不能观察到背后的信息，建议改为在智能体近距离的周围采用网格感知，远距离的前方采用射线感知。
三个智能体训练出来的是同一个神经网络，能否训练三个不同的神经网络满足不同的工作要求？

你可能感兴趣的:(强化学习,Unity强化学习,unity,强化学习,ML-Agents)

Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
【unity编辑器开发与拓展EditorGUILayoyt和GUILayoyt】死也不注释 Unity编辑器开发与拓展笔记 unity 编辑器游戏引擎
EditorGUILayout与GUILayout的核心区别及使用场景详解一、对比表特性GUILayoutEditorGUILayout命名空间UnityEngineUnityEditor使用场景运行时UI+编辑器扩展仅限编辑器扩展控件风格基础游戏风格（无编辑器优化）原生Unity编辑器风格布局复杂度基础流式布局高级自动布局（带标签对齐/间距优化）序列化支持❌不支持✅直接支持SerializedP
Unity物理系统由浅入深第二节：物理系统高级特性与优化吉良吉影NeKoSuKi unity 游戏引擎架构 c#开发语言
本次我们将简单讲解Unity物理系统的一些高级特性，例如物理层、各种关节、布料系统和车辆物理等，这些能够帮助我们理解复杂的物理模拟原理。同时，我们也会探讨物理系统的性能开销，并提供优化策略，确保我们的游戏在拥有丰富物理效果的同时，也能保持良好的帧率。1.物理层（PhysicsLayers）：精细控制碰撞行为在大型或复杂的场景中，你可能不希望所有物体都相互碰撞。例如，玩家的子弹应该能击中敌人，但不应
【C#】依赖注入知识点汇总 Mike_Wuzy c#
在C#中实现依赖注入（DependencyInjection,DI）可以帮助你创建更解耦、可维护和易于测试的软件系统。以下是一些关于依赖注入的关键知识点及其示例代码。1.基本概念容器(Container)容器负责管理对象实例以及它们之间的依赖关系。IoC容器（InversionofControlContainer）是实现依赖注入的核心工具，常见的DI框架包括Unity、Autofac、Castle
每日MySQL之005：SUSE linux下卸载MySQL
卸载这里的卸载，对应于之前的安装停止MySQL服务：db2a:~#servicemysqlstop找到所有的MySQL包：db2a:~#rpm-qa|grep-imysqlmysql-community-server-5.7.19-1.sles11mysql-community-common-5.7.19-1.sles11libqt4-sql-mysql-4.6.3-5.34.2mysql-com
debian 安装 mysql5.7 你会忘记吃饭吗 debian 运维
cd/usr/local/src:wgethttps://downloads.mysql.com/archives/get/p/23/file/mysql-server_5.7.29-1debian10_amd64.deb-bundle.tartar-xvfxx.tarcdxx:执行dpkg-imysql-community-client_5.7.29-1debian10_amd64.deb返回S
# Unity C#进阶：掌握泛型编程，告别重复代码，编写优雅复用的通用组件！（Day26）吴师兄大模型 C#编程从入门到进阶 unity c#游戏引擎 c语言开发语言游戏开发泛型编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
centos7下安装 mysql5.7 ammengke mysql 数据库服务器
在CentOS7中默认安装有MariaDB，这个是MySQL的分支，但为了需要，还是要在系统中安装MySQL，而且安装完成之后可以直接覆盖掉MariaDB。1.下载并安装MySQL官方的YumRepository1[root@BrianZhu/]#wget-i-chttp://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm
unity A星寻路天涯过客TYGK unity 游戏引擎
算法fCost=gCost+hCostgCost是当前节点到移动起始点的消耗，hCost是当前节点到终点的消耗网格为变成为1的矩形，左右相邻的两个网格直接的gCost为1，斜对角相邻的两个网格的gCost为1.4hCost当前网格到终点网格的水平距离+垂直距离比如当前网格位置是（2，3），终点位置（10，8），则hCost=(10-2)+(8-3)原始的算法是fCost=gCost+hCost，均
unity 使用xcode5.1 launching iOS project via Xcode4 failed
unity在使用Xcode5.1时，build&run会抛出异常的，这是unity的一个bug，不过据说unity4.5会把它修好的下面有一个临时的解决方案：1.在unit的安装目录下找到:Unity.app/Contents/BuildTargetTools/iPhonePlayer/Unity4XC.xcplugin/Contents/Info.plist2.打开并找到下面的内容:DVTPlu
Python辅助高效背诵记忆知识点代码解析少陵野小Tommy 文本处理 python 学习方法
Python辅助高效背诵记忆知识点代码解析完整代码程序基本逻辑框架材料输入导入材料并分类Type1对策Type2对策打乱答案-问题组程序输出在上一篇博文《Python辅助高效背诵记忆知识点（零基础教程，手机版可用）》中，笔者对该程序的完整代码及使用教程作了详尽的介绍。本文旨在针对代码的内部逻辑作一定的解析。完整代码importrandomD={'uw':'opportunitychance。sen
Visual Studio旧版直链
[VisualStudio2019社区版]（https://aka.ms/vs/16/release/vs_community.exe）[VisualStudio2019专业版]（https://aka.ms/vs/16/release/vs_professional.exe）[VisualStudio2019企业版]（https://aka.ms/vs/16/release/vs_enterpr
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
Unity SuperScrollView插件：高效列表视图解决方案 Bobby陈兴博
本文还有配套的精品资源，点击获取简介：UnitySuperScrollView是一个为UGUI设计的高效、全面的滚动视图插件，用于创建复杂的高性能列表视图。它支持高度的自定义化，优化了性能以应对大量数据，并提供了丰富的示例和易用的API。该插件兼容Unity新版本，并通过扩展接口支持二次开发，适用于游戏、应用等多种数据展示场景。1.UnitySuperScrollView2.4.2功能概述1.1S
Unity Demo-3DFarm详解-其二 KhalilRuan unity 游戏引擎
我们接着一的内容来讲解这几个部分：角色与玩家互动物品与背包存档和进度管理用户界面系统角色与玩家互动角色与玩家互动系统是游戏中连接玩家输入与游戏世界的核心机制，它允许玩家通过点击、移动等操作与游戏中的各种对象（如NPC、物品、环境元素）进行交互，实现诸如对话、采集、使用物品、战斗等核心游戏玩法。交互逻辑实现Selectable组件（Selectable.cs）是所有可交互对象的基础，它定义了对象的交
快速分页wpf lph1972 c#
/*没有在xaml设置上下文window.context是因为命名空间一直对应不上所以在xaml.cs里面绑定*/NextusingBogus;usingCommunityToolkit.Mvvm.ComponentModel;usingCommunityToolkit.Mvvm.Input;usingSystem;usingSystem.Collections.Generic;usingSyst
工程改Mvvm lph1972 java 数据库 servlet
导入CommunityToolKitvs2017只能导入7usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingCommunityToolkit.Mvvm.ComponentModel;usingCommunityToolkit.M
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【Unity】MiniGame编辑器小游戏（十）连连看【Link】神码编程 unity 编辑器游戏引擎小游戏
更新日期：2025年7月9日。项目源码：获取项目源码索引连连看【Link】一、游戏最终效果二、玩法简介三、正式开始1.定义游戏窗口类2.规划游戏窗口、视口区域3.方块Block①.定义方块类②.生成方块所有类型③.生成连连看棋盘④.绘制方块阵列4.连线Line①.点击方块连线②.尝试连接两个方块③.绘制连线线段5.检测游戏通关6.绘制游戏操作说明7.暂停游戏、退出游戏连连看【Link】本篇的目标是
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
Unity Netcode自定义数据传输——结构体及其序列化未来的中科院院士 unity 游戏引擎
在UnityNetcode中，要实现自定义数据的网络传输，确实需要两个关键部分：✅两个必需组件：数据结构定义publicstructPlayerState:INetworkSerializable{publicintid;//字段1：玩家IDpublicboolisReady;//字段2：准备状态//...其他字段}作用：定义要传输的数据内容本质：声明"要传输什么"序列化方法实现publicvoi
四、Actor-Critic Methods 沈夢昂志 DRL深度强化学习 python 深度学习
由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明，非常推荐B站“王树森老师的DRL强化学习”本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。目录A.书接上回1、Reinforce算法B.State-ValueFunctionC.PolicyNetWork（Actor）D.ActionValueNetwork(Critic)E.TraintheNeur
Unity Demo-3DFarm详解-其一 KhalilRuan unity 游戏引擎
我们来拆解一个种田游戏，这个游戏种类内部的功能还是比较模板化的，我们来一点点说。我们大体上分为这么几个部分：农场运营玩法角色与玩家互动物品与背包存档和进度管理用户界面系统农场运营可以大体上分为：种植系统：支持种植、成长、收获等完整的植物生命周期；动物系统：包含野生动物、家畜、宠物等，支持喂养、骑乘、驯养等功能；建筑与建造：玩家可以建造、升级、摧毁建筑；采集与合成：支持采集资源、合成物品、制作工具；
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
Unity中的动画过渡数据猴赛雷 Unity unity 游戏引擎
1、动画过渡概况动画过渡允许状态机从一个动画状态切换或混合到另一动画状态。过渡不仅定义状态之间的混合应该耗费多长时间，而且还定义它们应该在什么条件下激活。您可以设置仅在特定条件成立时才发生过渡。要设置这些条件，请在AnimatorController中指定参数值。例如，您的角色可能具有“巡逻”状态和“睡眠”状态。您可以将巡逻和睡眠之间的过渡设置为仅在“alertness”参数值低于某个水平时才会发
Unity3D 游戏在 iOS 上因为 trampolines 闪退的原因与解决办法耳朵里有只风 ios unity unity3d ios ios闪退
崩溃的情况进入游戏一会儿，神马都不要做，双手离开手机，盯着屏幕看吧，游戏会定时从服务器那儿读取一些数据，时间一长，闪退了。尼玛问题是神马呢？完全没有头绪，不过大体猜测是因为网络请求导致的，那么好，先排查服务器返回结果是否有问题，最终确认每次客户端崩溃的时候，服务器都成功的返回了格式正确的数据，没有任何异常。那么可以确定问题是出在客户端部分了。先检查代码，确认逻辑上没有任何问题之后，也倍感无力啊，问
Linux笔记之Docker安装，基于Debian 11（bullseye）名字太长真的很奇怪꒰⑅•ᴗ•⑅꒱ Linux linux debian docker
前置条件Debian平台版本为Debian11（bullseye）安装的是DockerCommunityEdition（docker-ce）安装步骤1.重新安装卸载旧版，初次安装请跳过sudoapt-getremovedockerdocker-enginedocker.iocontainerdrunc2.初次安装时，安装依赖sudoapt-getinstallapt-transport-https
Unity的TCP同步通信
1.Socket中的重要APIusingSystem.Collections;usingSystem.Collections.Generic;usingSystem.Net;usingSystem.Net.Sockets;usingUnityEngine;publicclassLesson5:MonoBehaviour{//Startiscalledbeforethefirstframeupdat
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23