【人工智能与深度学习】不确定性下的预测和政策学习(PPUU)

【人工智能与深度学习】不确定性下的预测和政策学习(PPUU)

    • 简介和问题设置
    • 数据集
    • 代价
    • 学习世界模型
    • 确定性预测器加解码器
    • 变化式预测网络
    • 动作不敏感和随机关闭潜在(latent dropout)
    • 训练代理人
    • 对专家进行模仿
    • 最小化前向模型的不确定性。
    • 评估

简介和问题设置

让我们去以一个完全没有强化学习的方式来学习。很多时候,我们训练模型,都是以一个不停犯错同时又由错误中学习的强化学习方式来学习。但这不是最好的方法,因为很容易偏离原先的轨道。

所以,让我们用一些更自认的方式来学习驾驶一辆车。以转弯来说说吧。比如有辆车时速100公里每小时,就是差不

你可能感兴趣的:(Python实战教程,人工智能与机器学习教程,人工智能,深度学习,学习)