机器人技术课堂笔记-zjj2016.11.10

问题求解和机器博弈

问题求解与人工智能

问题求解;

决策-博弈(各主体存在利益冲突,求解其矛盾,解释和预测)

博弈论:

历史:
冯诺依曼、摩 根斯坦
约翰纳什:纳什均衡

computer game

概念:基于博弈论,用人工智能方法解决博弈中的问题
里程碑:各种牌类游戏

分类:

  1. 完备信息博弈:棋盘上子的位置都公开/非完备:扑克
  2. 确定性/非确定性:存在其他因素改变时间方向:麻将开局骰子
  3. 双人/多人
  4. 各种棋牌对应的计算机搜索节点规模,德州扑克E1755;围棋E160当做非完备处理

领域研究框架

人类如何进行博弈游戏
观察当前局势
有哪些合法的走步
哪个最有利
执行

机器

  1. 人界界面-数据结构
  2. 走法生成器-规则解释器
  3. 搜索引擎-估值核心(经验技巧灵感-思考能力)(机器学习方法-博弈树搜索方法:对比)(如果需要很长时间收敛,eg3年,可能已经软硬件迭代更新了)
    非完备信息处理
    抽样信息空间,蒙特卡洛抽样
  4. 走步执行器

主流解决方案

博弈树搜索方法
机器学习方法
蒙特卡洛抽样
德州扑克AAAI-ACPC、四国军棋(顶级的复杂性)

蒙特卡洛博弈树搜索方法MCTS:

人工智能:alpha-beta剪枝 历史启发算法那
动态:不先深也不先广
选择
扩展
抽样
反向传播

  • 感觉我毕设那个是蒙特卡洛抽样啊
    概率来自于历史上布局的统计
    MCTS节点扩展选择策略:UCT算法 2009法国
    XI+这个节点被计算过的次数
    被选到的次数越多,它的权值越大,开发-探索选择倾向,
    开局阶段应该更广泛探索,进入后盘像更深的方向探索
    风险模型
    风险优势、收益优势
    正向风险(买彩票,正向风险高所以买)负向风险(一瓶药里只有一颗毒药不吃)
    对手建模方法
    非完备信息的牌类
    进攻型防守型的对手,固定位置步子的习惯峰值有很不同的。
    强化学习方法
    CFR方法通过反复迭代和训练 2015 science 二人受限(加注只能加固定值、跟牌、弃牌) 已经解决 阿尔伯塔 10^14更搞笑的存储方法,
    可以应用了,原来是10^12
    ACPC AAAI IJCAI
    非完备信息博弈专题
    2013 多人德州4
    哈工大,hit-sz
    人工智能目标
    想出这个玩法
    数值设计,每一关的摆放怎样的规律。关卡的失败率曲线,人工智能模拟用户行为,驴子前面胡萝卜vs大规模测试?10个人每个人3000盘、慢不准
    腾讯、博雅
    加拿大阿尔伯他大学机器博弈研究中心
    jonathan schaeffer
    和游戏厂商合作FIFA系列足球,RPG,cs,
    AIIDE暴雪的即时战略大赛
    线上扑克教学网站
    花钱学到了技巧再去赌博

主要研究问题

核心算法

你可能感兴趣的:(机器人技术课堂笔记-zjj2016.11.10)