AlphaZero

【行云流水AI笔记】游戏里面的强化学习使用场景

强化学习在游戏中的应用已从早期的棋类博弈扩展到现代复杂游戏的全流程优化，以下是结合最新技术进展的核心应用场景及典型案例：一、竞技游戏的策略突破1.策略博弈类游戏代表案例：AlphaGo/AlphaZero

行云流水AI笔记·2025-06-13 03:50

strassen算法 DeepMind的AlphaZero最快矩阵乘法的前身

strassen算法DeepMind的AlphaZero最快矩阵乘法的前身矩阵乘法是线性代数中最基础也是最重要的操作之一，广泛应用于科学计算、工程、计算机图形学、机器学习等领域。

中堂李1027·2025-05-21 02:19

AI基于深度学习的代码搜索案例（一）

当人工智能进入游戏领域，也取得了惊人的成绩，在Atari系列游戏中，计算机很容易超过了大部分人类，在围棋比赛中，AlphaGo和AlphaZero也已经超越了人类顶尖棋手。

人工智能MOS·2025-03-13 19:23

【深入解析】棋类游戏算法：Minimax, Negamax, 蒙特卡洛树搜索与AlphaZero

深入解析棋类游戏算法：Minimax,Negamax,蒙特卡洛树搜索与AlphaZero在人工智能领域，棋类游戏一直是测试和展示智能算法的经典舞台。

wit_@·2025-01-19 16:54

2018年2月26日

起床时心情很差+特别困……地铁上玩了会儿荒野之息，掌机模式操作起来倒也没那么累，就是20分钟太短了【上班时也比较困顿，由于众所周知的原因心情也比较低落，除了给同事打打杂整理整理数据外，基本就在摸鱼看AlphaZero

真昼之月·2024-02-07 23:14

机器学习 alphaGo — monte carlo search tree（1）

第二次是因为alphazero而登上自然杂志，这次分享以alphaGo为基础进行分享，分别是两个话题一个是神经网络，一个是今天将的蒙特卡罗搜索树方法。

zidea·2024-01-06 13:38

机器学习：手撕 AlphaGo（一）

它的技术迭代演进路径：AlphaGo，AlphaGoZero，AlphaZero，MuZero更是十分精彩。

三翼鸟数字化技术团队·2023-12-22 06:54

AI人工智能（调包侠）速成之路十二（AlphaZero代码实战4：人机对战实现）

AlphaZero巧妙了使用MCTS搜索树和神经网络一起，通过MCTS搜索树优化神经网络参数，反过来又通过优化的神经网络指导MCTS搜索。

askmeaskyou·2023-11-16 15:07

文献阅读 - [model-based RL] (4) - [Master Game of Go without Human Knowledge]

model-basedRL+MonteCarloTreeSearchtofindthebeststartegyinManygames.什么是亮点：AlphaGo已经能够超越人类（不是纯RL，还有很多的专家知识），AlphaZero

最適当承诺·2023-11-09 05:26

[PyTorch][chapter 58][强化学习-2-有模型学习]

AlphaGo和AlphaZero就是使用MCTS的典型例子。路径规划：有模型强化学习算法

明朝百晓生·2023-11-01 16:44

谷歌发布全新AutoML，AI通过图灵测试

它一定程度上再现了AlphaZero的设计理念，也比Zero更直观。GoogleAutoML系统自主编写机器学习代码，其效率在某种程度上竟然超过了专业的研发工程师。

AIYStore·2023-11-01 15:34

【AI】Interesting Applications

文章目录【盘古】【嗜睡检测】【3DAI生成】【多模态——指哪打哪】【AlphaDev：汇编版AlphaZero】【ChatExcel】【盘古】2023年7月，华为正式发布盘古大模型3.0，并提出3层模型架构

bryant_meng·2023-10-12 18:41

反向增强学习基础

增强学习已经成为人工智能发展的一个重要方向，AlphaZero的算法也再一次向世人展示了增强学习的强大之处。而它的孪生兄弟——反向增强学习，也同样具有很强的理论与应用价值。

小象学院·2023-09-20 02:53

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

在本文中，我们将这个方法推广到一个AlphaZero算法，它能够在很多有挑战的领域，从白纸状态，获

马小李23·2023-08-24 13:50

机器人学中的状态估计中文版_通用AlphaGo诞生？DeepMind的MuZero在多种棋类游戏中超越人类...

近期的一项研究提出了MuZero算法，该算法在不具备任何底层动态知识的情况下，通过结合基于树的搜索和学得模型，在雅达利2600游戏中达到了SOTA表现，在国际象棋、日本将棋和围棋的精确规划任务中可以匹敌AlphaZero

weixin_39542742·2023-08-23 02:31

AlphaZero与Alpha master有什么区别

AlphaZero和AlphaMaster都是由DeepMind开发的人工智能算法，但它们之间存在一些区别。

靠谱电竞·2023-08-23 02:01

AlphaZero能否从围棋和国际象棋飞跃到量子计算？

一项新的研究表明，DeepMind惊人的游戏算法AlphaZero可以帮助释放量子计算的力量和潜力。

大伟先生·2023-08-19 20:56

使用 Caffe 和 C++ 探索并实现 Deepmind 的 AlphaZero 算法

在近年来的技术领域，Deepmind的AlphaZero算法无疑是一项前沿的技术成果。它不仅在围棋领域取得了显著的成就，而且在其他棋盘游戏中也展现出了强大的实力。

快撑死的鱼·2023-08-19 18:07

从0实现基于Alpha zero的中国象棋AI（会分为多个博客，此处讲解蒙特卡洛树搜索）

从0实现基于Alphazero的中国象棋AI0.0、前言题主对于阿尔法狗的实现原理好奇，加上毕业在即，因此选择中国象棋版的阿尔法zero，阿尔法zero是阿尔法狗的升级版。

邹飞鸣·2023-08-15 00:49

AlphaZero：自我对弈下的深度强化学习突破

AlphaZero：自我对弈下的深度强化学习突破引言AlphaZero是DeepMind团队提出的一种通用的强化学习算法，它能够通过自我对弈的方式从零开始学习并掌握多种棋类游戏，包括围棋、国际象棋和将棋

人生彷徨何处寻觅·2023-07-15 07:06

AlphaZero：通用棋类AI，棋类游戏的“终结者”

机器是否能够产生智能，我们已经为此思考了很久很久。那么，该如何验证机器具有智能呢？一个常用方法就是玩棋盘游戏，比如国际象棋，看看其是否具有超人的能力，甚至击败世界冠军。在国际象棋方面，IBM的深蓝在20年前就打败了国际象棋大师，而后续的Stockfish和Komodo这些国际象棋程序也早已称霸国际象棋世界。然而，深蓝、Stockfish和Komodo虽然能赢人类，但不能真正理解棋局传统的国际象棋引

海森大数据·2023-06-11 16:03

python构建决策引擎_用Python和Keras搭建你自己的AlphaZero

在本文，我(作者DavidFoster——译者注)会主要讲到以下三件事：AlphaZero迈入人工智能一大步的两个原因。你怎样可以搭建一个AlphaZero一样的AI玩《四子连珠》游戏。

weixin_39936134·2023-06-11 15:33

AlphaZero神经网络策略网络代码，使用tensorflow框架

importnumpyasnpimporttensorflowastffromgameimportBoard,Gamefrompolicy_value_net_tensorflowimportPolicyValueNet#Tensorflown=5width,height=8,8model_file='current_policy.model'board=Board(width=width,hei

lwaif·2023-04-21 18:14

AlphaZero史上最快矩阵乘法算法登Nature封面

视学算法报道编辑：DavidJoey【导读】DeepMind碾压人类高手的AI围棋大师AlphaZero，下一个目标是数学算法！现已发现50年以来最快的矩阵乘法算法。

视学算法·2023-04-17 11:05

[开源] 一个分布式中国象棋 Alpha zero

alphago：icyChessZero中国有13+亿人，中国象棋的受众也很广，但是有关中国象棋alphago/zero方面的开源项目其实并不多,国内有名的更是几根手指都能数过来，而且在内容上高度相似，都是使用alphazero

weixin_33964094·2023-04-13 23:19

DeepMind公布官方教程，开始创建自己的AlphaZero AI吧

2016年3月，Deepmind的AlphaGo以4比1的比分战胜18届围棋世界冠军李世石，这场比赛吸引到全球超过2亿观众。机器学会围棋策略，并击败人类顶尖高手，这在以往被视为一种不可能的壮举——或者至少被认为要到十年后才有可能实现。AlphaGo对李世石第三盘比赛这本身已经成就了历史性时刻。但2017年10月18日，DeepMind又再次迈出新的一大步。在《无需人类知识掌握围棋游戏》论文当中，D

weixin_34273479·2023-04-13 23:19

c语言五子棋蒙特卡洛,AlphaZero 五子棋实现（附完整代码）

强化学习(下文统一使用RL代替)进入大众视野应该是2016年3月，DeepMind出品AlphaGo以4:1击败世界围棋高手李世石，RL算法理论的形成却可以追溯到1980年前后。RL有别于常用于NLP和CV领域的监督学习，监督学习中，数据由输入数据和标签(label)组成，创建于训练前，不会随着训练中的状态变化而更改相应策略，例如文本分类，提供数据(x)和对应label(y)喂入模型(f)进行训练

weixin_39984661·2023-04-12 02:22

DeepMind 最新发文：AlphaZero 的黑箱打开了

来源：AI科技评论作者：李梅编辑：陈彩娴AlphaZero表明神经网络可以学到人类可理解的表征。国际象棋一直是AI的试验场。

人工智能学家·2023-04-12 02:49

AI人工智能（调包侠）速成之路十一（AlphaZero代码实战3：神经网络实现）

AlphaZero巧妙了使用MCTS搜索树和神经网络一起，通过MCTS搜索树优化神经网络参数，反过来又通过优化的神经网络指导MCTS搜索。

askmeaskyou·2023-04-12 02:48

浅谈ChatGPT 和对AI 的思考

从一开始的图像的分类，检测，到人脸的识别，到视频分析分类，到事件的监测，到基于图片的文本生成，到AI自动写小说，AI自动作画，AI超分，再到在围棋上战胜人类的AlphaGo，AlphaZero每一次都霸占着版面的头条

likely_zhao·2023-04-02 10:22

【深度学习】盘点深度学习一年来在文本、语音和视觉等方向的进展，看强化学习如何无往而不利

AlphaZero自学成才，机器人Atlas苦练后空翻……2017年，人工智能所取得的新进展真是让人应接不暇。而所有的这些进展，都离不开深度学习一年来在底层研究和技术开发上的新突破。

产业智能官·2023-04-01 09:41

第一个tensorflow程序

个人博客：http://zhangsunyucong.top图片最近AlphaGo和AlphaZero的出现，预示着2017年成为人工智能元年，人工智能逐渐进入我们的生活和工作的方方面面，如在工作中，阿里巴巴双十一中

长孙雨聪七星上将·2023-03-27 19:14

2018年2月25日

地铁上看空想科学读本，这书每隔几年读一次都觉得特别沙雕233333开年第一天自然没什么状态，就把AlphaZero的工程给clone到公司电脑上同样摸了摸。

真昼之月·2023-03-08 22:39

近期计划备忘（2020年2月20日）

如果有空的话重新理解一下alphazero，能自己实现别的简单PVP游戏逻辑就更好了。FIFA20适当减少玩的频率，不过还是定期肝一下

真昼之月·2023-02-18 20:45

自博弈学习初步

article/details/91907661https://www.jianshu.com/p/bcbc41125c54https://zhuanlan.zhihu.com/p/30282616对于alphazero

rockray21·2023-01-17 16:45

AI人工智能（调包侠）速成之路十（AlphaZero代码实战2：蒙特卡洛树搜索）

蒙特卡罗方法（MonteCarlomethod）什么是蒙特卡罗方法用通过概率实验所求的概率估计来估计一个未知量，这样的方法统称为蒙特卡罗方法（MonteCarlomethod）。为什么需要蒙特卡洛方法在现实世界中，大量存在一些复杂性过程，由于这类模型含有不确定的随机因素，我们很难直接用一个确定性模型来分析和描述。面对这种情况．数据科学家难以作定量分析，得不到解析的结果，或者是虽有解析结果，但计算代

askmeaskyou·2023-01-17 16:08

强化学习-自博弈

自博弈(Self-Play)00链接AlphaZero:https://github.com/suragnair/alpha-zero-generalCoach.pyAlphaZeroGomoku:https

Double&Mint·2023-01-17 16:35

使用PyTorch实现简单的AlphaZero的算法（3）：神经网络架构和自学习

神经网络架构和训练、自学习、棋盘对称性、PlayoutCapRandomization，结果可视化从我们之前的文章中，介绍了蒙特卡洛树搜索(MCTS)的工作原理以及如何使用它来获得给定棋盘状态的输出策略。我们也理解神经网络在MCTS中的两个主要作用；通过神经网络的策略输出来指导探索，并使用其价值输出代替传统的蒙特卡洛rollout算法。在这一部分中，我们将从这个神经网络的架构开始，检查它的不同层、

·2023-01-13 17:35

使用PyTorch实现简单的AlphaZero的算法（1）：背景和介绍

在本文中，我们将在PyTorch中为ChainReaction[2]游戏从头开始实现DeepMind的AlphaZero[1]。

·2023-01-13 17:34

用飞桨框架2.0造一个会下五子棋的AI模型——从小白到高手的训练之旅

这里有“阿尔法狗”的小兄弟——AlphaZero-Gomoku-Padd

飞桨PaddlePaddle·2023-01-08 13:42

【DeepMind】新算法MuZero在Atari基准上取得了新SOTA效果，成果问鼎Nature

与AlphaZero相比，MuZero多了玩Atari的功能，这一突破进展引起科研人员的广泛关注。MuZero通过DQN算法，仅使用像素和游

深度强化学习实验室·2023-01-04 13:37

AlphaGo简易版MuGo源码解析

研究AlphaGo/AlphaZero实现原理，一方面是出于对AI围棋的兴趣，另一方面顺带加深对tensorflow等框架的

北极象·2023-01-03 10:01

生物界“AlphaGo”来了！蛋白结构预测AlphaFold大胜传统人类模型

乾明编译整理量子位出品|公众号QbitAIAlphaGo和AlphaZero又有新兄弟，这次轮到科学家惊呆了。

量子位·2022-12-24 14:00

人工智能目标检测模型（四）——ResNet

ImageNet比赛classification任务上获得第一名，因为它“简单与实用”并存，之后很多方法都建立在ResNet50或者ResNet101的基础上完成的，检测，分割，识别等领域都纷纷使用ResNet，Alphazero

ooMelloo·2022-12-22 15:45

c语言五子棋alpha,AlphaZero并行五子棋AI

AlphaZero-Gomoku-MPILinkOverviewThisrepoisbasedonjunxiaosong/AlphaZero_Gomoku,sincerelygratefulforit.Idothesethings

dizzyleed·2022-12-04 22:18

强化学习笔记：AlphaGo(AlphaZero) ，蒙特卡洛树搜索（MCTS）

1AlphaZero的状态围棋的棋盘是19×19的网格，可以在两条线交叉的地方放置棋子，一共有361个可以放置棋子的位置，因此动作空间是A={1,··,361}。

UQI-LIUWJ·2022-12-03 19:04

AlphaZero算法实现游戏AI

著名的围棋人工智能AlphaGo有多个版本。其中AlphaGoZero纯靠增强学习算法击败了AlphaGo所有其它版本，其由论文MasteringthegameofGowithouthumanknowledge介绍。后来将这种纯增强学习算法推广，论文MasteringChessandShogibySelf-PlaywithaGeneralReinforcementLearningAlgorithm

SSSxCCC·2022-12-03 19:33

源码阅读解析之Alpha Zero 实现五子棋游戏

项目地AlphaZero项目地址BoardGame2模块实现项目介绍该项目复现DeepMind论文AlphaZero模型，将其应用在五子棋游戏上面，采用MCTS+深度残差网络组合的方式训练一个游戏AI，

幻影123！·2022-12-03 19:33

强化学习（五）—— AlphaGo与Alpha Zero

强化学习（五）——AlphaGo与AlphaZero1.AlphaGo1.1论文链接1.2输入编码（State）1.3训练及评估流程1.4模仿学习（BehaviorCloning）1.5策略网络依据策略梯度进行学习

CyrusMay·2022-12-03 19:03

DeepMind用AlphaZero开发国际象棋新规则！

DeepMind用AlphaZero开发国际象棋新规则！道翰天琼认知智能机器人平台API接口大脑为您揭秘。还记得《生活大爆炸》里谢耳朵完虐舍友伦纳德时玩的三维国际象棋吗？

认知智能探索者·2022-12-03 19:03

推荐频道