人工智能应用案例学习3

本次学习AlphaGo模拟下棋的策略网络是怎么实现的。

策略网络是使用神经网络模型构建的强化学习能力算法。这个定义怎么理解？首先从机器学习概念说起。

机器学习（Machine Learning，ML）是让计算机从数据中进行自动学习，得到某种知识（或规律），机器学习通常指一类问题以及解决这类问题的方法，如何从观测数据（样本）中寻找规律，并利用学习到的规律（模型）对未知或无法观测的数据进行预测。

根据训练模型的输入数据不同状况（此处状况个人理解为数据所能表征物理事物的分辨度，也就是数据质量，如果数据质量越高，所需算法越简单，因为算法就是在不断的比对分清楚当前数据所表征的是什么）分为四类：监督学习、非监督学习、半监督学习、强化学习。

监督学习：输入数据带有标注好的分类标签，监督学习将预测结果与输入数据计算结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率，比如分类和回归问题等。常用算法包括决策树、贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络等。

非监督学习：输入数据没有标注好的分类标签，只能通过算法来推断数据的某些内在规律，比如聚类和关联规则学习等。常用算法包括独立成分分析、K-Means 和 Apriori 算法等。

半监督学习：输入数据有部分标注好的分类标签，学习方式包含监督和非监督学习，常用于分类和回归。常用算法包括图论推理算法、拉普拉斯支持向量机等。

强化学习：强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。在最优控制理论中也有研究这个问题，虽然大部分的研究是关于最优解的存在和特性，并非是学习或者近似方面。在经济学和博弈论中，强化学习被用来解释在有限理性的条件下如何出现平衡。

AlphaGo的策略网络正是基于强化学习的深度神经网络算法。

人工智能应用案例学习3

你可能感兴趣的:(人工智能应用案例学习3)