百度强化学习训练营心得

百度强化学习训练营心得

这次强化学习训练营,总讲课时间5小时,是一次强化学习的“快餐”。

在训练营中,快速学习了几种经典算法,通过代码补齐作业大概了解了Parl框架用法。范式化的代码结合Parl库简化了强化学习流程,使初学者也能体验一把炼丹的快感。

在创意赛选题过程中,发现强化学习并不像课程内容那样浅易。模仿学习、few-shot等概念在查资料过程中不断蹦出,猝不及防。

也许,这次学习,与其类比快餐,不如说是打开了螃蟹壳,大概看到了强化学习的解题路线、Parl框架下编程范式。螃蟹好吃却麻烦,强化学习大概也如此,每进一步的深挖都可能是艰辛的,随之而来的也会是更高阶的知识经验。那么,为什么强化学习的世界会是如此呢?

一方面,强化学习在生产生活中尚未开发出大量应用点,主流研究仍在模拟器、游戏环境中。另一方面,这种“无用之用”已经在一些专业领域开始融入产业实际,如:基于强化学习的锅炉燃烧控制系统已经被研发出来,基于强化学习的射频电路与天线设计已登载在arxiv上,rlschool中也推出了电梯控制等非常实际的模型。在传统机器学习、深度学习已走入寻常百姓家的当下,强化学习俨然成为学士们新的研究对象。

在这次训练营中,每次课讲完,我还要再看一遍回放,才能理解课程细节——这可能也是大部分强化学习新人的做法。可见,即使是强化学习的快餐,在当下也不是能一口就下肚的。也许,在不远的将来,强化学习也会变成跟现在的深度学习一样,同样的算法可以轻易就学会,甚至对新人也同样如此。这是因为老师把课程讲得更通俗了或相关库更完善了吗?大概不完全如此。

首先,来看看人工智能/机器学习的现状。人工智能的概念正通过各种渠道渗入大众视野中,现在,大部分人应该都不算是机器学习领域的小白了,而是有了一定的前置知识。

这种前置知识也许很浅表,或许就只是新闻中报道的某个AI新应用。但其实这样就已经足以降低学习AI的难度了——探索未知的一大挑战就是对结果的不可预期性,当知道已经有人在该领域成功后,未知变已知,或至少变成结局已知,探索工作变为复现工作,难度自然降低许多。

再来看看强化学习。该领域最著名的应用当属AlphaGo下围棋以及自动驾驶了。然而大部分国人都没有下过围棋,汽车制造也一直是较封闭的产业,大部分人出于安全、法规考虑也不会自己动手去改装出一台自动驾驶汽车。现在强化学习距离大众最近的应用大概就是自动化的游戏脚本或者外挂了——其中绝大部分可能还只是逻辑实现而非强化学习——这种外挂往往被认为是影响游戏公平的,也难以迁移到游戏之外。

随着强化学习领域的不断探索,这种局面可能很快就会被打破。在机械、电学等工程学科中,自动控制原理属于必修课程。其中的“动作-反馈-控制”的闭环过程与强化学习中“state-action-reward”的基本概念如出一辙。对这些人,强化学习可能只是多了对环境的自动探索(在传统自动控制中,这种探索往往是靠人工探索以及经验公式)。在其他学科中,虽然没有自动控制原理这样的前置知识,但只要涉及探索过程,强化学习就有用武之地。如利用结构进化强化学习设计新型药物分子的研究(ReLeaSE)等。

由此看来,现在发生在机器学习领域的普及浪潮在未来也会发生在强化学习领域中。

在享受丰富的机器学习课程的时候,我们往往忽视了当年开发它们的艰辛,比如我就很难理解为什么神经网络要经历这好几十年,历经多个“追捧-冷落”的循环,才发展到现在这个样子。这种情况在科学史中发生过太多次,如今我们的许多常识在百年前都是State of the art。然而,假使生在这个时代的我们原样穿越回那个蒙昧的年代,也绝不敢自诩为大师,因为我们只是继承了这些知识,而没有探索过程。

像金钱一样,知识也是有通货膨胀的,越是前沿领域,其价值越高,之后逐步贬值。在知识更新越快的领域,贬值速度越快。在融入各行各业的进程中,强化学习的内涵无疑会快速扩充。从这一点来看,强化学习可算是AI浪潮中的一个浪尖尖。每个想要驾驭它的人都要做好长期奋斗、努力探索的决心。

你可能感兴趣的:(百度强化学习训练营心得)