强化学习在阿里的技术演讲与业务创新

当前的机器学习算法⼤致可以分为有监督的学习、⽆监督的学习和强化学习(Reinforcement Learning)等。强化学习和其他学习⽅法不同之处在于强化学习是智能系统从环境到⾏为映射的学习,以使奖励信号函数值最⼤。如果智能体的某个⾏为策略导致环境正的奖赏,那么智能体以后产⽣这个⾏为策略的趋势便会加强。强化学习是最接近于⾃然界动物学习的本质的⼀种学习范式。然⽽强化学习从提出到现在,也差不多有半个世纪左右,它的应⽤场景仍很有限,规模⼤⼀点的问题就会出现维数爆炸,难于计算,所以往往看到的例⼦都是相对简化的场景。

强化学习在阿里的技术演讲与业务创新_第1张图片
强化学习在阿里的技术演讲与业务创新_第2张图片
强化学习在阿里的技术演讲与业务创新_第3张图片
强化学习在阿里的技术演讲与业务创新_第4张图片
强化学习在阿里的技术演讲与业务创新_第5张图片
强化学习在阿里的技术演讲与业务创新_第6张图片
强化学习在阿里的技术演讲与业务创新_第7张图片
强化学习在阿里的技术演讲与业务创新_第8张图片
强化学习在阿里的技术演讲与业务创新_第9张图片
强化学习在阿里的技术演讲与业务创新_第10张图片
强化学习在阿里的技术演讲与业务创新_第11张图片
强化学习在阿里的技术演讲与业务创新_第12张图片
强化学习在阿里的技术演讲与业务创新_第13张图片
强化学习在阿里的技术演讲与业务创新_第14张图片原文&下载https://www.slidestalk.com/s/Technology_Speech_and_Business_Innovation_of_Enhanced_Learning

你可能感兴趣的:(数据库)