强化学习(一):强化学习浅谈

最近接触强化学习,发现非常有意思,强化学习多是一种动态规划的思路,使用生活化语言描述,就叫做:实践出真知。
相较于有监督和无监督的学习,强化学习更多地是在决策产生结果的反馈基础上进行不断的优化。(在决策结果反馈前,有监督和无监督学习已经固定了决策方案)。
强化学习的使用场景(摘自:深度学习500问-强化学习):
(1)Manufacturing

例如一家日本公司 Fanuc,工厂机器人在拿起一个物体时,会捕捉这个过程的视频,记住它每次操作的行动,操作成功还是失败了,积累经验,下一次可以更快更准地采取行动。
强化学习(一):强化学习浅谈_第1张图片

(2)Inventory Management

在库存管理中,因为库存量大,库存需求波动较大,库存补货速度缓慢等阻碍使得管理是个比较难的问题,可以通过建立强化学习算法来减少库存周转时间,提高空间利用率。

(3)Dynamic pricing

强化学习中的 Q-learning 可以用来处理动态定价问题。(补充相关资料:通过Q-learning深入理解强化学习)Q-learning应用非常成功的一个领域就是围棋。

(4)Customer Delivery

制造商在向各个客户运输时,想要在满足客户的所有需求的同时降低车队总成本。通过 multi-agents 系统和 Q-learning,可以降低时间,减少车辆数量。

(5)ECommerce Personalization

在电商中,也可以用强化学习算法来学习和分析顾客行为,定制产品和服务以满足客户的个性化需求。

(6)Ad Serving

例如算法 LinUCB (属于强化学习算法 bandit 的一种算法),会尝试投放更广范围的广告,尽管过去还没有被浏览很多,能够更好地估计真实的点击率。
再如双 11 推荐场景中,阿里巴巴使用了深度强化学习与自适应在线学习,通过持续机器学习和模型优化建立决策引擎,对海量用户行为以及百亿级商品特征进行实时分析,帮助每一个用户迅速发现宝贝,提高人和商品的配对效率。还有,利用强化学习将手机用户点击率提升了 10-20%。

(7)Financial Investment Decisions

例如这家公司 Pit.ai,应用强化学习来评价交易策略,可以帮助用户建立交易策略,并帮助他们实现其投资目标。

(8)Medical Industry

动态治疗方案(DTR)是医学研究的一个主题,是为了给患者找到有效的治疗方法。 例如癌症这种需要长期施药的治疗,强化学习算法可以将患者的各种临床指标作为输入 来制定治疗策略。

你可能感兴趣的:(深度学习,强化学习)