MMDP: A Mobile-IoT Based Multi-Modal Reinforcement Learning Service Framework

框架

MMDP: A Mobile-IoT Based Multi-Modal Reinforcement Learning Service Framework_第1张图片
AHTT可被定义为
MMDP: A Mobile-IoT Based Multi-Modal Reinforcement Learning Service Framework_第2张图片
AHTT的元素表示智能体在动作为 a l m n a_{lmn} almn的情况下从张量状态 s i j k s_{ijk} sijk转移到另一个张量状态 s i j k ′ s_{ijk}^{'} sijk的概率
MMDP: A Mobile-IoT Based Multi-Modal Reinforcement Learning Service Framework_第3张图片
通过数理统计首先得到多变量频率张量
MMDP: A Mobile-IoT Based Multi-Modal Reinforcement Learning Service Framework_第4张图片
MMDP: A Mobile-IoT Based Multi-Modal Reinforcement Learning Service Framework_第5张图片

MMDP: A Mobile-IoT Based Multi-Modal Reinforcement Learning Service Framework_第6张图片
状态 s i j k s_{ijk} sijk的值函数等于策略 π t e n s o r \pi_{tensor} πtensor下状态-动作对值函数的值之和,蓝色框中的状态-动作对值函数可以定义为等式15
MMDP: A Mobile-IoT Based Multi-Modal Reinforcement Learning Service Framework_第7张图片
张量策略求解包括两个过程,即TPE和TPI

体会

“规则平面”的子图字太小,图11的图注有错的记号。作者未公布代码

你可能感兴趣的:(RL,深度学习,人工智能,机器学习,计算机视觉)