MMDP: A Mobile-IoT Based Multi-Modal Reinforcement Learning Service Framework
框架AHTT可被定义为AHTT的元素表示智能体在动作为almna_{lmn}almn的情况下从张量状态sijks_{ijk}sijk转移到另一个张量状态sijk′s_{ijk}^{'}sijk′的概率通过数理统计首先得到多变量频率张量状态sijks_{ijk}sijk的值函数等于策略πtensor\pi_{tensor}πtensor下状态-动作对值函数的值之和,蓝色框中的状态-动作对值函数可以定