ExpectedUtility

推荐频道

ExpectedUtility

学习笔记TF038:实现估值网络

Q-Learning，学习Action对应期望值(ExpectedUtility)。1989年，Watkins提出。收敛性，1992年，Watkins和Dayan共同证明。

利炳根·2020-08-12 13:14

学习笔记TF038:实现估值网络

Q-Learning，学习Action对应期望值(ExpectedUtility)。1989年，Watkins提出。收敛性，1992年，Watkins和Dayan共同证明。

利炳根·2017-08-07 09:41

TensorFlow实战14：实现估值网络（强化学习二）

1.估值网络简介在强化学习中，除了上节提到的策略网络（PolicyBased）直接选择Action的方法，还有一种学习Action对应的期望值（ExpectedUtility）的方法，称为Q-Learning

Felaim·2017-04-27 23:12

TensorFlow实战14：实现估值网络（强化学习二）

1.估值网络简介在强化学习中，除了上节提到的策略网络（PolicyBased）直接选择Action的方法，还有一种学习Action对应的期望值（ExpectedUtility）的方法，称为Q-Learning

Felaim·2017-04-27 23:00

期望值与效用值

期望效用[ExpectedUtility]——消费者在不确定情况下可能得到的各种结果的效用的加权平均数。

Robin99·2010-09-25 17:00

上一页 1 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他