mathmatical

推荐频道

mathmatical

强化学习原理python篇01——基本概念

基本概念网格世界例子状态和行动状态行动状态转移策略鼓励trajectories,returns,andepisodesMDPs（Markovdecisionprocesses）Ref本章全篇参考赵世钰老师的教材Mathmatical-Foundation-of-Reinforcement-LearningBasicConcepts

WuRobb·2025-04-10 10:51

强化学习原理python篇03——贝尔曼最优公式

贝尔曼最优公式）例子求解状态值求解行动值贝尔曼最优公式（Bellmanoptimalityequation）定义求解Contractionmappingtheorem步骤例子Ref本章全篇参考赵世钰老师的教材Mathmatical-Foundation-of-Reinforcement-LearningOptimalStateValuesandBellmanOpt

WuRobb·2024-01-28 06:12

强化学习原理python篇04——迭代法

Valueiteration数学原理算法步骤实例及python实现policyiteration数学原理算法步骤实例及python实现TruncatedpolicyiterationRef本章全篇参考赵世钰老师的教材Mathmatical-Foundation-of-Reinforcement-LearningOValueIterationandPolicy

WuRobb·2024-01-28 06:12

强化学习原理python篇05——蒙特卡罗方法

强化学习原理python篇05——MonteCarloMethods蒙特卡罗方法Ref本章全篇参考赵世钰老师的教材Mathmatical-Foundation-of-Reinforcement-LearningMonteCarloMethods

WuRobb·2024-01-28 06:12

强化学习原理python篇02——贝尔曼公式推导和求解

bootstrapping（自举法）statevalue贝尔曼公式（BellmanEquation）贝尔曼公式以及python实现解法1——解析解解法2——迭代法atcionvalueRef本章全篇参考赵世钰老师的教材Mathmatical-Foundation-of-Reinforcement-LearningStateValuesandBellm

WuRobb·2024-01-28 06:42

强化学习原理python篇06——DQN

强化学习原理python篇05——DQNDQN算法定义DQN网络初始化环境开始训练可视化结果本章全篇参考赵世钰老师的教材Mathmatical-Foundation-of-Reinforcement-LearningDeepQ-learning

WuRobb·2024-01-28 06:08

A mathmatical theory of communication阅读笔记（2）

上一遍博文总结了文章的引言部分，这第二篇，总结一下离散无噪声系统的五个要点，分别是离散无噪声信道、离散信息源、英语的序列近似、马尔科夫过程的图形表示、遍历性和混合源。离散无噪声信道（如何衡量信道的能力，信道capacity的定义，状态的图表示）C=limT→∞N(T)T其中N(T)是在T时间内可能的传输信号数目。原文：N(T)isthenumberofallowedsignalsofduratio

jasonxty·2020-09-12 11:59

rxjs5.X系列 —— ErrorHandling/Condition/Mathematical系列 api 笔记

前言本文是笔者翻译RxJS5.X官网各类operation操作系列的的第四篇——ErrorHanding异常处理、ConditionOperator情况操作、Mathmatical数学操作。

m0_37978717·2020-07-16 03:51

上一页 1 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他