增强学习第4页

告别「复制+粘贴」，Python 实现PDF转文本

基于深度学习的OCR将pdf转录为文本将pdf转换为图像Soares使用的pdf幻灯片来自于DavidSilver的增强学习（参见以下pdf幻灯片地址）。使用「

qfxietian·2023-02-01 17:38

2020-12-22 监督学习非监督学习半监督学习

--聚类分析对数据进行降维处理，方便进行数据的可视化特征提取：特征压缩异常数据的检测半监督学习一部分数据有标记或者答案，另外一部分数据没有标记使用无监督的手段进行数据处理，在利用监督学习的方式进行学习增强学习增强学习

徐大徐·2023-01-30 05:22

2018年自然语言处理最值得关注的研究、论文和代码

摘要：NLP与情感分析、增强学习、深度学习的交叉领域，全年干货大合集。2018年对于自然语言处理（NPL）是很有意义的一年，见证了许多新的研究方向和尖端成果。

weixin_30337251·2023-01-30 02:17

Deterministic Policy Gradient Algorithms 笔记

1.介绍Policygradient算法在增强学习中有非常多的应用，尤其是动作空间连续的情况。通常我们使用一个函数来表示策略。

Junr_0926·2023-01-30 02:50

数据科学导论--2.理论基础

统计学与机器学习的区别与联系4.数据科学视角下的统计学2.3机器学习1.机器学习基本思路2.机器学习三要素3.KNN算法4.概念学习5.决策树学习6.人工神经网络学习7.贝叶斯学习8.遗传算法9.分析学习10.增强学习

虾滑桦虾·2023-01-21 16:02

决策过程并举例_David Silver 增强学习——Lecture 2 马尔可夫决策过程（一）

其他lecture【1】搬砖的旺财：DavidSilver增强学习——笔记合集（持续更新）目录**DavidSilver增强学习——Lecture2马尔可夫决策过程（一）**1.前言----1.1数学规范

weixin_39594296·2023-01-20 01:40

机器学习Day1--机器学习方法

半监督学习结合少量有标注的训练数据和大量未标注的训练数据进行数据的分类学习两个基本假设：（1）聚类假设：处于相同聚类的样本很大可能拥有相同的标记（2）流形假设：处于一个很小的局部区域的样本很可能具有相同的标记三.增强学习对于输出信息只给出评价

千金裘换酒·2023-01-20 01:38

【机器学习 - 1】：knn算法

文章目录机器学习的概念和基础knn算法的实现过程封装knn算法总结机器学习的概念和基础机器学习可以两类任务：分类任务和回归任务以机器学习本身来进行分类可分为：监督学习非监督学习半监督学习增强学习监督学习

街三仔·2023-01-13 08:24

深度增强学习射击类游戏(vizdoom)

前端时间搞一个airsim的学习，通过ddqn的方式，然后这两天在尝试一些增强学习的训练；在PapersWithCode上看到如下游戏FPSGames|PapersWithCodeGitHub-mwydmuch

zhqh100·2023-01-12 19:15

专访微软邓力：语音识别与非监督深度学习、增强学习、词嵌入、类脑智能

着眼于端到端建模和训练，邓力介绍了输出端和输入端的进展，迁移学习、增强学习、非监督学习在语音识别领域的应用现状和前景，并解释了他对非监督学习的独特理解，

周建丁·2023-01-11 10:59

李宏毅机器学习课程-概述增强式学习0214

2021春机器学习课程P73目录1、什么是RL2、Function3、Loss4、Optimization1、什么是RL强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习

cq-lc·2023-01-11 07:49

初遇机器学习

机器学习分类:监督学习(SupervisedLearning)无监督学习(UnsupervisedLearning)强化学习(ReinforcementLearning,增强学习)半监督学习(Semi-supervisedLearning

绿豆蛙给生活加点甜·2023-01-08 17:07

机器学习之Grid World的Q-Learning算法解析

github.com/rlcode/reinforcement-learning/tree/master/1-grid-world/5-q-learningQ-LearningQ-Learning是一项无模型的增强学习技术

番茄大圣·2023-01-08 09:15

pytorch模型保存与加载（保存最优参数）

提升模型精度数据增强学习率衰减dropout（防止过拟合）正则化BN层（是数据分布相同）迁移学习+微调+增加数据集以上几种方法往往能够提升模型精度在训练数据集时，怎么保存预测精度最高的参数（第几个epoch

算法黑哥·2023-01-05 16:00

Unity的ml-agent学习

学习资源精讲blog0.导学知识ML主要包括监督学习、非监督学习和增强学习三种范式强化学习reinforcementlearningpdf电子书Unity的ml-agent，还必须知道Unity到底怎么玩

ChangeWfafa·2023-01-05 00:32

增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)

接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点，对于动态规划算法有如下特性：需要环境模型，即状态转移概率状态值函数的估计是自举的(bootstrapping)，即当前状态值函数的更新依赖于已知的其他状态值函数。相对的，蒙特卡罗方法的特点则有：可以从经验中学习不需要环境模型状态值函数的估计是相互独立的只能用于episodetasks而我们希望的算法是这样的：不需要环境模型它不局限

奔跑着的孩子·2023-01-04 23:21

机器学习之Grid World的SARSA算法解析

SARSASARSA（State-Action-Reward-State-Action）是一个学习马尔可夫决策过程策略的算法，通常使用在机器学习领域的增强学习上。

番茄大圣·2023-01-03 23:58

深度强化学习_参考资料

深度强化学习_参考资料写在前面会议&论文优秀的人啊~博客视频DRL的问题与展望其他应用场景其他知识点写在前面强化学习资料汇总——视频、书籍、教程、PPT、算法、环境、框架、论文、会议期刊、公众号、博客、官网增强学习在导航中的应用

popo-shuyaosong·2023-01-03 11:39

干掉 Google？ChatGPT 这几天杀疯了！

ChatGPT基于GPT-3.5模型微调而成，以语言服务模型InstructGPT为基础，通过人类回馈增强学习训练模型RLHF，不过数据设置略有不同。

公众号:肉眼品世界·2023-01-03 09:24

增强学习（四） ----- 蒙特卡罗方法(Monte Carlo Methods)

1.蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法，它使用随机数（或伪随机数）来解决计算的问题，是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗，而蒙特卡罗方法正是以概率为基础的方法。一个简单的例子可以解释蒙特卡罗方法，假设我们需要计算一个不规则图形的面积，那么图形的不规则程度和分析性计算（比如积分）的复杂程度是成正比的。而采用蒙特卡罗方法是怎么计算的呢？首先你把图形放到一个

weixin_30808575·2023-01-02 09:38

强化学习--DQN

总结前言强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实

百度pkq·2023-01-01 07:15

图像增强学习笔记（一）| 灰度变换与直方图修正

图像增强的目的是改善图像的视觉效果，针对给定图像的应用场合，有目的地强调图像的整体或局部特性，扩大图像中不同物体特征之间的差别，为图像的信息提取及图像分析奠定基础。图像增强的方法是通过锐化、平滑、去噪，对比度拉伸等手段对图像附加一些信息或变换数据，使图像与视觉响应相匹配，以便突出图像的某些目标特征而抑制另一些特性，或简化数据提取。目录灰度变换法1、全域线性变换2、非线性灰度变换1、指数变换2、对数

严肃小白兔·2022-12-30 10:49

增强学习（三）----- MDP的动态规划解法

上一篇我们已经说到了，增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略，使其在任意初始状态下，都能获得最大的Vπ值。

weixin_30355437·2022-12-29 12:53

增强学习

n为特征数，m为训练样本数。(1)如果相较于m而言，n要大许多，即训练集数据量不够支持我们训练一个复杂的非线性模型，我们选用逻辑回归模型或者不带核函数的支持向量机。(2)如果n较小，而且m大小中等，例如n在1-1000之间，而m在10-10000之间，使用高斯核函数的支持向量机。(3)如果n较小，而m较大，例如n在1-1000之间，而m大于50000，则使用支持向量机会非常慢，解决方案是创造、增加

Alchemist Notes·2022-12-29 10:26

【深度学习】attention机制

强注意力（hardattention）：更关注点，图像中的每个点都可能延伸出注意力，是一个随机的预测过程，强调动态变化，最关键的是不可微分的，训练过程中往往需要通过增强学习来完成。

Florrie Zhu·2022-12-28 08:46

DeepMind推出分布式深度强化学习架构IMPALA，让一个Agent学会多种技能

维金编译自DeepMindBlog量子位出品|公众号QbitAI目前，深度增强学习（DeepRL）技术在多种任务中都大获成功，无论是机器人的持续控制问题，还是掌握围棋和雅达利的电子游戏。

量子位·2022-12-23 13:11

OpenAI教程

openaigym是一个增强学习（reinforcementlearning,RL）算法的测试床（testb

p312011150·2022-12-21 16:15

[吴恩达机器学习课程笔记] week four强化学习

强化学习定义强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

mossfan·2022-12-16 04:35

机器学习导论与数学分析

文章目录机器学习定义说人话例子专家系统定义好，应招，速度快机器学习实验奖惩调参对象任务TASKT一个或多个经验EXPERIENCE性能PERFORMANCE类比人类学习监督学习半监督学习无监督学习增强学习可解决问题不可解决问题举例

林淮荣·2022-12-15 18:11

【集成学习-组队学习】导论

从机器学习算法本身来看，可分为监督学习、非监督学习、半监督学习、增强学习。

L1315382539·2022-12-14 12:56

【强化学习论文合集】二十一.2019神经信息处理系统大会论文(NIPS2019)

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

山野庸才熏悟空·2022-12-12 21:39

【强化学习论文合集】二十.2019机器人与自动化国际会议论文(ICRA2019)

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

山野庸才熏悟空·2022-12-11 09:58

【强化学习论文合集】十九.2019国际人工智能联合会议论文(IJCAI2019)

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

山野庸才熏悟空·2022-12-11 09:57

深度强化学习：入门(Deep Reinforcement Learning: Scratching the surface)

需要：课程视频链接热度起源RL的方案学习Go监督学习与增强学习更多应用RL的难点后面内容的大纲P

旭旭_哥·2022-12-10 20:31

OpenAI Gym基础教程

openaigym是一个增强学习（reinforcementlearning,RL）算法的测试床（testb

VictorLeeLk·2022-12-10 08:17

WWW2020《Adversarial Attacks on Graph Neural Networks via Node Injections：分层增强学习方法》（NIPA）论文详解

论文链接：https://faculty.ist.psu.edu/vhonavar/Papers/www20.pdfpoisoningattack1AbstractandIntroduction本文考虑了一种针对图数据的节点注入中毒攻击（poisoningattack）的形式。对节点注入攻击的关键步骤进行建模，例如，通过马尔可夫决策过程（MDP）在注入的对抗节点和其他节点之间建立链接、选择注入节点

Anonymous-·2022-12-07 10:56

基于模型与不基于模型的深度增强学习_[Model-based]基于模型的强化学习论文合集...

最近组里在讨论接下来在强化学习这块的研究方向，在讨论之前，我们把强化学习各个子方向的论文都粗略过了一下，涉及到model-free/model-based/multi-agent/deepexploration/meta-learning/imitationlearning/application/distributedtraining等方向。我想着当时查找阅读相关文章花费了不少精力，决定开个专栏

weixin_39564386·2022-12-06 22:22

【强化学习论文合集】八.2018国际机器学习大会论文(ICML2018)

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

山野庸才熏悟空·2022-12-06 22:46

【强化学习论文合集】六.2017国际人工智能联合会议论文(IJCAI2017)

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

山野庸才熏悟空·2022-12-06 22:57

【强化学习论文合集】二十七.2020机器人与自动化国际会议论文(ICRA2020)

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

山野庸才熏悟空·2022-12-06 22:56

【强化学习论文合集】五.2017国际表征学习大会论文(ICLR2017)

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

山野庸才熏悟空·2022-12-06 22:56

【强化学习论文合集】十五.2019国际机器学习大会论文(ICML2019)

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

山野庸才熏悟空·2022-12-06 22:50

CV中的注意力机制_1

（2）强注意力：强注意力更加关注点，图像中的每一个点都可以延伸出注意力，强注意力是不可微的注意力，训练过程往往通过增强学习完成。

Smiler_·2022-12-04 20:50

dropout学习记录

初印象：dropout通过随机的将一些输出置为零来增强学习性能实现dropout的难点在于如何生成mask使用情况：在深度学习中模型参数太多训练样本太少训练出来的模型容易产生过拟合实际执行：在每个训练批次中忽略一半的特征

pure a~·2022-12-04 07:34

AlphaZero算法实现游戏AI

其中AlphaGoZero纯靠增强学习算法击败了AlphaGo所有其它版本，其由论文MasteringthegameofGowithouthumanknowledge介绍。

SSSxCCC·2022-12-03 19:33

学习周报202000419 | 两本书+精读论文

往期回顾：学习周报20200301|两本书+论文荒学习周报20200315|蜥蜴书我看完了学习周报20200322|预训练模型、数据增强学习周报20200329|elasticsearch查询基础学习周报

机智的叉烧·2022-12-02 14:45

【强化学习论文合集 | 2020年合集】二. AAAI-2020 强化学习论文

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

Allenpandas·2022-11-30 16:26

【强化学习论文合集 | 2020年合集】一. ICML-2020 强化学习论文

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

Allenpandas·2022-11-30 16:56

数字图像处理-第二周-理论课

第三章空间域的图像增强学习灰度图像变换、直方图、空间域平滑及锐化滤波等内容掌握图像的均衡化方法、空域的线性和非线性滤波器的用法。理解图像亮度变换函数的原理、了解图像与处理的常用方法。

weixin_45965693·2022-11-29 21:22

【强化学习论文合集】IJCAI-2021 强化学习论文

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

Allenpandas·2022-11-28 19:21

推荐频道

增强学习

告别「复制+粘贴」，Python 实现PDF转文本

2020-12-22 监督学习 非监督学习 半监督学习

2018年自然语言处理最值得关注的研究、论文和代码

Deterministic Policy Gradient Algorithms 笔记

数据科学导论--2.理论基础

决策过程并举例_David Silver 增强学习——Lecture 2 马尔可夫决策过程（一）

机器学习Day1--机器学习方法

【机器学习 - 1】：knn算法

深度增强学习射击类游戏(vizdoom)

专访微软邓力：语音识别与非监督深度学习、增强学习、词嵌入、类脑智能

李宏毅机器学习课程-概述增强式学习0214

初遇机器学习

机器学习之Grid World的Q-Learning算法解析

pytorch模型保存与加载（保存最优参数）

Unity的ml-agent学习

增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)

机器学习之Grid World的SARSA算法解析

深度强化学习_参考资料

干掉 Google？ChatGPT 这几天杀疯了！

增强学习（四） ----- 蒙特卡罗方法(Monte Carlo Methods)

强化学习--DQN

图像增强学习笔记（一）| 灰度变换与直方图修正

增强学习（三）----- MDP的动态规划解法

增强学习

【深度学习】attention机制

DeepMind推出分布式深度强化学习架构IMPALA，让一个Agent学会多种技能

OpenAI教程

[吴恩达机器学习课程笔记] week four强化学习

机器学习导论 与数学分析

【集成学习-组队学习】导论

【强化学习论文合集】二十一.2019神经信息处理系统大会论文(NIPS2019)

【强化学习论文合集】二十.2019机器人与自动化国际会议论文(ICRA2019)

【强化学习论文合集】十九.2019国际人工智能联合会议论文(IJCAI2019)

深度强化学习：入门(Deep Reinforcement Learning: Scratching the surface)

OpenAI Gym基础教程

WWW2020《Adversarial Attacks on Graph Neural Networks via Node Injections：分层增强学习方法》（NIPA）论文详解

基于模型与不基于模型的深度增强学习_[Model-based]基于模型的强化学习论文合集...

【强化学习论文合集】八.2018国际机器学习大会论文(ICML2018)

【强化学习论文合集】六.2017国际人工智能联合会议论文(IJCAI2017)

【强化学习论文合集】二十七.2020机器人与自动化国际会议论文(ICRA2020)

【强化学习论文合集】五.2017国际表征学习大会论文(ICLR2017)

【强化学习论文合集】十五.2019国际机器学习大会论文(ICML2019)

CV中的注意力机制_1

dropout学习记录

AlphaZero算法实现游戏AI

学习周报202000419 | 两本书+精读论文

【强化学习论文合集 | 2020年合集】二. AAAI-2020 强化学习论文

【强化学习论文合集 | 2020年合集】一. ICML-2020 强化学习论文

数字图像处理-第二周-理论课

【强化学习论文合集】IJCAI-2021 强化学习论文

2020-12-22 监督学习非监督学习半监督学习

机器学习导论与数学分析