E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
GAN-强化学习
连锁店销量预测
目录任务数据解读及简单探索解决思路传统机器学习方法代码评估深度学习方法代码评估建议参考文献任务利用深度学习、
强化学习
等机器学习手段为某连锁商店预测每个商店未来12周的销售额进行估计,以便对商店的经营更好掌握和对库存调拨更好管理
帅帅de三叔
·
2023-02-04 19:52
数据挖掘
人工智能
python
OpenMMLab
OpenMMLab:计算机视觉开源算法体系机器学习和神经网络简介机器学习详细笔记机器学习基础机器学习:让计算机从数据中学习去解决问题(问题—>收集数据—>拟合模型)应用:人脸识别、机器翻译、语音识别、
强化学习
机器学习中的分类问题过程原始文本关键
XinrZhou
·
2023-02-04 19:21
人工智能
强化学习
核心之马尔科夫决策过程理论与实战(二)
前言本讲将从基础的马尔科夫过程开始讲解,到马尔科夫奖励过程,马尔科夫决策过程,最后也会用代码巩固这部分理论.目录马尔科夫过程马尔科夫奖励过程马尔科夫决策过程编程实践参考马尔科夫过程理论讲解在上一讲我们提到过,在一个时序过程中,如果时刻的状态仅取决于t时刻的状态而与时刻之前的任何状态都无关时,则认为时刻的状态具有马尔科夫性(Markovproperty)如果过程中每一个状态都具有马尔科夫性,则这个过
CristianoC
·
2023-02-04 16:45
趣谈什么是深度学习
海量的数据驱动(3)强大的计算平台5.深度学习的分类(1)破译图像的密码——卷积神经网络(2)洞悉语言的内涵——循环神经网络(3)棋逢对手,伯仲之间——生成对抗网络(4)纸上得来终觉浅,绝知此事须躬行——深度
强化学习
人工智能教育
·
2023-02-04 14:09
神经网络
机器学习
人工智能
python
深度学习
openmmlab计算机视觉之图像分类算法
学习率和优化器策略:学习率退火、升温、linearscalingrule(batchsize扩大原来k倍,学习率也应该扩大k倍)、4、自适应梯度算法:SGD、Adaw5、数据增强:几何变换、色彩变换、随机遮挡、
强化学习
pedroHuang123
·
2023-02-04 14:35
计算机视觉
分类
人工智能
2023.2.2OpenMMLab AI实战营学习笔记
,模型集成的方式神经结构搜索基于
强化学习
,搜索表
TAO12215623
·
2023-02-04 10:23
openmmlab
学习
理解监督学习、无监督学习、半监督学习、
强化学习
目录监督学习回归问题分类问题无监督学习半监督学习
强化学习
参考链接监督学习监督学习简单来说就是我们给学习算法一个数据集。
Master_miao
·
2023-02-04 09:15
机器学习
机器学习
每日学术速递2.3
CV-计算机视觉|ML-机器学习|RL-
强化学习
|NLP自然语言处理Subjects:cs.Cv、cs.LG1.CompositionalPromptTuningwithMotionCuesforOpen-vocabularyVideoRelationDetection
AiCharm
·
2023-02-04 09:13
#
每日学术速递
人工智能
深度学习
7、半监督学习知识点
半监督学习知识点监督学习主要解决的是分类和回归的场景,无监督学习主要解决聚类场景,半监督学习解决的是一些打标数据比较难获得的分类场景,
强化学习
主要是针对流程中不断需要推理的场景。
爱补鱼的猫猫
·
2023-02-04 09:37
学习笔记
学习
深度学习
mmlab寒假实战营day2
将图像通过人工算法转为特征向量,进而转换为预测类别特征工程(直接计算)到特征学习(可以学习的参数)2.神经网络分类模型经典模型:Alexnet(开山),vgg,resnet(2016CVPRbestpaper)神经结构搜索:通过
强化学习
的方法来搜寻最
seeleyuan
·
2023-02-04 08:25
深度学习
计算机视觉
神经网络
OpenMMLab课程笔记Day2
分组卷积神经结构搜索借助
强化学习
的方法搜索出表现最佳的网络Transformer注意力机制二、模型学习:学习率策略:学习率退火,学习率升温,自适应梯度算法自监督学习(基于无标注的学习):基于代理任务,基于对比学习
Halbert(^_^)
·
2023-02-04 08:55
深度学习
自然语言处理
人工智能
OpenMMLab课程笔记Day1
强化学习
:如何和环境交互,获得最大收益。
Halbert(^_^)
·
2023-02-04 08:54
pytorch
深度学习
计算机视觉
MMLAB学习笔记-DAY2
梯度可以直接回传到浅层网络监督浅层网络的学习三、更强的分类模型神经架构搜索:借助
强化学习
设计网络结构VisionTransformers:使用
行吟画者
·
2023-02-04 07:10
深度学习
人工智能
计算机视觉
AI 的下一个高潮是 “数据“+“知识“ 双融合双驱动
基于GPT-3模型,通过RLHF(人类反馈
强化学习
)提供的监督输入自监督学习,不断提炼“知识”,便炼成了聪明的“生成式AI”ChatGPT。
中医药人工智能研究
·
2023-02-04 07:10
人工智能
谷歌开源的基于 TensorFlow 的轻量级框架 AdaNet几大优势
据介绍,AdaNet在谷歌近期的
强化学习
和基于进化的AutoML的基础上构建,快速灵活同时能够提供学习
爱码小士
·
2023-02-03 21:09
深度学习
人工智能
集成模型
[论文]基于
强化学习
的无模型水下机器人深度控制
基于
强化学习
的无模型水下机器人深度控制摘要介绍问题公式A.水下机器人的坐标框架B.深度控制问题马尔科夫模型A.马尔科夫决策B.恒定深度控制MDPC.弯曲深度控制MDPD.海底追踪的MDP通过RL解决MDP
如果我变成回忆l
·
2023-02-03 19:45
机器人
强化学习
算法
DQN算法及actor-critic算法(
强化学习
蘑菇书第六七八章)
DQN前面几章的内容主要是基于表格型方法来存储状态价值函数或者动作价值函数,然而,当状态空间非离散时,我们无法用表格来对价值函数进行存储。DQN(深度Q网络)是基于深度学习的Q学习算法,主要结合了价值函数近似于神经网络,并采用目标网络和经验回放等方法进行网络的训练。状态价值函数评论员:评价演员的策略π好还是不好,也是策略评估。比如说,有一种评论员称为状态价值函数Vπ,然而,critic没办法凭空评
rainbowiridescent
·
2023-02-03 16:51
机器学习
python
强化学习
蘑菇书Easy RL 第四五章
7.20更新,(这两天进度略慢,基本只学了第四章,还没学完,简单记录下吧!)首先我们必须要明确的一个概念,RL有三个组成部分:演员actor环境environment奖励函数rewardfunction其中,环境和奖励函数是无法控制的,而是开始学习之前给定的,所以,只能做的就是调整演员的policy,使得reward最大。同时,演员的策略决定action。如果用深度学习来做RL的话,策略π就是一个
rainbowiridescent
·
2023-02-03 16:21
强化学习
机器学习
人工智能
强化学习
蘑菇书Easy RL第一章
强化学习
第一章(蘑菇书)
强化学习
的概念之前也学过一点,但是不够系统,想利用这一次机会好好把一些概念理顺清楚。第一部分肯定是
强化学习
的概念问题。
rainbowiridescent
·
2023-02-03 16:20
强化学习
人工智能
[归纳]
强化学习
导论 - 第八章:融合规划和学习的统一框架
文章目录1.本章内容概要2.模型和规划3.Dyna:综合规划和学习的框架4.当模型是错的5.优先权扫描6.期望更新vs.采样更新7.轨迹采样8.实时动态规划9.决策时规划10.启发搜索11.rollout算法12.蒙特卡洛树搜索13.总结参考文献1.本章内容概要本章将从一个统一的视角看待model-basedRL(DP\heuristicsearch)和model-freeRL(MC\TD)。Mo
OneLonelyTree
·
2023-02-03 16:49
强化学习
RL
强化学习
Sutton
规划与学习
MCTS
easyRL蘑菇书阅读笔记(一)
模型:基于策略的
强化学习
+基于价值的
强化学习
(第10页)如果我们采取基于策略的
强化学习
(policy-basedRL)方法,当学习好了这个环境后,在每一个状态,我们都会得到一个最佳的动作。如图1.17
苏鱼鱼的小鱼儿
·
2023-02-03 16:17
RL
深度学习
人工智能
强化学习
蘑菇书学习笔记04
第六章DQN基本概念关键词DQN(DeepQ-Network):基于深度学习的Q-learning算法,其结合了ValueFunctionApproximation(价值函数近似)与神经网络技术,并采用了目标网络(TargetNetwork)和经验回放(ExperienceReplay)等方法进行网络的训练。State-valueFunction:本质是一种critic。其输入为actor某一时刻
Kepler_K
·
2023-02-03 16:12
蘑菇书学习笔记
学习
机器学习
“蘑菇书”是怎样磨出来的?
我们这里所说的“蘑菇书”,不是这本而是“蘑菇书”(《EasyRL:
强化学习
教程》)。好事多磨!——俗语我们常常用“好事多磨”来形容做成功一件事情之前要经历很多的波折。其实,好书的出版过程也是多磨的。
Datawhale
·
2023-02-03 16:12
人工智能
编程语言
大数据
java
xhtml
强化学习
蘑菇书Easy RL第二、三章学习(马尔可夫决策过程、表格型方法)
在离散随机过程里,我们需要把随机变量所有可能取值的集合放到一个状态空间里,在
强化学习
里,我们直接用状态转移的概率来表示:p(st+1∣st)=p(st+1∣ht)p(st+1∣st,at)=p(st+1
rainbowiridescent
·
2023-02-03 16:41
强化学习
学习
人工智能(Machine Learning)—— 机器学习
blog.csdn.net/qq_27297393/article/details/82284384机器学习一、人工智能、机器学习与深度学习人工智能机器学习经典机器学习基于神经网络的机器学习浅层学习深层学习(深度学习)
强化学习
迁移学习二
weixin_30387799
·
2023-02-03 14:07
python
人工智能
数据结构与算法
Q-Learning详解
照例顶封面:new2.jpg
强化学习
简介:image.pngQ-Learning是
强化学习
方法的一种。要使用这种方法必须了解Q-table(Q表)。
无业大学生
·
2023-02-03 13:20
《深度学习》学习笔记
本文是李宏毅教授《机器学习》课程的学习笔记,简要地介绍了深度学习的基本概念及常见网络架构,包括卷积神经网络、自注意力机制、Transformer、BERT、生成对抗网络、领域自适应网络等,此外还简单地介绍了
强化学习
和元学习
偶尔写一写
·
2023-02-03 13:42
机器学习
人工智能
深度学习
机器学习
【论文阅读】Online Decision Based Visual Tracking via Reinforcement Learning
本文主要提出了一种新的视觉跟踪集成框架DTNet,它基于层次
强化学习
(HRL)的决策机制。该框架提供
叶柖
·
2023-02-03 10:46
论文笔记
论文阅读
计算机视觉
人工智能
强化学习
python label 与 one-hot 之间的互相转换
文章目录前言label转one-hotone-hot转label前言有时候需要label,比如
强化学习
的离散动作空间,输出动作索引;有时候需要one-hot,比如训练数据或者输入上一个状态的动作,简单的互相转换还是重要的
强殖装甲凯普
·
2023-02-03 09:24
杂文
python
深度学习
人工智能
OpenMMLab AI实战营第一天笔记
机器学习的典型范式监督学习有标签无监督学习无标签
强化学习
让智能体自己适应环境机器学习中的分类问题垃圾信件分类特征与分类拟合出来是一条直线,称为线性分类器。
leeleesir
·
2023-02-03 09:16
人工智能
深度学习
OpenMMlab AI实战营第一课笔记
机器学习可以分为监督学习、无监督学习和
强化学习
。神经网络的训练过程:1、计算样本的损失2、计算样本损失的梯度3、根据梯度信息更新参数
qq_39614871
·
2023-02-03 09:44
深度学习
python
万字长文解读DeepMind与谷歌的AI拉锯战
通过对二十余名内部人士的采访,研究了这家公司的研究态度——其关于AGI的追求和对
强化学习
的执念,这对他们的研究意识形态产生了重要影响,也根深蒂固于他们的企业文化。以下为全文编译,enjoy。
网易智能
·
2023-02-03 09:41
AI基础实战营第一课打卡笔记
计算机视觉发展史及其应用领域的简单介绍主要分为物体分类,目标检测,语义分割,实例分割OpenMMLab1.0和2.0的简单介绍及其优点通用,开放统一,灵活,迭代机器学习相关内容监督学习,无监督学习,
强化学习
神经网络的介绍及其训练如何衡量神经网络性能
z_whiskey
·
2023-02-03 08:52
python
《计算机视觉与OpenMMLab开源算法体系》课堂笔记
强化学习
:如何和环境交互,以获得最大收益?
再多亿点可爱
·
2023-02-03 08:32
计算机视觉
算法
人工智能
一起自学SLAM算法:11.3 路径规划
SLAM中的数学基础第8章-激光SLAM系统第9章-视觉SLAM系统第10章-其他SLAM系统第11章-自主导航中的数学基础11.1自主导航发展简史11.2环境感知11.3路径规划11.4运动控制11.5
强化学习
与自主导航
机器人研究猿
·
2023-02-03 07:46
一起自学SLAM算法
机器人
自动驾驶
人工智能
算法
一起自学SLAM算法:11.4 运动控制
SLAM中的数学基础第8章-激光SLAM系统第9章-视觉SLAM系统第10章-其他SLAM系统第11章-自主导航中的数学基础11.1自主导航发展简史11.2环境感知11.3路径规划11.4运动控制11.5
强化学习
与自主导航
机器人研究猿
·
2023-02-03 07:46
一起自学SLAM算法
机器人
人工智能
自动驾驶
算法
一起自学SLAM算法:11.2 环境感知
SLAM中的数学基础第8章-激光SLAM系统第9章-视觉SLAM系统第10章-其他SLAM系统第11章-自主导航中的数学基础11.1自主导航发展简史11.2环境感知11.3路径规划11.4运动控制11.5
强化学习
与自主导航
机器人研究猿
·
2023-02-03 07:45
一起自学SLAM算法
机器人
自动驾驶
人工智能
算法
一起自学SLAM算法:11.1 自主导航发展简史
SLAM中的数学基础第8章-激光SLAM系统第9章-视觉SLAM系统第10章-其他SLAM系统第11章-自主导航中的数学基础11.1自主导航发展简史11.2环境感知11.3路径规划11.4运动控制11.5
强化学习
与自主导航
机器人研究猿
·
2023-02-03 07:15
一起自学SLAM算法
算法
自动驾驶
人工智能
机器人
机器学习、深度学习、
强化学习
、迁移学习、导航优秀博客/专栏合集
萌新在学习的过程,总是遇到各路大神写的优秀帖子,这里做分门别类,更新中…优秀入门博主仅囊括本萌新遇见:谢小小XH:机器学习方面的数学原理总结Physcalの大魔導書:激活函数稀疏激活性的作者,待串门Freedom_anytime:机器学习&深度学习大牛博客专栏总结zhanlijun:剖析过贝叶斯定位会议2018年【计算机视觉&机器学习&人工智能】领域重要会议汇总(持续更新)导航GeoHash核心原
heathhose
·
2023-02-03 07:44
博客合集
一起自学SLAM算法:11.5
强化学习
与自主导航
SLAM中的数学基础第8章-激光SLAM系统第9章-视觉SLAM系统第10章-其他SLAM系统第11章-自主导航中的数学基础11.1自主导航发展简史11.2环境感知11.3路径规划11.4运动控制11.5
强化学习
与自主导航
机器人研究猿
·
2023-02-03 07:43
一起自学SLAM算法
算法
人工智能
自动驾驶
机器人
Policy Gradient
BasicComponents在
强化学习
中,主要有三个部件(components):actor、environment、rewardfunction。
六回彬
·
2023-02-03 01:33
马尔可夫决策过程
马尔可夫属性的概念为:下一个状态或奖励仅仅与当前的动作或状态有关,与历史(过去)的选择无关,即,马尔可夫属性马尔可夫决策过程马尔可夫决策过程即为在满足马尔可夫属性的前提下,进行
强化学习
的过程。
倒着念
·
2023-02-03 01:09
深度
强化学习
(3):策略学习篇
王树森老师《深度
强化学习
基础》学习笔记三、策略学习(Policy-BasedReinforcementLearning)用一个神经网络(policynetwork,策略网络)近似策略函数,用于控制Agent
Sudaa、
·
2023-02-02 15:47
科研
深度学习
神经网络
机器学习
强化学习
入门(二):on-policy与off-policy
一、名词解释即引入原因1、名词解释:翻译过来就是:On-policy:学习到的agent以及和环境进行互动的agent是同一个agentOff-policy:学习到的agent以及和环境进行互动的agent是不同的agent直观理解就是:On-policy:相当于你在打游戏,你在实战中变强。Off-policy:相当于你在看直播,你在观摩中变强。2、为何要引入Off-policy:为了避免不停地s
工藤旧一
·
2023-02-02 15:47
#
强化学习
机器学习
强化学习
6——Value-based RL和Policy-based RL 的区别
Value-basedRL和Policy-basedRL的区别Value-basedRL都是确定的一个策略:at=argmaxaQ(a,st)a_{t}=\arg\max_{a}Q\left(a,s_{t}\right)at=argmaxaQ(a,st)。Policy-basedRL产生的是各个动作的概率:πθ(a∣s)\pi_\theta(a|s)πθ(a∣s)。例如下图用神经网路来构建策略
菜且凶残_2017
·
2023-02-02 15:17
强化学习
算法
人工智能
强化学习
1
强化学习
-1
强化学习
基本概念AGENTVALUEACTIONPOLICYSTATEMODELMDPEXPLORE与EXPLOIT
强化学习
基本概念这是第一篇
强化学习
的学习笔记,会覆盖几个基本的概念。
wangyuehy
·
2023-02-02 15:17
RL
RL
强化学习
——On-Policy与Off-Policy
本文内容源自百度
强化学习
7日入门课程学习整理感谢百度PARL团队李科浇老师的课程讲解目录1.on-policy与off-policy2.Sarsa与Q-learing3.Q-learing与环境的交互3.1
深海沧澜夜未央
·
2023-02-02 15:16
强化学习
强化学习
模块基础概念及相关知识
|更新:2020.10.28|
[email protected]
文章目录
强化学习
:1.马尔科夫决策(MDP):2.思想:3.基本原理:4.结构:eg.游戏是环境,人是智能体5.DQN:6.Model-basedvs.Model-free
fjy2035
·
2023-02-02 15:16
强化学习
强化学习
强化学习
简介
强化学习
是机器想里面非常重要的一个派别。智能体agent会不断执行一些操作,通过结果来学习,在不同的环境中分别应该采取怎样的行动。
csdn_LYY
·
2023-02-02 14:46
机器学习
强化学习
note2——value iteration和policy iteration的区别,MC和TD的区别
valueiteration和policyiteration的区别valueiteration:①多次迭代Bellman最优等式和Bellman等式,等价值函数收敛后,②再用价值函数带入贝尔曼等式得到动作价值函数,策略就从最大的动作价值函数选取。(策略没有参与)policyiteration:①随机选取一个策略policy,用这个policy对Bellman等式进行多次迭代计算直到价值函数收敛,②
菜且凶残_2017
·
2023-02-02 14:46
强化学习
强化学习
上一页
44
45
46
47
48
49
50
51
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他