E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
强化学习·
机器学习第12天:聚类
使用方法实例演示代码解析绘制决策边界本章总结机器学习专栏机器学习_Nowl的博客-CSDN博客无监督学习介绍某位著名计算机科学家有句话:“如果智能是蛋糕,无监督学习将是蛋糕本体,有监督学习是蛋糕上的糖霜,
强化学习
是蛋糕上的樱桃
Nowl
·
2023-11-24 16:04
机器学习
机器学习
人工智能
聚类
【MATLAB源码-第87期】基于matlab的Q-learning算法栅格地图路径规划,自主选择起始点和障碍物。
操作环境:MATLAB2022a1、算法描述Q-learning是一种无模型的
强化学习
算法,适用于有限的马尔可夫决策过程(MDP)。
Matlab程序猿
·
2023-11-24 15:45
matlab
开发语言
算法
2020-05-20 图像去噪的超核神经网络结构搜索
由于昂贵的训练过程,大多数用于图像增强的NAS解决方案依赖于
强化学习
或进化算法探索,通常需要数周(甚至数月)的训练。因此,我们引入了一种新的高效的超级核技术实现,它能够快速(6-8
野生小肥猪
·
2023-11-24 14:57
人工智能的入门知识点
分析逻辑:角色分类,特征提取举例:复联4的观影行为分析一点点的购买行为分析图像的特征如何提取关键点:基础知识+逻辑分析人工智能:机器学习(数据到智能)、
强化学习
(搜索到智能)机器学习:监督学习、非监督学习
兔黎
·
2023-11-24 13:11
Deep Reinforcement Learning For Sequence to Sequence Models
这篇论文是一篇综述性质的文章吧,研究了现有的Seq2Seq模型的应用和不足,以及如何通过不同的
强化学习
方法解决不足,写的深入具体,mark一下。本文的顺序是对文章的一个总结,并不是文章真实的组织顺序。
文哥的学习日记
·
2023-11-24 12:21
【伤寒
强化学习
训练】打卡第四十天 一期90天
2.6.2白术&苍术白术肠胃道里面有太多的水代谢不掉,用了茯苓跟白术就能够增加吸收的功能白术:补脾胃、增进消化机能龙骨:是埋在土里面的古代动物的化石,它已经失去它的灵魂在地底下住了几百万年,它每天都在叫:我的灵魂回来吧,我的灵魂回来啊,所以呢你吃下去马上就把它的灵魂抓住术:分成白术跟苍术苍术:苍术的另外一个名字叫赤术,红颜色比较红的是苍术,闻起来有一股很明显的香味白术:闻起来没什么味道,吃起来是苦
A卐炏澬焚
·
2023-11-24 08:13
日新录050:愿望与能力(8)
愿望——能力模型在二象限成员能力提升方面,还可以刻意要求他们
强化学习
。管理者可以结合自己的理论知识和实践经验,在自己擅长的领域对这类人进行指导。
张远娜
·
2023-11-24 08:03
强化学习
基础篇(十六)首次访问蒙特卡洛预测算法在21点游戏的应用
强化学习
基础篇(十六)蒙特卡洛预测算法在21点游戏的应用本节将介绍MonteCarloprediction算法在Blackjack游戏中的进行预测的过程。
Jabes
·
2023-11-24 00:34
OpenAI API Key 接入指南
这个Key像一把钥匙,使用户能够通过程序访问OpenAI提供的一系列人工智能功能,包括自然语言处理(NLP)、深度学习、
强化学习
等。
F2API
·
2023-11-23 19:57
ChatGPT/OpenAI
使用指南
人工智能
2022吴恩达机器学习第3课week3
2022吴恩达机器学习课程学习笔记(第三课第三周)1-1什么是
强化学习
1-2示例:火星探测器1-3
强化学习
的回报1-4决策:
强化学习
中的策略1-5审查关键概念2-1状态-动作价值函数定义2-2状态-动作价值函数示例
天微亮。
·
2023-11-23 19:38
吴恩达机器学习
机器学习
人工智能
算法
[转载]
强化学习
开源框架整理
转载https://zhuanlan.zhihu.com/p/582396276本篇主要是介绍了不同的RL开源工作,包括环境开源工作和算法开源工作,同时关注这些开源工作对于多机多卡并行分布式训练的支持。算法框架baselines-openaigithub:https://github.com/openai/baselines多机多卡:不支持OpenAIBaselines是OpenAI的一组高质量R
wp133716
·
2023-11-23 10:41
强化学习
人工智能
【NLP】培训LLM的不同方式
在本文中,我想概述一些最重要的训练机制,包括预训练、微调、人类反馈
强化学习
(RLHF)和适配器。
Sonhhxg_柒
·
2023-11-23 10:49
人工智能(AI)
自然语言处理(NLP)
LLMs(大型语言模型)
自然语言处理
人工智能
深度学习
Anthropic LLM论文阅读笔记
将
强化学习
用于大语言模型(RLHF):发现这种方法可以提升几乎在所有NLP任务上的性能。随着参数的增加,效果也越来越好。
北岛寒沫
·
2023-11-23 04:01
NLP论文阅读
论文阅读
笔记
人工智能
人工智能对科学发展的影响
人工智能的发展历经了几个阶段,从早期的符号主义,到后来的连接主义,再到现在的深度学习和
强化学习
,人工智能不断地突破自身的局限,拓展自身的能力,探索自身的可能性。
人机与认知实验室
·
2023-11-23 04:05
人工智能
剖析
强化学习
- 第二部分
作者:MassimilianoPatacchiola欢迎来到剖析
强化学习
系列的第二部分。如果您顺利完成了第一部分,那么恭喜!您学会了
强化学习
的基础,即动态编程方法。
wilbertzhou
·
2023-11-23 01:49
人工智能
强化学习
Monte
Carlo
如何用gym创建
强化学习
环境 - 持续更新中
在
强化学习
中环境(environment)是与agent进行交互的重要部分,虽然OpenAIgym中有提供多种的环境,但是有时我们需要自己创建训练用的环境。
我是弱渣
·
2023-11-23 01:49
强化学习
Python
强化学习
openal
人工智能
python
【
强化学习
】使用近似方法的on-policy预测
目录Value-function逼近预测目标(VE‾)(\overline{VE})(VE)SGD和semi-SGD线性方法线性方法的特征构造多项式基(PolynomialBasis)傅里叶基一维状态n阶傅里叶cos基k维状态n阶傅里叶基粗编码瓦片编码径向基函数手动选择步长参数非线性函数逼近:人工神经网络最小二乘时序差分基于记忆的函数逼近参数方法和非参数方法基于记忆的函数逼近近邻方法最近邻方法(n
sword_csdn
·
2023-11-23 01:48
机器学习
机器学习
人工智能
PPO算法(附pytorch代码)
(3)GAE(GeneralizedAdvantageEstimation)三、代码代码解析:一、PPO算法(1)简介PPO算法是一种
强化学习
中的策略梯度方法,它的全称是ProximalPolicyOptimization
还有你Y
·
2023-11-23 01:17
机器学习
深度学习
强化学习
算法
机器学习
人工智能
【更新中…】
强化学习
-MDP_学习笔记
强化学习
-MDP1概念介绍1.1RandomVariable·随机变量1.2StochasticProcess·随机过程1.3MarkovChain/Process·马尔可夫链/过程1.4StateSpaceModel
dreautumn
·
2023-11-23 01:15
机器学习
《
强化学习
周刊》第58期:RFQI、DRL-DBSCAN&广义
强化学习
No.58智源社区
强化学习
组
强化学习
研究观点资源活动周刊订阅告诉大家一个好消息,《
强化学习
周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《
强化学习
周刊》。
智源社区
·
2023-11-23 01:14
算法
大数据
编程语言
python
机器学习
强化学习
--多维动作状态空间的设计
目录一、离散动作二、连续动作1、例子12、知乎给出的示例2、github里面的代码免责声明:以下代码部分来自网络,部分来自ChatGPT,部分来自个人的理解。如有其他观点,欢迎讨论!一、离散动作注意:本文均以PPO算法为例。#time:2023/11/2221:04#author:YanJPimporttorchimporttorchimporttorch.nnasnnfromtorch.dist
还有你Y
·
2023-11-23 01:13
机器学习
深度学习
强化学习
人工智能
python
算法
机器学习
机器学习——周志华_笔记
机器学习——周志华_笔记机器学习——周志华_笔记机器学习——周志华_笔记神经网络介绍支持向量机SVM介绍贝叶斯分类器EM算法集成学习聚类降维与度量学习特征选择与稀疏学习计算学习理论半监督学习概率图模型
强化学习
神经网络介绍神经网络介绍
Pandy Bright
·
2023-11-23 00:44
机器学习
笔记
人工智能
学习
神经网络
支持向量机
深度学习
强化学习
——基于机器学习_周志华
上篇主要介绍了概率图模型,首先从生成式模型与判别式模型的定义出发,引出了概率图模型的基本概念,即利用图结构来表达变量之间的依赖关系;接着分别介绍了隐马尔可夫模型、马尔可夫随机场、条件随机场、精确推断方法以及LDA话题模型:HMM主要围绕着评估/解码/学习这三个实际问题展开论述;MRF基于团和势函数的概念来定义联合概率分布;CRF引入两种特征函数对状态序列进行评价打分;变量消去与信念传播在给定联合概
Pandy Bright
·
2023-11-23 00:14
机器学习
人工智能
支持向量机
神经网络
深度学习
算法
【
强化学习
】ICLR 2020
强化学习
相关论文与会议slides分享
作者:王小惟知乎链接:https://zhuanlan.zhihu.com/p/137515707本文仅作学术分享,若侵权,请联系后台删文处理(长文来袭,建议做
强化学习
研究的朋友们,先收藏然后再仔细阅读
深度学习技术前沿
·
2023-11-23 00:58
【重磅】ICLR2020 || 106篇深度
强化学习
顶会论文汇总
关注:决策智能与机器学习,深耕AI脱水干货来源|EndtoEnd.ai作者|DeepRL报道|深度
强化学习
实验室编辑|九三山人【导读】今年的ICLR大会转到了线上举行,DeepMind和哈佛的研究人员投稿了一篇神经网络控制虚拟小白鼠模的论文十分亮眼
九三智能控v
·
2023-11-23 00:27
LLM-2022:InstructGPT【GPT3-(问题和答案拼成一段对话,使用这些对话微调GPT3)->SFT(监督微调)-(SFT的答案排序后的数据集上再训练)->RM->RL(
强化学习
)】
一、前言GPT系列是OpenAI的一系列预训练文章,GPT的全称是GenerativePre-TrainedTransformer,顾名思义,GPT的目的就是通过Transformer为基础模型,使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1,GPT-2,GPT-3,以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的ChatGPT和今年年初公
u013250861
·
2023-11-22 22:34
#
LLM/经典模型
语言模型
梯度引导的分子生成扩散模型- GaUDI 评测
原文链接:GuidedDiffusionforInverseMolecularDesign|MaterialsChemistry|ChemRxiv|CambridgeOpenEngageGaUDI模型有点像
强化学习
wufeil
·
2023-11-22 15:50
深度学习
药物设计
人工智能
Talk | CoRL‘23 最佳系统论文奖入围,庄子文:用深度
强化学习
让机器狗学会跑酷
他与大家分享的主题是:“用深度
强化学习
让机器狗学会跑酷”,系统地介绍了他的团队在基于
强化学习
算法和软动力学约束让四足机器人的运动能力远超传统移动机器人的算法所做的一系列研究成果。
TechBeat人工智能社区
·
2023-11-22 13:56
每周Talk上架
机器人
机器人极限运动
深度强化学习
深入理解
强化学习
——马尔可夫决策过程:策略
分类目录:《深入理解
强化学习
》总目录智能体的策略(Policy)通常用字母π\piπ表示。
von Neumann
·
2023-11-22 12:00
深入理解强化学习
人工智能
强化学习
深度强化学习
马尔可夫决策过程
马尔可夫过程
马尔可夫奖励过程
马尔科夫决策过程
强化学习
—— 广义优势估计GAE
用δt=rt+γV(st+1)−V(st)\delta_t=r_t+\gammaV(s_{t+1})-V(s_t)δt=rt+γV(st+1)−V(st)表示时序差分误差,公式中的VVV表示一个已经学习的状态价值函数,根据多步时序差分的思想,有:At(1)=δt=−V(st)+rt+γV(st+1)At(2)=δt+γδt+1=−V(st)+rt+γrt+1+γ2V(st+2)At(3)=δt+γ
然后就去远行吧
·
2023-11-22 02:37
强化学习
深度学习
机器学习
强化学习
小笔记 —— 从 Normal 正态分布的对数概率密度到 tanh-Normal的对数概率密度
在学习SAC算法用于连续动作的代码时,遇到了一个不懂的地方,如下代码所示:#pytorchclassPolicyNetContinuous(torch.nn.Module):def__init__(self,state_dim,hidden_dim,action_dim,action_bound):super(PolicyNetContinuous,self).__init__()self.fc1
然后就去远行吧
·
2023-11-22 02:37
笔记
深度学习
经验分享
深度学习基础
深度
强化学习
教程链接DataWhale
强化学习
课程JoyRLhttps://johnjim0816.com/joyrl-book/#/ch7/main深度学习基础
强化学习
的问题可以拆分成两类问题,即预测与控制
数分虐我千百遍
·
2023-11-22 01:04
深度学习
人工智能
学习神经网络模型,用不用学习原理?还是只会用就行了
先来系统概述机器学习,如下述思维导图机器学习下分几种学习方法:如,监督学习、无监督学习、
强化学习
、深度学习,其中深度学习通过神经网络模型实现,常用的有CNN、RNN、LSTM回到问题,学习神经网络模型,
Nubia00
·
2023-11-21 14:12
神经网络
学习
深度学习
基于MINST数据集做分类的机器学习项目
TensorFlow自定义模型和训练使用TensorFlow加载和预处理数据使用卷积神经网络的深度计算机视觉使用RNN和CNN处理序列使用RNN和注意力机制进行自然语言处理使用自动编码器和GAN的表征学习和生成学习
强化学习
大规模训练和部署
问题很多de流星
·
2023-11-21 12:51
分类
深度学习
大语言模型的三阶段训练
为了训练专有领域模型,选择LLaMA2-7B作为基座模型,由于LLaMA模型中文词表有限,因此首先进行中文词表的扩展,然后进行三阶段训练(增量预训练,有监督微调,
强化学习
)。
hj_caas
·
2023-11-21 12:53
领域模型三阶段训练
语言模型
人工智能
自然语言处理
亲子时间管理打卡1
打卡日期:2019年/3月/4日30天打卡累计天数:1/30今日音频要点:曹微做个自律健康有序的人,与孩子建立亲子时间管理的生活方式,每天学一点点亲子时间管理,学以致用,
强化学习
,生命才得已重塑,颠覆性的成长
艺沫格兰尚美
·
2023-11-21 08:04
大模型LLM相关面试题整理
强化学习
:(ReinforcementLearning)一种机器学习的方法,
zhurui_xiaozhuzaizai
·
2023-11-21 03:40
自然语言处理
深度学习
人工智能
基于PPO自定义highway-env场景的车辆换道决策
1.场景描述如下图所示,自车(蓝车)与前车(白车)在同一车道行驶,自车初速度为27m/s,前车以22m/s的速度匀速行驶,两车相距80m:目标:自车通过换道,超越前车2.代码实现这里的
强化学习
采用的是基于
Colin_Fang
·
2023-11-21 01:40
深度学习
人工智能
pytorch
从性到商业社会,你的愉悦真的来自快感吗?
多巴胺有三个认知功能,运动控制、行为选择和
强化学习
,目的是为了得到奖励。奖励就是多巴胺的主要作用,呈现方式是愉悦感,而人们为了获得愉悦感,会采取行动。但这种愉悦感会随着
摄影树洞萌萌
·
2023-11-21 01:53
【
强化学习
】决策优化问题与Gymnasium环境
强化学习
-1老虎机与优化策略老虎机大家应该都玩过看到连成一条线的时候再摁下去,它其实是连不上的,要赢得游戏需要一些策略。
Hellespontus
·
2023-11-21 00:44
强化学习
人工智能
AIGC
自动驾驶
Python实现游戏人工智能与机器学习
本文将介绍Python在游戏人工智能与机器学习方面的应用,主要涉及以下几个方面:游戏AI基础知识游戏AI示例:独立行动游戏(IndependentActionGame,IAG)监督学习与无监督学习遗传算法
强化学习
深度学习二
心梓知识
·
2023-11-21 00:50
人工智能
python
游戏
【Python百宝箱】探索数据科学的瑞士军刀:Python机器学习库大揭秘
文章目录数据魔法:用
强化学习
和模型解释揭示隐藏的信息1.机器学习基础库1.1**`scik
friklogff
·
2023-11-20 19:16
python
机器学习
开发语言
文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于深度
强化学习
的园区综合能源系统低碳经济调度》
这个标题涉及到基于深度
强化学习
的园区综合能源系统低碳经济调度。让我们逐步解读一下:1.园区综合能源系统:指的是一个区域内综合利用多种能源的系统,可能包括电力、热能、风能、太阳能等。
电网论文源程序
·
2023-11-20 18:04
文章解读
能源
分布式
跨界黑科技:HuggingGPT如何颠覆AI领域?
通过基于人类反馈的
强化学习
(RLHF)和大规模预训练文本库,LLM可以提供更强大的语言理解、生成、交互和推理能力。
THU智能魔术师
·
2023-11-20 12:10
人工智能
人工智能
科技
chatgpt
深度学习
机器学习
强化学习
输入数据归一化(标准化)
对于
强化学习
,其输入数据一般是指状态以及动作。
Coder_Jh
·
2023-11-20 11:05
计算机视觉
人工智能
算法
生成式大模型的RLHF技术(一):基础
因此,将LLMs与人类价值观(如helpful,honest,和harmless,即3H)对齐是非常重要的,目前采用的主流的技术即是基于人类反馈的
强化学习
技术(RLHF)。通常来说,RLHF包
酷酷的群
·
2023-11-20 09:15
人工智能
深度学习
机器学习
算法
计算机视觉
强化学习
和生成对抗网络
1.
强化学习
的定义
强化学习
(reinforcementlearning)是机器学习的一个重要分支,是一门多领域交叉学科,它的本质是自行解决决策问题,并且能进行连续决策。
鹿衔草啊
·
2023-11-20 01:26
生成对抗网络
人工智能
神经网络
大语言模型的三阶段训练
为了训练专有领域模型,选择LLaMA2-7B作为基座模型,由于LLaMA模型中文词表有限,因此首先进行中文词表的扩展,然后进行三阶段训练(增量预训练,有监督微调,
强化学习
)。
hj_caas
·
2023-11-20 01:22
LLM
语言模型
人工智能
自然语言处理
强化学习
中的Transformer发展到哪一步了?清北联合发布TransformRL综述
©作者|WenzheLi等来源|机器之心
强化学习
(RL)为顺序决策提供了一种数学形式,深度
强化学习
(DRL)近年来也取得巨大进展。然而,样本效率问题阻碍了在现实世界中广泛应用深度
强化学习
方法。
PaperWeekly
·
2023-11-19 19:05
transformer
深度学习
自然语言处理
神经网络
人工智能
【
强化学习
】DQN及其变体网络的原理讲解和代码实现
DQN网络及其变体的实现一、DQN网络原理回顾DQN采用经验回放和固定的Q-targets根据**ϵ−greedy\epsilon-greedyϵ−greedy**执行行为ata_tat将经验以(st,at,rt+1,st+1)(s_t,a_t,r_{t+1},s_{t+1})(st,at,rt+1,st+1)的形式存储到replaymemoryD将D中随机抽样一个mini-batch的经验(s,
Henry_Zhao10
·
2023-11-19 19:03
强化学习
深度学习
算法
机器学习
上一页
15
16
17
18
19
20
21
22
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他