E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
强化学习R&R
【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法
BeautifulPrompt通过对低质量和高质量的提示进行微调,并进一步提出了一种基于
强化学习
和视觉信号反馈的技术,以最大化生成提示的奖励值。论文:Tingfen
阿里云大数据AI技术
·
2023-12-15 06:40
stable
diffusion
prompt
算法
LLM之Prompt(三)| XoT:使用
强化学习
和蒙特卡罗树搜索将外部知识注入Prompt中,性能超过CoT,ToT和GoT
论文地址:https://arxiv.org/pdf/2311.04254.pdf一、当前Prompt技术的局限性LLM使用自然语言Prompt可以将复杂的问题分解为更易于管理的“thought”可以回复用户的问题。然而,大多数现有的Prompt技术都有局限性:输入输出(IO)Prompt:仅适用于具有单步解决方案的简单问题,它缺乏灵活性;思维链(CoT):能够解决多步问题,但仅限于线性思维结构,
wshzd
·
2023-12-15 05:16
ChatGPT
笔记
prompt
7天《阅读行动营》学习打卡
不但能
强化学习
的效果,同时能够将学习到的知识迁移实践运用,从而达到个人的不断提升。3.开拓创新思维,一个故事在一千个场合,讲成一千个故事是一种了不起的能力。
内外丰盛的真真
·
2023-12-15 02:35
论文精读与思考:深度
强化学习
的组合优化研究进展
论文基本信息作者:李凯文、张涛、王锐等作者单位:国防科技大学期刊:自动化学报时间:2021年11月组合优化问题链接:基于深度
强化学习
的组合优化研究进展(aas.net.cn)1组合优化问题概述1.1定义一类在离散状态下求极值的最优化问题
灰灰嗷
·
2023-12-14 23:47
【深度学习】
强化学习
(一)
强化学习
定义
文章目录一、
强化学习
问题1、交互的对象1.智能体(Agent)2.环境(Environment)2、
强化学习
的基本要素1.状态2.动作3.策略(|)4.状态转移概率(′|,)5.即时奖励(,,′)3、策略
QomolangmaH
·
2023-12-14 19:11
深度学习
深度学习
人工智能
强化学习
机器学习
学习
强化学习
术语
episodictasks情节性任务,指会在有限步骤下结束continuingtasks连续性任务,指有无限步骤episode情节,指从起始状态(或者当前状态)到结束的所有步骤tabularmethod列表方法,指使用了数组或者表格存储每个状态(或者状态-行动)的信息(比如:其价值)approximationmethods近似方法,指用一个函数来计算状态(或者状态-行动)的价值model环境的模型
小赛TT
·
2023-12-14 18:20
论文阅读_反思模型_Reflexion
英文名称:Reflexion:LanguageAgentswithVerbalReinforcementLearning中文名称:反思:具有言语
强化学习
的语言智能体文章:http://arxiv.org
xieyan0811
·
2023-12-14 18:28
论文阅读
论文阅读
只有27亿参数,性能却高25倍!微软发布Phi-2
值得一提的是,Phi-2没有进行过RLHF(人类反馈
强化学习
)和指令微调只是一个基础模型,但在
richerg85
·
2023-12-14 17:45
microsoft
人工智能
aigc
基于SUMO和
强化学习
的交通优化
本文旨在解释
强化学习
方法如何通过TraCl与SUMO配合使用,以及这如何有利于城市交通管理和自动驾驶车辆的路径优化。
新缸中之脑
·
2023-12-06 08:09
仿真
普通策略梯度算法原理及PyTorch实现【VPG】
有没有想过
强化学习
(RL)是如何工作的?在本文中,我们将从头开始构建最简单的
强化学习
形式之一—普通策略梯度(VPG)算法。
新缸中之脑
·
2023-12-06 08:39
人工智能
加州大学伯克利分校研究人员推出Starling-7B:一款通过人工智能反馈
强化学习
(RLAIF)训练的开源大型语言模型(LLM)
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行!订阅:https://rengongzhineng.io/人工智能大型语言模型(LLM)在自然语言处理任务中扮演着重要角色。这些模型通过大量数据集
新加坡内哥谈技术
·
2023-12-06 07:56
人工智能
语言模型
自然语言处理
机器学习
AGI = 大模型 + 知识图谱 +
强化学习
一、大模型(LargeModels)定义:大模型通常指的是参数数量庞大的机器学习模型,特别是深度学习模型。这些模型在训练时需要大量的计算资源和数据。例如,GPT-3(GenerativePre-trainedTransformer3)是一个大型的自然语言处理模型,拥有数十亿的参数。特点:大模型的特点包括对大规模数据进行训练,具有强大的泛化能力,可以在各种任务上取得良好的性能。在机器学习和深度学习领
summer_west_fish
·
2023-12-06 06:13
人工智能
agi
知识图谱
人工智能
强化学习
-赵世钰(三):贝尔曼最优方程【Bellman Optimal Equation】【贝尔曼最优方程符合收缩映射理论-->可通过迭代法求解最优State Values-->得到最优策略】
强化学习
的目的是寻找最优策略。
u013250861
·
2023-12-06 06:26
RL/强化学习
强化学习
强化学习
-赵世钰(一):基本概念【state、action、state transition、policy、reward、return、trajectories、episode、Markov】
1.1AgridworldexampleConsideranexampleasshowninFigure1.2,wherearobotmovesinagridworld.Therobot,calledagent,canmoveacrossadjacentcellsinthegrid.Ateachtimestep,itcanonlyoccupyasinglecell.Thewhitecellsare
u013250861
·
2023-12-06 06:26
RL/强化学习
强化学习
强化学习
-赵世钰(二):贝尔曼/Bellman方程【用于计算给定π下的State Value:①线性方程组法、②迭代法】、Action Value【根据状态值求解得到;用来评价action优劣】
StateValue:theaverageReturnthatanagentcanobtainifitfollowsagivenpolicy/π【给定一个policy/π,所有可能的trajectorys得到的所有return的平均值/期望值:vπ(s)≐E[Gt∣St=s]v_\pi(s)\doteq\mathbb{E}[G_t|S_t=s]vπ(s)≐E[Gt∣St=s]】.Return:th
u013250861
·
2023-12-06 06:26
RL/强化学习
强化学习
张同斌 考研数学 如何利用暑期黄金时间,安排好考研数学第一轮强化?
如何做好考研数学的第一波
强化学习
呢?
文都考神干货
·
2023-12-06 05:07
状态空间的定义
在系统理论、控制论、计算机科学、
强化学习
等领域,状态空间是一种常见的概念。状态空间框架是一种用于描述和分析系统的方法,它包括系统的状态、状态之间的转移关系以及与状态相关的行为。
summer_west_fish
·
2023-12-06 02:56
人工智能
状态空间
RLHF:
强化学习
结合大预言模型的训练方式
RLHF(ReinforcementLearningfromHumanFeedback)以
强化学习
方式依据人类反馈优化语言模型。
_刘文凯_
·
2023-12-05 17:08
深度学习
人工智能
一文搞懂 chatGPT 原理
pretrain)GPT-3概述GPT3模型的理念GPT-3如何学习数据集指令微调(InstructionFine-Tuning,IFT)有监督微调(SupervisedFine-tuning,SFT)人类反馈
强化学习
Python算法实战
·
2023-12-05 11:34
大模型理论与实战
大模型
chatgpt
大模型
人工智能
算法
python
人工智能算法
人工智能算法包括以下几类:机器学习算法:这些算法利用数据和统计技术让计算机学习并改善其性能,包括监督学习、无监督学习和
强化学习
。
不爱吃香菇的干饭少年
·
2023-12-05 06:16
cuda
人工智能
算法
强化学习
算法TRPO的理解
角度一:off-policy通常在
强化学习
策略梯度训练中,智能体每跟环境做一次完整的交互得到一条蒙特卡洛采样轨迹,策略网络的
北山杉林
·
2023-12-05 03:15
算法
人工智能
强化学习
强化学习
Markov重要公式推导过程
Markov决策过程(MarkovDecisionProcess,MDP)Markov过程是一种用于描述决策问题的数学框架,是
强化学习
的基础。
幻影123!
·
2023-12-05 00:02
强化学习
人工智能
马尔科夫
决策过程
强化学习
条件概率
复杂概率分解
基础数学
深入理解
强化学习
——马尔可夫决策过程:蒙特卡洛方法-[基础知识]
分类目录:《深入理解
强化学习
》总目录蒙特卡洛方法(Monte-CarloMethods)也被称为统计模拟方法,是一种基于概率统计的数值计算方法。
von Neumann
·
2023-12-04 22:25
深入理解强化学习
人工智能
强化学习
深度强化学习
马尔可夫决策过程
蒙特卡洛方法
马尔科夫决策过程
马尔可夫过程
Pytorch深度
强化学习
1-5:详解蒙特卡洛
强化学习
原理
目录0专栏介绍1蒙特卡洛
强化学习
2策略评估原理3策略改进原理3.1同轨蒙特卡洛
强化学习
3.2离轨蒙特卡洛
强化学习
0专栏介绍本专栏重点介绍
强化学习
技术的数学原理,并且采用Pytorch框架对常见的
强化学习
算法
Mr.Winter`
·
2023-12-04 15:54
Pytorch深度学习实战
pytorch
人工智能
python
机器学习
深度学习
机器人
强化学习
------贝尔曼方程
回报(Return)折扣回报(DiscountedReturn)StateValue(状态价值函数)贝尔曼方程的推导贝尔曼方程的矩阵形式ActionValue(动作价值函数)贝尔曼最优公式前言最近在学习
强化学习
的内容
韭菜盖饭
·
2023-12-04 15:42
强化学习
自然语言处理
强化学习·
强化学习
------时序差分(Temporal-Difference Learning)
简介时序差分方法(Temporal-DifferenceLearning)简称TD算法是
强化学习
中非常经典的一种方法,Sarsa算法和Q-learning算法都是基于时序差分这种方法的。
韭菜盖饭
·
2023-12-04 15:38
强化学习
强化学习·
自然语言处理
python
算法
全球大模型发展整体态势,暗流涌动下的机遇
在技术层面上,大模型的实现采用“预训练+指令微调+人类反馈的
强化学习
”的训练范式。
BFT白芙堂
·
2023-12-04 12:36
人工智能
科技技术
上游任务和下游任务
起源多任务学习中的定义理解结合定义分析例子示例1:计算机视觉示例2:自然语言处理示例3:语音处理示例4:
强化学习
总结起源"上游任务"和"下游任务"这两个术语在深度学习领域中通常用来描述一种多任务学习的框架
一杯水果茶!
·
2023-12-04 08:36
视觉与网络
上游任务
下游任务
计算机视觉
深度学习
多任务学习
ChatGPT的总体技术路线
采用自然语言处理+搜索引擎集成的架构,构建GPT3.5+大型语言模型(LLM)+
强化学习
微调训练模型(RLHF),通过连接大量的语料库,在效果强大、基于自注意力机制的GPT3.5架构的大型语言模型(LLM
AIGC方案
·
2023-12-04 07:55
chatgpt
深度学习
人工智能
【 ChatGPT作者LilianWeng博客总结】智能体=LLM(大语言模型)+记忆+规划技巧+工具使用...
来源:深度
强化学习
实验室 Lii’Log的博客https://lilianweng.github.io/posts/2023-06-23-agent/本文约7500字,建议阅读15分钟LLM的潜力不仅仅限于生成写得好的副本
数据派THU
·
2023-12-04 07:21
chatgpt
语言模型
python
人工智能
自然语言处理
【个人笔记】-python-
强化学习
-类-在内存中的值
{int}数值{int}200{float}数值{float}0.9{narray:维度}数值{narray:(1,)}[2.]{bool}True{bool}False{类名}对象1{类名}对象2
资源存储库
·
2023-12-03 23:08
笔记
强化学习
中的 AC(Actor-Critic)、A2C(Advantage Actor-Critic)和A3C(Asynchronous Advantage Actor-Critic)算法
文章目录AC算法A2C算法A3C算法AC算法AC(Actor-Critic)算法是
强化学习
中的一种基本方法,它结合了策略梯度方法和价值函数方法的优点。
智能建造小硕
·
2023-12-03 22:54
强化学习
强化学习
深度学习
A2C
A3C
【《伤寒论》
强化学习
训练】打卡第3天,一期目标90天
2021年1月3日学习《少阴不可汗》学习总结:1.少阴病的人,手脚冰冷,且没有汗,硬要发汗的话,血会很被动,四肢冰凉的人血到不了末梢,再用汗法,人的血都会受伤,就像牙龈出血就要用附子剂才能够收拾,但不是发汗,出血了就用止血凉血。而且要看这个人是什么体质,要用阳药为主,就像经方就用桂枝救逆汤。2.一个人忽然之间狂咳嗽、拉肚子,谵语,寒热满分,这是一个标准的真武汤证,用真武汤就是治疗心衰竭和肾衰竭造成
最闪亮的那颗星_b02d
·
2023-12-03 20:21
强化学习
(一)——基本概念及DQN
1基本概念智能体agent,做动作的主体,(大模型中的AIagent)环境environment:与智能体交互的对象状态state;当前所处状态,如围棋棋局动作action:执行的动作,如围棋可落子点奖励reward:执行当前动作得到的奖励,(大模型中的奖励模型)策略policy:π(a∣s)\pi(a|s)π(a∣s)当前状态如何选择action,如当前棋局,落子每个点的策略回报(累计奖励)re
晚点吧
·
2023-12-03 06:33
强化学习
强化学习
DQN
DDQN
RL
【20230416】
老师又在讲深度学习和
强化学习
强化学习
强化学习
做的事情策略今日任务完成任务下周党课课表论文阅读论文标题论文作者Introduction图形模型和结果No-promisespeedTwo-daypromisespeedOne-daypromisespeed
limuqing_134
·
2023-12-03 04:39
笔记
强化学习
简明教程
到目前为止,我们主要关注监督学习问题(主要是分类)。在监督学习中,我们得到某种由输入/输出对组成的训练数据,目标是能够在学习模型后根据一些新输入来预测输出。例如,我们之前研究过MNIST的卷积神经网络(CNN)分类模型;给定60000个数字图像和相应数字标签(例如“5”)的训练集,我们学习了一个能够预测新MNIST图像的数字标签的模型。换句话说,类似于(但不完全是)这样的东西:NSDT工具推荐:T
新缸中之脑
·
2023-12-03 01:34
机器学习
人工智能
DQN原理及PyTorch实现【
强化学习
】
NSDT工具推荐:Three.jsAI纹理开发包-YOLO合成数据生成器-GLTF/GLB在线编辑-3D模型格式在线转换-可编程3D场景编辑器-REVIT导出3D模型插件-3D模型语义搜索引擎欢迎来到我们的
强化学习
系列的第三部分
新缸中之脑
·
2023-12-03 01:34
强化学习
强化学习
Q-Learning算法和简单迷宫代码
使用到的符号:agent代理reward奖励state(s)状态action(a)行为Rreward矩阵Q矩阵:表示从经验中学到的知识episode:表示初始→目标一整个流程贝尔曼方程(迭代公式):Q(s,a)←Q(s,a)+α[R(s,a)+γmaxa′Q(s′,a′)−Q(s,a)]Q(s,a)\leftarrowQ(s,a)+\alpha[R(s,a)+\gamma\mathop{\max
今我来思雨霏霏_JYF
·
2023-12-03 01:33
强化学习
算法
强化学习
Q-Learning
机械臂运动规划、抓取末端执行器、抓取开源项目
主要有三种方法,如传统的基于DMP的方法、模仿学习的方法和基于
强化学习
的方法。基于DMP的方法:主要包括DMP算法。形式化为稳定的非线性吸引子系统。基于模仿学习的方法:
cocapop
·
2023-12-02 17:35
机器人
机器人
[PyTorch][chapter 1][李宏毅深度学习-AI 简介]
前言:李宏毅深度学习从2017-2023的系列课程总结内容章节
强化学习
11李宏毅机器学习【2017】40李宏毅机器学习深度学习(完整版)国语【2020】119李宏毅大佬的深度学习与机器学【2022】90
明朝百晓生
·
2023-12-02 10:07
深度学习
pytorch
人工智能
强化学习
:原理与Python实战||一分钟秒懂人工智能对齐
文章目录1.什么是人工智能对齐2.为什么要研究人工智能对齐3.人工智能对齐的常见方法延伸阅读1.什么是人工智能对齐人工智能对齐(AIAlignment)指让人工智能的行为符合人的意图和价值观。人工智能系统可能会出现“不对齐”(misalign)的问题。以ChatGPT这样的问答系统为例,ChatGPT的回答可能会含有危害祖国统一、侮辱先烈、丑化中华民族、教唆暴力、出口成“脏”等违法或不符合社会主义
雪碧有白泡泡
·
2023-12-02 10:56
粉丝福利活动
python
人工智能
开发语言
ethz(苏黎世联邦理工学院)机器人系统实验室开源库
系列文章目录文章目录系列文章目录前言一、开源库1.1OCS2-OptimalControlforSwitchedSystems1.2RSLGym-
强化学习
框架1.3ELMOEthercatSDK1.4Kindr
kuan_li_lyg
·
2023-12-02 10:38
机器人
自动驾驶
ROS
开源软件
MATLAB
四足机器人
人工智能
深度学习实战62-
强化学习
在简单游戏领域的应用,利用
强化学习
训练Agent程序的代码和步骤
大家好,我是微学AI,今天给大家介绍一下深度学习实战62-
强化学习
在简单游戏领域的应用,利用
强化学习
训练Agent程序的代码和步骤。本文介绍了如何利用
强化学习
构建智能体程序,而无需使用启发式算法。
微学AI
·
2023-12-02 00:03
深度学习实战(进阶)
深度学习
游戏
人工智能
智能体
强化学习
【论文阅读】1 SkyChain:一个深度
强化学习
的动态区块链分片系统
SkyChain一、文献简介二、引言及重要信息2.1研究背景2.2研究目的和意义2.3文献的创新点三、研究内容3.1模型3.2自适应分类账协议3.2.1状态块创建3.2.2合并过程3.2.3拆分过程3.3评价框架3.3.1性能3.3.1.1共识延迟3.3.1.2重新分片延迟3.3.1.3处理事务数3.3.1.4约束3.3.2安全性3.3.3问题介绍四、基于DRL的动态分片框架4.1模型设计4.2训
Camina hacia ti
·
2023-12-01 20:17
论文阅读
区块链
《如何高效记忆》- 如何记住几乎所有东西:更多基本原则
从而超出刚好掌握或单纯记忆的程度,这已经被证明能有效的
强化学习
和提高
MrTrying
·
2023-12-01 15:10
文章解读与仿真程序复现思路——电力系统保护与控制EI\CSCD\北大核心《基于深度
强化学习
的城市配电网多级动态重构优化运行方法》
这个标题涉及到城市配电网(UrbanPowerDistributionNetwork)的优化运行方法,其中使用了深度
强化学习
(DeepReinforcementLearning)技术,并且特别强调了多级动态重构
电网论文源程序
·
2023-12-01 09:47
文章解读
重构
电网
能源
规划
配电网重构
重温
强化学习
之策略梯度算法
1、介绍这里仍考虑无模型的方法:策略是从值函数中导出的,使用贪婪的方法导出最优策略,使用e贪婪策略导出行为策略,直接参数化策略考虑之前
强化学习
分类:基于值函数的方法:学习值函数、用值函数导出策略基于策略的方法
BUPT-WT
·
2023-12-01 01:10
强化学习
DDPG深度确定性策略梯度算法概述
目录1.Critic网络2.Actor网络3.主要技巧4.补充说明DDPG(DeepDeterministicPolicyGradient)是连续控制领域的经典
强化学习
算法,是结合PG和DQN的一种off-policy
北极与幽蓝
·
2023-12-01 01:10
强化学习
强化学习
DDPG
深度
强化学习
-策略梯度算法深入理解
1引言在深度
强化学习
-策略梯度算法推导博文中,采用了两种方法推导策略梯度算法,并给出了Reinforce算法的伪代码。
indigo love
·
2023-12-01 01:40
深度强化学习
算法
机器学习
强化学习
人工智能
表格型方法
表格型方法概念
强化学习
是一个与时间相关的序列决策的问题。概率函数与奖励函数概率函数定量地表达状态转移的概率,其可以表现环境的随机性。
数分虐我千百遍
·
2023-12-01 01:38
深度学习
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他