E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
ReinForcement
强化学习AI构建实战 - 基于“黄金点”游戏(一)
简介强化学习(
Reinforcement
Learning)是机器学习的一种重要技术。本文首先简要介绍了强化学习的概念及思路,然后以Q-Learning算法为例介绍了如何进行训练。
人工智能MOS
·
2024-01-16 19:33
人工智能
游戏
机器学习
深度学习
ChatGPT提示词工程进阶
两种大型语言模型基础大模型(BaseLLM)基于训练数据预测下文指令调优大模型(InstructionTunedLLM)尝试听从指令基于基础大模型,进一步使用指令内容输入+遵循指令内容输出来训练和微调模型RLHF(
Reinforcement
LearningwithHumanFeedback
lichunericli
·
2024-01-15 09:11
ChatGPT
人工智能
chatgpt
prompt
NLP论文阅读记录 - 2021 | WOS 使用深度强化学习及其他技术进行自动文本摘要
自动文本摘要三.本文方法四实验效果4.1数据集4.2对比模型4.3实施细节4.4评估指标4.5实验结果4.6细粒度分析五总结思考前言AutomaticTextSummarizationUsingDeep
Reinforcement
Le
yuyuyu_xxx
·
2024-01-15 02:57
NLP
自然语言处理
论文阅读
人工智能
论文阅读06-Task Offloading Optimization in Mobile Edge Computing based on Deep
Reinforcement
Learning
标题:TaskOffloadingOptimizationinMobileEdgeComputingbasedonDeep
Reinforcement
Learning会议:MSWiM’23(CCF-C)注
梦灯
·
2024-01-13 13:07
论文
论文阅读
计算卸载论文阅读01-理论梳理
标题:WhenLearningJoinsEdge:Real-timeProportionalComputationOffloadingviaDeep
Reinforcement
Learning会议:ICPADS2019
梦灯
·
2024-01-13 13:06
人工智能
论文
论文阅读
算法
信息与通信
机器学习和深度学习检测网络安全课题:DDOS检测、恶意软件、恶意流量检测课题资料
DDoS攻击基于谱分析与统计机器学习的DDoS攻击检测技术研究基于机器学习的分布式拒绝服务攻击检测方法研究DDoSAttacksUsingHiddenMarkovModelsandCooperative
Reinforcement
Learning
三更科技公社
·
2024-01-13 09:41
机器学习
深度学习
web安全
【AI视野·今日Robot 机器人论文速览 第七十二期】Mon, 8 Jan 2024
AI视野·今日CS.Robotics机器人学论文速览Mon,8Jan2024Totally13papers上期速览✈更多精彩请移步主页DailyRoboticsPapersDeep
Reinforcement
LearningforLocalPathFollowingofanAutonomousFormulaSAEVehicleAuthorsHarveyMerton
hitrjj
·
2024-01-12 06:39
机器人
触觉
Papers
机器人
抓取
无人驾驶
触觉
SLAM
建模
怎样理解ABA中的Automatic
Reinforcement
自动强化
"Automatic
reinforcement
is
reinforcement
thatisnotmediatedbythedeliberateactionofanotherperson."
儿童言语治疗路老师
·
2024-01-10 16:15
论文阅读-基于深度强化学习的方法解决多智能体防御和攻击问题
论文原题目:Adeep
reinforcement
learning-basedmethodappliedforsolvingmulti-agentdefenseandattackproblems论文链接:
天寒心亦热
·
2024-01-08 08:54
强化学习
多智能体强化学习
攻击和防御
论文阅读
多智能体强化学习
MADDPG
DDPG
攻击和防御
Workshop 4 –
Reinforcement
Learning (ML)
Workshop4–
Reinforcement
Learning(ML)[2weeks]Objectives:Gainhands-onexperiencewith
reinforcement
learning.Familiariseyourselfwithsomeofthemodernapproachespracticalmethodsusedfordeep
reinforcement
learning.S
weixin_30532369
·
2024-01-06 17:49
人工智能
开发工具
php
ChatGPT 原来是这样工作的(下)
从人类的反馈中进行强化学习
Reinforcement
LearningfromHumanFeedback方法总体包括三个不同的步骤:有监督的调优预训练的语言模型在相对少量
城北楠哥
·
2024-01-06 15:45
04 supervised learning
Summary:unspervisedlearningclustering(聚类算法)Anomalydetection(异常检测)RecommenderSystems(推荐系统)
Reinforcement
Learning
叮咚Zz
·
2024-01-05 14:39
深度学习
机器学习
目标检测
人工智能
Deep Q-Network (DQN)理解
DQN(DeepQ-Network)是深度强化学习(Deep
Reinforcement
Learning)的开山之作,将深度学习引入强化学习中,构建了Perception到Decision的End-to-end
兔兔爱学习兔兔爱学习
·
2024-01-03 20:59
python
机器学习
深度学习
学习
论文阅读DIFFUSION POLICIES AS AN EXPRESSIVE POLICY CLASS FOR OFFLINE
REINFORCEMENT
LEARNING
JonathanJHunt,MingyuanZhou论文链接:https://www.aminer.cn/pub/62fa0d1490e50fcafd2462dd/AI综述(大模型驱动):offline
reinforcement
酒饮微醉-
·
2024-01-03 04:14
强化学习
论文阅读
机器学习
学习
机器学习的分类与经典算法
机器学习算法按照学习方式分类,可以分为有监督学习(SupervisedLearning)、无监督学习(UnsupervisedLearning)、半监督学习(Semi-supervisedLearning)、强化学习(
Reinforcement
Learning
RainTicking
·
2024-01-02 02:31
机器学习
机器学习
算法
大模型训练过程概述
从该图可知大模型训练主要有4步:Pretraining—预训练阶段SupervisedFinetuning(SFT)—监督微调,也叫指令微调阶段RewardModeling—奖励模型训练阶段
Reinforcement
Learning
机器学习社区
·
2024-01-01 00:19
大模型
CV
自然语言
pytorch
人工智能
大语言模型
深度学习
机器学习
Deep
Reinforcement
Learning in Large Discrete Action Spaces--Wolpertinger Architecture
读paper的目的:自己在使用DDPG解决问题时,会遇到actionspace很大的情况,会导致算法不收敛或者收敛得很慢。如何解决这种LargeDiscreteActionSpaces,即大规模离散动作空间得问题。启发:使用k-nearest-neighbormapping可以将DDPG中policynetwork输出的action映射到K个相近的action,从而帮助收敛。[1]G.Dulac-
qq_38480311
·
2023-12-30 13:16
#
文献阅读
RL+Resource
allocation
人工智能
深度学习
GNN+RL:Flexible Job-Shop Scheduling via Graph Neural Network and Deep
Reinforcement
Learning
读paper的目的:看懂GNN如何和RL结合的方法。本文的GNN是HGNN,RL用的PPO算法。主要是看懂GNN和RL如何连接起来以及如何训练的。启发:1.不同size的graph经过feature抽取之后可以经过pooling来统一维度,再送入RL学习。2.对于GNN可以根据节点的不同特性用不同的GAT进行feature的抽取。3.对于不同的step,action的维度和可选择的值都在变化,作者
qq_38480311
·
2023-12-30 13:46
#
文献阅读GNN
人工智能
深度学习
马尔科夫决策过程-策略迭代与值迭代(基于动态规划)
、基础概念RL基础关键词马尔可夫决策过程关键词二、马尔科夫决策过程1.策略评估2.策略迭代3.值迭代4.策略迭代与值迭代的区别前言强化学习入门笔记,基于easyRL一、基础概念RL基础关键词强化学习(
reinforcement
learning
爱宇小菜涛
·
2023-12-28 01:16
强化学习
动态规划
算法
交通 | DRL4LRP:空间优化之经典问题新方法
.,Liang,H.,Wang,Z.,Su,C.,&Li,X.(2023,November).ANewApproachforSolvingLocationRoutingProblemswithDeep
Reinforcement
LearningofEmergencyMedicalFacility.InProceedingsofthe8thACMSIGSPATIA
运筹OR帷幄
·
2023-12-25 03:23
支持向量机
算法
机器学习
人工智能
深度学习
运动重定向:C-3PO-v1
TeachMe:Three-phaselearningframeworkforroboticmotionimitationbasedoninteractiveteachingand
reinforcement
learning
AIRV_Gao
·
2023-12-25 00:08
论文笔记
人工智能
深度学习
Processing 特训(Neural Networks) - 10
明确概念Strategiesoflearning:Supervisedlearning(有测试集结果),Unsupervisedlearning(无测试集结果),
Reinforcement
learning
求愚
·
2023-12-24 05:06
AI中的强化学习是怎么做的呢?
1.什么是强化学习其他许多机器学习算法中学习器都是学得怎样做,而强化学习(
Reinforcement
Learning,RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报。
人工智能小豪
·
2023-12-23 15:11
深度学习
人工智能
机器学习
强化学习
RLHF介绍及实践测试
介绍RLHF(
Reinforcement
LearningHyperparameterOptimizationFramework)是一种用于强化学习模型的超参数优化框架。
Charles_yy
·
2023-12-21 21:32
RLH
强化学习
腾讯多任务强化学习算法登上顶刊TPAMI
一、概要编辑切换为居中添加图片注释,不超过140字(可选)论文标题:Curriculum-basedAsymmetricMulti-task
Reinforcement
Learning论文链接:https
一阙词
·
2023-12-21 13:43
python
人工智能
开发语言
「65页PDF」让 PM 全面理解深度学习
访问「easyAI-产品经理的AI知识库」下载PDF下面是内容结构和长图:深度学习全景图深度学习概要卷积神经网络-CNN循环神经网络-RNN长短期记忆网络–LSTM生成对抗网络–GANs强化学习-
Reinforcement
learning
easyAI人工智能知识库
·
2023-12-21 04:13
深度强化学习(DRL)简介与常见算法(DQN,DDPG,PPO,TRPO,SAC)分类
1.强化学习
Reinforcement
Learning(RL):强化学习强化学习属于机器学习的一种,不同于监督学习和无监督学习,通过智能体与环境的不断交互(即采取动作),进
行至为成
·
2023-12-18 12:44
算法
分类
深度学习
人工智能
王树森深度强化学习 笔记
ReturnUtU_tUt4.Action-ValueFunctionQπ(s,a)Q_\pi(s,a)Qπ(s,a)5.State-ValueFunctionVπ(s)V_\pi(s)Vπ(s)二、Value-Based
Reinforcement
LearningTD
开longlong了吗?
·
2023-12-17 21:30
笔记
深度学习
MAAC算法总结
论文原文:Actor-Attention-CriticforMulti-Agent
Reinforcement
Learning参考文章(这篇文章里写的非常详细!)
神奇的托尔巴拉德
·
2023-12-17 10:53
通用大模型训练过程必须经历的四个阶段!
从该图可知大模型训练主要有4步:Pretraining—预训练阶段SupervisedFinetuning(SFT)—监督微调,也叫指令微调阶段RewardModeling—奖励模型训练阶段
Reinforcement
Learning
Python算法实战
·
2023-12-16 11:03
大模型理论与实战
大模型
人工智能
大数据
chatgpt
大模型
langchain
了解第二部分多武装匪徒的强化学习手
系列的链接:(Series’Links:)Introduction介绍Multi-ArmedBandits|Notebook多臂土匪|笔记本Thisisthesecondentryofaserieson
Reinforcement
Learning
weixin_26738395
·
2023-12-15 21:51
python
java
人工智能
强化学习
【强化学习-读书笔记】多臂赌博机 Multi-armed bandit
参考
Reinforcement
Learning,SecondEditionAnIntroductionByRichardS.SuttonandAndrewG.Barto强化学习与监督学习强化学习与其他机器学习方法最大的不同
x66ccff
·
2023-12-15 20:38
强化学习
人工智能
CMBAC算法总结
论文原文:Sample-Efficient
Reinforcement
LearningviaConservativeModel-BasedActor-Critic参考文章:【AAAI2022】一种样本高效的基于模型的保守
神奇的托尔巴拉德
·
2023-12-15 17:41
论文阅读_反思模型_Reflexion
英文名称:Reflexion:LanguageAgentswithVerbal
Reinforcement
Learning中文名称:反思:具有言语强化学习的语言智能体文章:http://arxiv.org
xieyan0811
·
2023-12-14 18:28
论文阅读
论文阅读
A3C 笔记
AsynchronousMethodsforDeep
Reinforcement
Learning论文提出了一种在deepneuralnetwork控制器的优化中,使用异步梯度下降来训练的方法。
Junr_0926
·
2023-12-06 02:12
RLHF:强化学习结合大预言模型的训练方式
RLHF(
Reinforcement
LearningfromHumanFeedback)以强化学习方式依据人类反馈优化语言模型。
_刘文凯_
·
2023-12-05 17:08
深度学习
人工智能
一文搞懂 chatGPT 原理
GPT-3概述GPT3模型的理念GPT-3如何学习数据集指令微调(InstructionFine-Tuning,IFT)有监督微调(SupervisedFine-tuning,SFT)人类反馈强化学习(
Reinforcement
LearningF
Python算法实战
·
2023-12-05 11:34
大模型理论与实战
大模型
chatgpt
大模型
人工智能
算法
python
Chapter 2
Chapter2:Multi-armedBanditsMulti-armedbanditscanbeseenasthesimplestformof
reinforcement
learning,wherethereisonlyasinglestate.Thekeypointhereishowtoestimatetheactionvalues.Thischaptermainlyaimstointrodu
MasterXiong
·
2023-12-02 08:09
Syntax- and Execution-Aware SQL Generation with
Reinforcement
Learning (记EMNLP2019一次投稿)
引言我们那一篇ACL2019的论文简单介绍了什么叫做Text-to-SQL任务,文本到SQL任务的目的是将自然语言语句映射为结构化的SQL查询。很多工作都是关注于如何生成一个SQL语句,而没有关注怎样可以更高效的利用数据库信息以及SQL模板来指导SQL的生成。前人有一个工作是Execution-GuidedDecoding,核心思想是使用部分程序的执行结果来筛选过滤出无法完成的结果以获得正确答案(
fond_dependent
·
2023-12-02 01:53
NLP的知识库
nlp
NLP
自然语言处理
机器学习
深度学习
文章解读与仿真程序复现思路——电力系统保护与控制EI\CSCD\北大核心《基于深度强化学习的城市配电网多级动态重构优化运行方法》
这个标题涉及到城市配电网(UrbanPowerDistributionNetwork)的优化运行方法,其中使用了深度强化学习(Deep
Reinforcement
Learning)技术,并且特别强调了多级动态重构
电网论文源程序
·
2023-12-01 09:47
文章解读
重构
电网
能源
规划
配电网重构
Reward Modelling(RM)and Reinfo
RewardModelling(RM)andReinfo文章标签数据语言模型强化学习文章分类jQuery前端开发阅读数254RewardModelling(RM)and
Reinforcement
LearningfromHumanFeedback
量化交易曾小健(金融号)
·
2023-11-27 11:15
大语言模型ChatGPT
-
LLM
人工智能
强化学习简介及马尔科夫决策过程
1.什么是强化学习 强化学习(
reinforcement
learning,RL)是近年来大家提的非常多的一个概念,那么,什么叫强化学习?
飞剑客阿飞
·
2023-11-26 08:33
什么是强化学习(马尔可夫决策过程)
马尔可夫决策过程2.3状态值函数(state-valuefunction)2.4状态-行动价值函数(action-valuefunction)什么是强化学习(马尔可夫决策过程)1.强化学习(概述)强化学习(
Reinforcement
learning
大鹏的编程之路
·
2023-11-26 03:11
量化投资之强化学习
深度学习
强化学习
马尔可夫决策过程
什么是强化学习
1概况1.1定义强化学习(
Reinforcement
Learning,RL)是机器学习的一个重要分支,与监督学习和无监督学习并列。它主要涉及智能体(agent)在环境中通过学习如何做出决策。
智慧医疗探索者
·
2023-11-26 03:10
人工智能初探
强化学习
基于通用学习环境和多智能体深度强化学习的列车运行图
1.文章信息《Traintimetablingwiththegenerallearningenvironmentandmulti-agentdeep
reinforcement
learning》是2022
当交通遇上机器学习
·
2023-11-26 02:44
大数据
算法
python
机器学习
人工智能
机器学习初识
机器学习初识1).监督学习(supervisedlearning),无监督学习(unsupervisedlearning),半监督学习(Semi-SupervisedLearning),强化学习(
reinforcement
Learning
C_Z_Q_
·
2023-11-25 14:18
Unity机器学习 ML-Agents第一个例子
机器学习的过程MLAgents机器强化学习的过程(
reinforcement
learning)observation-监视,观察decision-决策action-行动reward-奖罚这4个
Peter_Gao_
·
2023-11-24 18:57
Unity3D
AIGC
NLP
CV
ai
unity
ML-AGENTS
Deep
Reinforcement
Learning For Sequence to Sequence Models
这篇论文是一篇综述性质的文章吧,研究了现有的Seq2Seq模型的应用和不足,以及如何通过不同的强化学习方法解决不足,写的深入具体,mark一下。本文的顺序是对文章的一个总结,并不是文章真实的组织顺序。论文链接:https://www.paperweekly.site/papers/1973代码链接:https://github.com/yaserkl/RLSeq2Seq1、Seq2Seq模型1.S
文哥的学习日记
·
2023-11-24 12:21
Dueling Network
DuelingNetwork——DuelingNetworkArchitecturesforDeep
Reinforcement
Learning论文下载地址论文介绍图9.DuelingNetwork模型结果示意图
然后就去远行吧
·
2023-11-22 02:07
强化学习
深度学习
Auto-Tuning with
Reinforcement
Learning for Permissioned Blockchain Systems
文章目录摘要一、介绍二、相关工作2.1总账结构2.2织物优化三、系统结构四、作为DRL问题的自动调谐4.1参数和性能4.2问题的转化4.3RL用于自动调参4.4PB-MADDPG用于自动调参五、重要参数识别六、实验6.1设置6.2执行时间分解6.3调整效果和效率比较6.4参数数量的影响6.5适应性6.6奖励函数的评估6.7容错性的评估6.8总结七、讨论摘要在一个允许的区块链中,性能决定了它的发展,
miracleo_
·
2023-11-21 10:34
论文阅读
区块链
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他