E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
GAN-强化学习
Python Q-learning 算法 --2023博客之星候选--城市赛道
Q-learning是一种
强化学习
算法,用于解决马尔可夫决策过程(MDP)问题。什么是马尔可夫决策过程(MDP)问题?马尔可夫决策过程(MDP)是一种用于建模序贯决策问题的数学框架。
SzetoZeZe
·
2023-09-18 00:36
python
算法
开发语言
计算机未来-发展趋势和未来方向
从深度学习到自然语言处理,从计算机视觉到
强化学习
,这些技术正在不断地改变我们的生活和工作方式。机器学习作为人工智能的一个重要分支,其核心技术包括监督学习、无监督学习和
强化学习
等。
a谷雨c
·
2023-09-17 19:57
神经网络
人工智能
[NLP] LLM---<训练中文LLama2(五)>对SFT后的LLama2进行DPO训练
从人类反馈中
强化学习
(RLHF)极大地推动了NLP的发展,并将NLP中许多长期面临的挑战抛在了一边。
舒克与贝克
·
2023-09-17 15:37
自然语言处理
人工智能
深度学习
在Mujoco环境下详细实现PPO算法应用于Humanoid-v2的完整教程
第一部分:介绍1.背景介绍MuJoCo,或称为多关节动力学与控制的物理引擎,已经成为了
强化学习
中仿真环境的首选工具。其精确的物理仿真和高效的速度使得研究者可以在这个环境下测试和验证各种算法。
m0_57781768
·
2023-09-17 11:23
Python算法研究与解读
算法
python
开发语言
在MuJoCo环境下详细实现PPO算法与Hopper-v2应用教程: 深度学习
强化学习
实战指南
第一部分:简介与MuJoCo环境的配置1.简介
强化学习
已经在许多任务中展现了其强大的能力,从简单的游戏到复杂的机器人控制。
m0_57781768
·
2023-09-17 08:09
Python算法研究与解读
算法
深度学习
人工智能
Learn Prompt-人工智能基础
在计算机科学中,我们可以把人工智能看成是一个目标,而我们讲的机器学习、深度学习、
强化学习
等各种算法
xiaoshun007~
·
2023-09-17 00:45
ChatGPT
prompt
人工智能
chatgpt
Learn Prompt-什么是ChatGPT?
它建立在OpenAI的GPT-3.5大型语言模型之上,并采用了监督学习和
强化学习
技术进行了微调。ChatGPT是一种聊天机器人,允许用户与基于计算机的代理进行对话。
xiaoshun007~
·
2023-09-16 23:08
ChatGPT
chatgpt
prompt
人工智能
机器学习
俞扬:对抗模仿学习与逆
强化学习
的过程非常相似深度学习的理论基础1.数学基础≠理论基础。用数学描述深度学习只能说明模型是有理论保证的,并不能组成深度学习的理论基础。
walkerfan
·
2023-09-16 20:10
AI
机器学习
深度学习
Secrets of RLHF in Large Language Models Part I: PPO
大型语言模型中RLHF的秘密(上):PPO摘要1引言2相关工作3人类反馈的
强化学习
4有益和无害的奖励模型5PPO的探索6评估和讨论局限性摘要大型语言模型(LLM)为通用人工智能的发展制定了蓝图。
UnknownBody
·
2023-09-16 08:21
LLM
语言模型
人工智能
自然语言处理
强化学习
基础篇(二十九)策略梯度(一)
强化学习
基础篇(二十九)策略梯度(一)之前我们一直都是对价值函数或者动作值函数进行参数化近似:其中策略是间接得通过值函数进行贪婪策略产生,但本文将介绍如何在model-free场景中对策略进行参数化:1
Jabes
·
2023-09-16 08:57
分享 8 篇NLP论文,有研究惊奇发现:大语言模型除了学习语言还学到了... ...
的论文,其中主要包括:大预言模型的研究、动态环境下的语言回应、数据增强(使用10%的真实数据训练结果胜过100%的数据)、幽默话术的识别(幽默往往和缺陷相关)、模型幻觉抑制、自动化文章评分、稀疏奖励下的
强化学习
等
AINLPer
·
2023-09-15 21:47
自然语言处理
语言模型
学习
大模型RLHF算法更新换代,DeepMind提出自训练离线
强化学习
框架ReST
这些技术造就了像GPT-3、PaLM等基座生成模型,在这些基座模型之上,研究人员通过引入人类反馈的
强化学习
算法(RLHF)开发出了例如ChatGPT这些与人类偏好保持一致的可聊天模型
TechBeat人工智能社区
·
2023-09-15 17:32
技术文章
算法
强化学习
自然语言处理
大模型
强化学习
实践
【莫烦Python】机械手臂从零开始(机器学习实战
强化学习
)_哔哩哔哩_bilibili
笑傲江湖2023
·
2023-09-15 16:23
人工智能
深度学习简介及深度学习、神经网络、机器学习、人工智能的关系
大白话解释深度学习三、传统机器学习VS深度学习传统机器学习和深度学习的核心区别四、深度学习的优缺点五、4种典型的深度学习算法1、卷积神经网络–CNN2、循环神经网络–RNN3、生成对抗网络–GANs4、深度
强化学习
锦木旻
·
2023-09-15 15:43
人工智能
机器学习
深度学习
[NLP]TRL 正式推出,来训练你的首个 RLHF 模型
这是一个超全面的全栈库,包含了一整套工具用于使用
强化学习
(ReinforcementLearning)训练transformer语言模型。
舒克与贝克
·
2023-09-15 09:38
人工智能
小土堆pytorch学习笔记
想入门pytorch
强化学习
,就去找pytorch的课来看。
DWQY
·
2023-09-15 09:43
pytorch
pytorch
学习
笔记
【《伤寒论》
强化学习
训练】打卡第20天,一期目标90天
太阴跟阳明这两个病,其实是一个,几乎就是一个表里关系。虚则太阴,实则阳明。尺寸俱沉细者,太阴受病也,当四五日发。以其脉布胃中,络于嗌,故腹满而嗌干。【3-21】传太阴,脉濡而大,发热,下利,口渴,腹中急痛,宜茯苓白术厚朴石膏黄芩甘草汤。茯苓白术厚朴石膏黄芩甘草汤方茯苓四两白术三两厚朴四两石膏半斤黄芩三两甘草二两(炙)右六味,以水一斗,煮取五升,每服一升五合余,日三服。太阴病最简单、最好开药的是水泄
最闪亮的那颗星_b02d
·
2023-09-14 18:56
Imitation Learning
1aa占坑,刚接触这个概念,后面再更新References[1]台大教授李宏毅
强化学习
ImitationLearning_哔哩哔哩_bilibili
Tancenter
·
2023-09-14 12:05
Reinforcement
Learning
DQN
人工智能
【深度学习+组合优化】深度学习和
强化学习
在组合优化方面有哪些应用?
更多关于运筹学,优化理论,数据科学领域的内容,欢迎关注我的知乎账号:https://www.zhihu.com/people/wen-yu-zhi-370简介2017年阿里巴巴的一篇用深度
强化学习
求解3
王源WANGYuan
·
2023-09-14 11:33
深度学习
人工智能
强化学习
主编推荐|深度学习和
强化学习
在组合优化方面有哪些应用?
作者:莫思雨&王晶&王源2017年阿里巴巴的一篇用深度
强化学习
求解3维装箱问题的论文引发了深度学习和
强化学习
在组合优化问题方面应用的深入探讨。
运筹OR帷幄
·
2023-09-14 11:30
深度学习
人工智能
Learning Collaborative Policies to Solve NP-hard Routing Problems 学习笔记
文章目录摘要一、介绍(0)基础(1)贡献二、相关工作0.基础1.基于深度
强化学习
的建设型启发式(0)基础(1)AM-变体2.基于深度
强化学习
的改进型启发式3.带有传统求解器的混合方法三、路由问题的表述(
好奇小圈
·
2023-09-14 11:56
论文阅读
深度学习
强化学习
运筹优化
欧能电话机器人好不好用?这6个关键技术是核心
**机械学习**机械学习是多领域交叉的学科,可以从学习模式和学习方法上面进行分类,学习模式将机器学习分类为监督学习、无监督学习和
强化学习
等,学习方法可以将机器学习分为传统机器学习和深度学习。
蟪蛄不知
·
2023-09-14 10:42
【python】CliffWalking悬崖寻路问题
强化学习
简介gym库-CliffWalkingSARSAQ-learning示例SARSAQ-learning简介机器学习:监督学习、非监督学习、
强化学习
模仿人类和动物的试错机制进行学习智能体与环境交互
lorogy
·
2023-09-14 09:14
算法
python
python
开发语言
强化学习
-学习笔记14 | 策略梯度中的 Baseline
优质资源分享学习路线指引(点击解锁)知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统本篇笔记记录学习在策略学习中使用Baseline,这样可以降低方差,让收敛更快。14.策略学习中的Baseline14.1
www_xuhss_com
·
2023-09-14 08:31
it
学习
python
开发语言
计算机
TD算法与价值学习高级技巧
参考资料:王树森《深度
强化学习
》:https://github.com/wangshusen/DRL
Serendipity-Wu
·
2023-09-14 08:29
深度强化学习
算法
强化学习
人工智能
深度学习
机器学习
【shusen wang】【笔记】深度
强化学习
(2/5):价值学习
注:图片相关文字内容一般在图片上面。右边有目录=====================》1,价值函数一张图回忆一下动作价值函数公式。2,DQN(DeepQ-Network)输入状态利用Q*来输出最佳动作。Q*从何而来?这里用神经网络学习近似得到一个Q*。(感性认识:Q*如果看作给所有动作打分的话,神经网络就要学习打分如何打的越来越准)3,TDlearning(TemporDifference)-
Dxton
·
2023-09-14 08:29
强化学习
强化学习
深度
强化学习
基础
参考资料:王树森《深度
强化学习
》:https://github.com/wangshusen/DRL
Serendipity-Wu
·
2023-09-14 08:29
深度强化学习
强化学习
人工智能
深度
强化学习
(4): Actor-Critic 方法篇
王树森老师《深度
强化学习
基础》学习笔记四、Actor-CriticMethodsValueNetworkandPolicyNetwork用策略网络π\piπ来近似策略函数π\piπ(相当于运动员),用价值网络
Sudaa__
·
2023-09-14 08:26
科研
深度学习
神经网络
机器学习
深度
强化学习
(1):基础知识篇
王树森老师《深度
强化学习
基础》学习笔记一、前提知识:深度学习基础搭神经网络、求导…概率论随机变量(RandomVariable):一个未知变量,值只取决于一个随机事件的结果(Eg:抛硬币的结果)。
Sudaa__
·
2023-09-14 08:56
科研
机器学习
人工智能
深度学习
深度
强化学习
(2):价值学习DQN篇
王树森老师《深度
强化学习
基础》学习笔记二、价值学习(Value-BasedReinforcementLearning)DeepQ-Network(DQN)DQN用神经网络近似Q∗Q^*Q∗函数。
Sudaa__
·
2023-09-14 08:56
科研
学习
深度学习
机器学习
强化学习
笔记_1_基本概念_Deep Reinforcement Learning
前段时间学习了
强化学习
和深度
强化学习
相关的内容,整理了一些笔记,未来几天会陆续将这些笔记整理上传。
k_kun
·
2023-09-14 08:25
强化学习
机器学习
人工智能
强化学习
:基于pygame和pytorch实现ppo算法在扫雷小游戏上的AI决策
目录一.介绍二.环境搭建一.实现代码二.效果展示编辑三.PPO算法一.PPO算法介绍二.代码实现一.policy和value网络设定二.PPO类定义四.环境交互一.主函数定义二.训练结果展示五.总结文章完整源码:github源码一.介绍扫雷游戏是一种单人游戏,其目标是在一个方形区域内找到并标记出所有地雷。游戏板可以被分成若干个格子,每个格子可以为没有地雷的空或一个地雷。玩家可以点击面板上的不同格子
最爱小游侠
·
2023-09-14 02:09
人工智能
pygame
python
pytorch
深度学习
关于总结github上的
强化学习
代码库(建议收藏,有需要时翻开)
[总结GitHub上的
强化学习
代码库](https://mp.weixin.qq.com/s/VGAhKyBXpV3_sgnVoXy-9w)
强化学习
代码库今天分享的内容不是文字类内容,而是关于github
喝凉白开都长肉的大胖子
·
2023-09-13 19:18
经验技巧
强化学习
科研技巧
python
基于
强化学习
的智能机器人路径规划算法研究(附代码
目录一.摘要二.路径规划技术的研究进展1.研究现状2.算法分类2.1全局路径规划算法2.2局部路径规划算法三.本文采用的路径规划算法——
强化学习
1.概念2.与其他机器学习方式的区别3.
强化学习
模型4.马尔可夫决策过程
喝凉白开都长肉的大胖子
·
2023-09-13 19:47
经验技巧
机器人
算法
RL 的研究
强化学习
已经是一种比较火的神经网络训练模型了,各个领域都有所应用并取得了不错的效果其中阿里这个PDF电子书中已经将阿里巴巴在
强化学习
上的研究过程描述的比较清晰了
强化学习
在阿里的技术演进与业务创新但是本人对这方面确实了解尚浅
Midorra
·
2023-09-13 14:10
《
强化学习
原理与Python实战》揭秘大模型核心技术RLHF!——AIC松鼠活动第七期
强化学习
利用奖励信号训练智能体。有些任务并没有自带能给出奖励信号的环境,也没有现成的生成奖励信号的方法。为此,可以搭建奖励模型
Aic山鱼
·
2023-09-13 14:59
AIC松鼠活动
人工智能
想学机器人的程序猿——开篇立论
硕士主研究方向机器人智能控制、机器学习、
强化学习
等。大学的最后一年实在是闲的无聊,闷的堵心,于是就想到写点东西治疗一下懒病。
NWPU_HaiboWu
·
2023-09-13 10:29
Pytorch 机器学习专业基础知识+神经网络搭建相关知识
机器学习的一些专业术语三、模型相关知识四、常用的保留策略五、数据处理六、解决过拟合与欠拟合七、成功的衡量标准一、三种学习方式有监督学习:1、分类问题2、回归问题3、图像分割4、语音识别5、语言翻译无监督学习1、聚类2、降维
强化学习
二
Wantfly9951
·
2023-09-13 06:57
PyTorch
机器学习
pytorch
神经网络
2019-03-08派森学习第110天
今天继续观看
强化学习
的视频,并且把源程序自己下载下来,并且做了修改。
强化学习
迷宫的游戏,让机器自己学会找到黄色目标。
每日派森
·
2023-09-13 03:32
强化学习
在金融市场中的应用
姓名:谢童学号:16020188008转自微信公众号Bigquant前言今年来,随着AlphaGO的闪亮登场,以及最近
强化学习
在dota2中战胜职业战队,
强化学习
越来越受到人们的关注。
小小星辰_850b
·
2023-09-12 23:40
【论文解读】元学习:MAML
该算法与任何用梯度下降训练的模型兼容,适用于各种学习问题,包括分类、回归和
强化学习
。
Scc_hy
·
2023-09-12 06:57
深度学习
深度学习
人工智能
MetaLearning
元学习
算法
python
AI入门指南:探索人工智能的基础原理和实际应用
解释监督学习、无监督学习和
强化学习
的区别。深度学习的核心概念:解释神经网络的基本结构。介绍神经元、层和权重的概念。提及反向传播算法的重要性。第二部分:AI的实际应用自然
执笔人
·
2023-09-12 04:12
程序人生
机器学习入门笔记之回归(一)
Experience)中学习关于任务T(Tasks)的某些类别和性能度量P(Performance),让其在任务T中的性能(由P测量的)随着经验E而改善,那么这就是机器学习目前机器学习的主流分为监督学习、无监督学习、
强化学习
三类
BubbleL
·
2023-09-12 01:56
AI打游戏-壹
使用开源训练集进行训练实际工作中,算法训练只是一部分,还有很多上下游的工作通过AI打游戏这个主题,来熟悉AI产业全貌说明提到AI是标题党,这次使用的不能算人工智能,只是目标检测(YOLO)的简单应用,并不是
强化学习
这类高阶
·
2023-09-12 01:42
图像识别
RAT:基于
强化学习
驱动和自适应测试的Web应用程序防火墙漏洞发现
文章提出了一种用于发现WAFs注入漏洞的自动黑盒测试策略——
强化学习
驱动自适应测试(RAT)。特别关注SQL注入和跨站点脚本攻击(XSS),这两种攻击在过去十年中一直是十大漏
LAANever
·
2023-09-11 21:36
AI入门指南:探索人工智能的基础原理和实际应用
解释监督学习、无监督学习和
强化学习
的区别。深度学习的核心概念:解释神经网络的基本结构。介绍神经元、层和权重的概念。提及反向传播算法的重要性。第二部分:AI的实际应用自然
·
2023-09-11 15:34
人工智能
GAN-
对抗生成网络
generator:importargparseimportosimportnumpyasnpimportmathimporttorchvision.transformsastransformsfromtorchvision.utilsimportsave_imagefromtorch.utils.dataimportDataLoaderfromtorchvisionimportdatasetsf
W_en丶
·
2023-09-11 14:52
生成对抗网络
DQN模型
1.DQN模型References[1]
强化学习
第五节(DQN)【个人知识分享】_哔哩哔哩_bilibili
Tancenter
·
2023-09-11 13:48
Deep
Learning
DQN
深度学习
机器学习从0到1
机器学习,即machinelearning感谢easyai的精彩讲解:easyai网址文章目录机器学习的概念机器学习的原理监督学习,非监督学习,
强化学习
监督学习非监督学习
强化学习
机器学习实操的7个步骤现在举一个具体的任务来说明这些步骤
白云千载尽
·
2023-09-11 07:23
机器学习
人工智能
强化学习
-理解及应用:解决迷宫问题
什么是
强化学习
?
强化学习
(ReinforcementLearning,RL)是一种机器学习方法,旨在让智能体(agent)通过与环境的交互学习如何做出最优的行动选择以获得最大的累积奖励。
Rnan-prince
·
2023-09-11 03:34
机器学习
算法
机器学习
上一页
22
23
24
25
26
27
28
29
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他