E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
强化学习从入门到实践
在MuJoCo环境下详细实现PPO算法与Hopper-v2应用教程: 深度学习
强化学习
实战指南
第一部分:简介与MuJoCo环境的配置1.简介
强化学习
已经在许多任务中展现了其强大的能力,从简单的游戏到复杂的机器人控制。
m0_57781768
·
2023-09-17 08:09
Python算法研究与解读
算法
深度学习
人工智能
Python学习路线规划
入门:python简明教程python编程
从入门到实践
跟着老齐学python(因为基础已经学完,这本书大概浏览了一下)注:选一本看完就可以了中阶:推荐廖雪峰的Python3教程高阶:Pythoncoo
高级AI
·
2023-09-17 01:48
Learn Prompt-人工智能基础
在计算机科学中,我们可以把人工智能看成是一个目标,而我们讲的机器学习、深度学习、
强化学习
等各种算法
xiaoshun007~
·
2023-09-17 00:45
ChatGPT
prompt
人工智能
chatgpt
Learn Prompt-什么是ChatGPT?
它建立在OpenAI的GPT-3.5大型语言模型之上,并采用了监督学习和
强化学习
技术进行了微调。ChatGPT是一种聊天机器人,允许用户与基于计算机的代理进行对话。
xiaoshun007~
·
2023-09-16 23:08
ChatGPT
chatgpt
prompt
人工智能
机器学习
俞扬:对抗模仿学习与逆
强化学习
的过程非常相似深度学习的理论基础1.数学基础≠理论基础。用数学描述深度学习只能说明模型是有理论保证的,并不能组成深度学习的理论基础。
walkerfan
·
2023-09-16 20:10
AI
机器学习
深度学习
Secrets of RLHF in Large Language Models Part I: PPO
大型语言模型中RLHF的秘密(上):PPO摘要1引言2相关工作3人类反馈的
强化学习
4有益和无害的奖励模型5PPO的探索6评估和讨论局限性摘要大型语言模型(LLM)为通用人工智能的发展制定了蓝图。
UnknownBody
·
2023-09-16 08:21
LLM
语言模型
人工智能
自然语言处理
强化学习
基础篇(二十九)策略梯度(一)
强化学习
基础篇(二十九)策略梯度(一)之前我们一直都是对价值函数或者动作值函数进行参数化近似:其中策略是间接得通过值函数进行贪婪策略产生,但本文将介绍如何在model-free场景中对策略进行参数化:1
Jabes
·
2023-09-16 08:57
分享 8 篇NLP论文,有研究惊奇发现:大语言模型除了学习语言还学到了... ...
的论文,其中主要包括:大预言模型的研究、动态环境下的语言回应、数据增强(使用10%的真实数据训练结果胜过100%的数据)、幽默话术的识别(幽默往往和缺陷相关)、模型幻觉抑制、自动化文章评分、稀疏奖励下的
强化学习
等
AINLPer
·
2023-09-15 21:47
自然语言处理
语言模型
学习
大模型RLHF算法更新换代,DeepMind提出自训练离线
强化学习
框架ReST
这些技术造就了像GPT-3、PaLM等基座生成模型,在这些基座模型之上,研究人员通过引入人类反馈的
强化学习
算法(RLHF)开发出了例如ChatGPT这些与人类偏好保持一致的可聊天模型
TechBeat人工智能社区
·
2023-09-15 17:32
技术文章
算法
强化学习
自然语言处理
大模型
强化学习
实践
【莫烦Python】机械手臂从零开始(机器学习实战
强化学习
)_哔哩哔哩_bilibili
笑傲江湖2023
·
2023-09-15 16:23
人工智能
深度学习简介及深度学习、神经网络、机器学习、人工智能的关系
大白话解释深度学习三、传统机器学习VS深度学习传统机器学习和深度学习的核心区别四、深度学习的优缺点五、4种典型的深度学习算法1、卷积神经网络–CNN2、循环神经网络–RNN3、生成对抗网络–GANs4、深度
强化学习
锦木旻
·
2023-09-15 15:43
人工智能
机器学习
深度学习
[NLP]TRL 正式推出,来训练你的首个 RLHF 模型
这是一个超全面的全栈库,包含了一整套工具用于使用
强化学习
(ReinforcementLearning)训练transformer语言模型。
舒克与贝克
·
2023-09-15 09:38
人工智能
小土堆pytorch学习笔记
想入门pytorch
强化学习
,就去找pytorch的课来看。
DWQY
·
2023-09-15 09:43
pytorch
pytorch
学习
笔记
【《伤寒论》
强化学习
训练】打卡第20天,一期目标90天
太阴跟阳明这两个病,其实是一个,几乎就是一个表里关系。虚则太阴,实则阳明。尺寸俱沉细者,太阴受病也,当四五日发。以其脉布胃中,络于嗌,故腹满而嗌干。【3-21】传太阴,脉濡而大,发热,下利,口渴,腹中急痛,宜茯苓白术厚朴石膏黄芩甘草汤。茯苓白术厚朴石膏黄芩甘草汤方茯苓四两白术三两厚朴四两石膏半斤黄芩三两甘草二两(炙)右六味,以水一斗,煮取五升,每服一升五合余,日三服。太阴病最简单、最好开药的是水泄
最闪亮的那颗星_b02d
·
2023-09-14 18:56
Imitation Learning
1aa占坑,刚接触这个概念,后面再更新References[1]台大教授李宏毅
强化学习
ImitationLearning_哔哩哔哩_bilibili
Tancenter
·
2023-09-14 12:05
Reinforcement
Learning
DQN
人工智能
【深度学习+组合优化】深度学习和
强化学习
在组合优化方面有哪些应用?
更多关于运筹学,优化理论,数据科学领域的内容,欢迎关注我的知乎账号:https://www.zhihu.com/people/wen-yu-zhi-370简介2017年阿里巴巴的一篇用深度
强化学习
求解3
王源WANGYuan
·
2023-09-14 11:33
深度学习
人工智能
强化学习
主编推荐|深度学习和
强化学习
在组合优化方面有哪些应用?
作者:莫思雨&王晶&王源2017年阿里巴巴的一篇用深度
强化学习
求解3维装箱问题的论文引发了深度学习和
强化学习
在组合优化问题方面应用的深入探讨。
运筹OR帷幄
·
2023-09-14 11:30
深度学习
人工智能
Learning Collaborative Policies to Solve NP-hard Routing Problems 学习笔记
文章目录摘要一、介绍(0)基础(1)贡献二、相关工作0.基础1.基于深度
强化学习
的建设型启发式(0)基础(1)AM-变体2.基于深度
强化学习
的改进型启发式3.带有传统求解器的混合方法三、路由问题的表述(
好奇小圈
·
2023-09-14 11:56
论文阅读
深度学习
强化学习
运筹优化
欧能电话机器人好不好用?这6个关键技术是核心
**机械学习**机械学习是多领域交叉的学科,可以从学习模式和学习方法上面进行分类,学习模式将机器学习分类为监督学习、无监督学习和
强化学习
等,学习方法可以将机器学习分为传统机器学习和深度学习。
蟪蛄不知
·
2023-09-14 10:42
【python】CliffWalking悬崖寻路问题
强化学习
简介gym库-CliffWalkingSARSAQ-learning示例SARSAQ-learning简介机器学习:监督学习、非监督学习、
强化学习
模仿人类和动物的试错机制进行学习智能体与环境交互
lorogy
·
2023-09-14 09:14
算法
python
python
开发语言
强化学习
-学习笔记14 | 策略梯度中的 Baseline
优质资源分享学习路线指引(点击解锁)知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统本篇笔记记录学习在策略学习中使用Baseline,这样可以降低方差,让收敛更快。14.策略学习中的Baseline14.1
www_xuhss_com
·
2023-09-14 08:31
it
学习
python
开发语言
计算机
TD算法与价值学习高级技巧
参考资料:王树森《深度
强化学习
》:https://github.com/wangshusen/DRL
Serendipity-Wu
·
2023-09-14 08:29
深度强化学习
算法
强化学习
人工智能
深度学习
机器学习
【shusen wang】【笔记】深度
强化学习
(2/5):价值学习
注:图片相关文字内容一般在图片上面。右边有目录=====================》1,价值函数一张图回忆一下动作价值函数公式。2,DQN(DeepQ-Network)输入状态利用Q*来输出最佳动作。Q*从何而来?这里用神经网络学习近似得到一个Q*。(感性认识:Q*如果看作给所有动作打分的话,神经网络就要学习打分如何打的越来越准)3,TDlearning(TemporDifference)-
Dxton
·
2023-09-14 08:29
强化学习
强化学习
深度
强化学习
基础
参考资料:王树森《深度
强化学习
》:https://github.com/wangshusen/DRL
Serendipity-Wu
·
2023-09-14 08:29
深度强化学习
强化学习
人工智能
深度
强化学习
(4): Actor-Critic 方法篇
王树森老师《深度
强化学习
基础》学习笔记四、Actor-CriticMethodsValueNetworkandPolicyNetwork用策略网络π\piπ来近似策略函数π\piπ(相当于运动员),用价值网络
Sudaa__
·
2023-09-14 08:26
科研
深度学习
神经网络
机器学习
深度
强化学习
(1):基础知识篇
王树森老师《深度
强化学习
基础》学习笔记一、前提知识:深度学习基础搭神经网络、求导…概率论随机变量(RandomVariable):一个未知变量,值只取决于一个随机事件的结果(Eg:抛硬币的结果)。
Sudaa__
·
2023-09-14 08:56
科研
机器学习
人工智能
深度学习
深度
强化学习
(2):价值学习DQN篇
王树森老师《深度
强化学习
基础》学习笔记二、价值学习(Value-BasedReinforcementLearning)DeepQ-Network(DQN)DQN用神经网络近似Q∗Q^*Q∗函数。
Sudaa__
·
2023-09-14 08:56
科研
学习
深度学习
机器学习
强化学习
笔记_1_基本概念_Deep Reinforcement Learning
前段时间学习了
强化学习
和深度
强化学习
相关的内容,整理了一些笔记,未来几天会陆续将这些笔记整理上传。
k_kun
·
2023-09-14 08:25
强化学习
机器学习
人工智能
强化学习
:基于pygame和pytorch实现ppo算法在扫雷小游戏上的AI决策
目录一.介绍二.环境搭建一.实现代码二.效果展示编辑三.PPO算法一.PPO算法介绍二.代码实现一.policy和value网络设定二.PPO类定义四.环境交互一.主函数定义二.训练结果展示五.总结文章完整源码:github源码一.介绍扫雷游戏是一种单人游戏,其目标是在一个方形区域内找到并标记出所有地雷。游戏板可以被分成若干个格子,每个格子可以为没有地雷的空或一个地雷。玩家可以点击面板上的不同格子
最爱小游侠
·
2023-09-14 02:09
人工智能
pygame
python
pytorch
深度学习
关于总结github上的
强化学习
代码库(建议收藏,有需要时翻开)
[总结GitHub上的
强化学习
代码库](https://mp.weixin.qq.com/s/VGAhKyBXpV3_sgnVoXy-9w)
强化学习
代码库今天分享的内容不是文字类内容,而是关于github
喝凉白开都长肉的大胖子
·
2023-09-13 19:18
经验技巧
强化学习
科研技巧
python
基于
强化学习
的智能机器人路径规划算法研究(附代码
目录一.摘要二.路径规划技术的研究进展1.研究现状2.算法分类2.1全局路径规划算法2.2局部路径规划算法三.本文采用的路径规划算法——
强化学习
1.概念2.与其他机器学习方式的区别3.
强化学习
模型4.马尔可夫决策过程
喝凉白开都长肉的大胖子
·
2023-09-13 19:47
经验技巧
机器人
算法
电商平台商品详情API大全、淘宝API、1688API、京东API、拼多多API
i=Rookie{“item”:{“num_iid”:“11993134”,“title”:“Python编程
从入门到实践
第2版(图灵出品)”,“desc_short”:“”,“price”:“70.20
是有头发的程序猿
·
2023-09-13 17:29
API
淘宝API
1688API
RL 的研究
强化学习
已经是一种比较火的神经网络训练模型了,各个领域都有所应用并取得了不错的效果其中阿里这个PDF电子书中已经将阿里巴巴在
强化学习
上的研究过程描述的比较清晰了
强化学习
在阿里的技术演进与业务创新但是本人对这方面确实了解尚浅
Midorra
·
2023-09-13 14:10
《
强化学习
原理与Python实战》揭秘大模型核心技术RLHF!——AIC松鼠活动第七期
强化学习
利用奖励信号训练智能体。有些任务并没有自带能给出奖励信号的环境,也没有现成的生成奖励信号的方法。为此,可以搭建奖励模型
Aic山鱼
·
2023-09-13 14:59
AIC松鼠活动
人工智能
想学机器人的程序猿——开篇立论
硕士主研究方向机器人智能控制、机器学习、
强化学习
等。大学的最后一年实在是闲的无聊,闷的堵心,于是就想到写点东西治疗一下懒病。
NWPU_HaiboWu
·
2023-09-13 10:29
Python编程相关的书籍
《Python编程:
从入门到实践
》。这本书全面介绍了Python编程,是掌握Python编程的经典之作。《集体智慧编程》。这本书用具体的例子来展示Python编程技巧,非常有用。
软件架构师-叶秋
·
2023-09-13 09:44
好书推荐分享
开发语言
python
Pytorch 机器学习专业基础知识+神经网络搭建相关知识
机器学习的一些专业术语三、模型相关知识四、常用的保留策略五、数据处理六、解决过拟合与欠拟合七、成功的衡量标准一、三种学习方式有监督学习:1、分类问题2、回归问题3、图像分割4、语音识别5、语言翻译无监督学习1、聚类2、降维
强化学习
二
Wantfly9951
·
2023-09-13 06:57
PyTorch
机器学习
pytorch
神经网络
2019-03-08派森学习第110天
今天继续观看
强化学习
的视频,并且把源程序自己下载下来,并且做了修改。
强化学习
迷宫的游戏,让机器自己学会找到黄色目标。
每日派森
·
2023-09-13 03:32
python编程(
从入门到实践
)1-2章
第一章搭建编程环境安装环境略本文中的所有python练习全部适用于python3.6的环境,如果执行失败可使用python3.6环境。一个简单的python程序,hello_world.py#cathello_world.pyprint("HelloPythonworld!")运行hello_world.py#pythonhello_world.pyHelloPythonworld!第二章变量和简
自由如风才是少年的梦
·
2023-09-13 00:46
python
linux
python
python编程(
从入门到实践
)3章
第三章列表简介列表是什么列表由一系列特定顺序排列的元素组成,其中多个元素之间没有任何关系,列表通常包含多个元素,因此给列表指定一个表示复数的名称(如letters、digits或names)。在python中,用方括号([])表示列表,并用逗号分割其中的元素。下面是一个简单的示例,vimbicycles.pybicycles=['trek','cannondale','specialized']p
自由如风才是少年的梦
·
2023-09-13 00:46
linux
python
python
开发语言
后端
Python 编程快速入门
参考引用Python编程:
从入门到实践
(第2版)1.环境配置VSCode中配置Python运行环境2.变量和简单数据类型2.1变量添加了一个名为message的变量。
Robot_Yue
·
2023-09-13 00:35
Python入门学习
python
开发语言
学习
笔记
算法
强化学习
在金融市场中的应用
姓名:谢童学号:16020188008转自微信公众号Bigquant前言今年来,随着AlphaGO的闪亮登场,以及最近
强化学习
在dota2中战胜职业战队,
强化学习
越来越受到人们的关注。
小小星辰_850b
·
2023-09-12 23:40
【论文解读】元学习:MAML
该算法与任何用梯度下降训练的模型兼容,适用于各种学习问题,包括分类、回归和
强化学习
。
Scc_hy
·
2023-09-12 06:57
深度学习
深度学习
人工智能
MetaLearning
元学习
算法
python
AI入门指南:探索人工智能的基础原理和实际应用
解释监督学习、无监督学习和
强化学习
的区别。深度学习的核心概念:解释神经网络的基本结构。介绍神经元、层和权重的概念。提及反向传播算法的重要性。第二部分:AI的实际应用自然
执笔人
·
2023-09-12 04:12
程序人生
机器学习入门笔记之回归(一)
Experience)中学习关于任务T(Tasks)的某些类别和性能度量P(Performance),让其在任务T中的性能(由P测量的)随着经验E而改善,那么这就是机器学习目前机器学习的主流分为监督学习、无监督学习、
强化学习
三类
BubbleL
·
2023-09-12 01:56
AI打游戏-壹
使用开源训练集进行训练实际工作中,算法训练只是一部分,还有很多上下游的工作通过AI打游戏这个主题,来熟悉AI产业全貌说明提到AI是标题党,这次使用的不能算人工智能,只是目标检测(YOLO)的简单应用,并不是
强化学习
这类高阶
·
2023-09-12 01:42
图像识别
Python编程
从入门到实践
:动手试一试8-6城市名
8-6城市名:编写一个名为city_country()的函数,它接受城市的名称及所属的国家。这个函数应该返回一个格式类似于下面这样的字符串:--------------------------------------------------“中国,成都”--------------------------------------------------至少使用三个城市-国家对调用这个函数,并打印它
半途而废的程序员
·
2023-09-11 23:39
python练习题
python
RAT:基于
强化学习
驱动和自适应测试的Web应用程序防火墙漏洞发现
文章提出了一种用于发现WAFs注入漏洞的自动黑盒测试策略——
强化学习
驱动自适应测试(RAT)。特别关注SQL注入和跨站点脚本攻击(XSS),这两种攻击在过去十年中一直是十大漏
LAANever
·
2023-09-11 21:36
AI入门指南:探索人工智能的基础原理和实际应用
解释监督学习、无监督学习和
强化学习
的区别。深度学习的核心概念:解释神经网络的基本结构。介绍神经元、层和权重的概念。提及反向传播算法的重要性。第二部分:AI的实际应用自然
·
2023-09-11 15:34
人工智能
DQN模型
1.DQN模型References[1]
强化学习
第五节(DQN)【个人知识分享】_哔哩哔哩_bilibili
Tancenter
·
2023-09-11 13:48
Deep
Learning
DQN
深度学习
上一页
26
27
28
29
30
31
32
33
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他