E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
GAN-强化学习
重磅!微软开源Deep Speed Chat,人人拥有ChatGPT!
github.com/microsoft/DeepSpeed)据悉,DeepSpeedChat是基于微软DeepSpeed深度学习优化库开发而成,具备训练、强化推理等功能,还使用了RLHF(人工反馈机制的
强化学习
手把手教你学AI
·
2023-06-17 03:27
chatgpt
microsoft
开源
upyter Notebook:内核似乎挂掉
项目场景:提示:这里简述项目相关背景:项目场景:深度
强化学习
在中国股票量化交易上的应用,要求跑赢大盘问题描述提示:这里描述项目中遇到的问题:使用JupyterNotebook运行时,跑到绘图部分,崩溃了
手把手教你学AI
·
2023-06-17 03:24
AI教育
AI
chatGPT应用
python
iot
物联网
2023亚马逊科技中国峰会之Amazon DeepRacer赛车比赛
目录一、前言二、什么是AmazonDeepRacer三、如何构建自己的第一个
强化学习
模型1、创建AmazonDeepRacer资源2、自定义你的赛道3、开始你的模型4、关于优化模型5、在仿真器中测试6、
程序猿追
·
2023-06-16 20:33
其他
科技
人工智能
深度学习
续上一节【图神经网络 & 文献精读】针对SARS-CoV-2大流行的改进和优化的药物再利用方案(2)| 附:深度
强化学习
;复杂网络分析 | 附:图神经网络在自然语言处理中的应用
谁说我没有死过?出生以前,太阳已无数次起落,悠久的时光被悠久的虚无吞并。又以我生日的名义,卷土重来。--------史铁生《病隙碎笔》作者主页:追光者♂个人简介:计算机专业硕士研究生、2022年CSDN博客之星人工智能领域TOP4、阿里云社区特邀专家博主、CSDN-人工智能领域新星创作者、预期2023年10月份·准CSDN博客专家【无限进步,一起追光!】欢迎大家点赞收藏⭐留言附:【图神经网络&文献
追光者♂
·
2023-06-16 18:28
【小小的项目
(实战+案例)
】
自然语言处理
图神经网络
人工智能
论文精读
深度强化学习
大模型入门(六)—— RLHF微调大模型
2)训练奖励模型奖励模型是输入一个文本序列,模型给出符合人类偏好的奖励数值,这个奖励数值对于后面的
强化学习
训练非常重要。构建奖励模型的训练数据一般是同一个数据用不同的语言模型生成结果,然后人工打分。
柴神
·
2023-06-16 18:52
GPT
ChatGPT
人工智能
机器学习
深度学习
人工智能领域:面试常见问题超全(深度学习基础、卷积模型、预训练模型、计算机视觉、自然语言处理、推荐系统、)
人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计算机视觉、自然语言处理、推荐系统、模型压缩、
强化学习
、元学习)人工智能领域:面试常见问题1.深度学习基础为什么归一化能够提高求解最优解的速度
·
2023-06-16 14:29
人工智能领域:面试常见问题超全(深度学习基础、卷积模型、预训练模型、计算机视觉、自然语言处理、推荐系统、)
人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计算机视觉、自然语言处理、推荐系统、模型压缩、
强化学习
、元学习)人工智能领域:面试常见问题1.深度学习基础为什么归一化能够提高求解最优解的速度
·
2023-06-16 14:26
人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计算机视觉、自然语言处理、推荐系统、模型压缩、
强化学习
、元学习)
【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等专栏详细介绍:【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等本专栏主要方便入门同学快速掌握相关知识。后续会持续把深度学习涉及知识原理分析给大家,让大家在项目实操的同时也能知识储备,知
汀、人工智能
·
2023-06-16 11:33
#
深度学习应用项目实战篇
深度学习
人工智能
计算机视觉
自然语言处理
推荐系统
如何使用PyTorch 在 OpenAI Gym 上的 CartPole-v0 任务上训练深度 Q 学习(DQN)智能体
强化学习
(DQN)教程本教程说明如何使用PyTorch在OpenAIGym上的CartPole-v0任务上训练深度Q学习(DQN)智能体。
yanglamei1962
·
2023-06-16 10:36
PyTorch学习教程
pytorch
学习
python
实现一个 AI 驱动的马里奥(使用双重深度 Q 网络),它可以自己玩游戏
训练玩马里奥的RL智能体本教程将向您介绍深度
强化学习
的基础知识。最后,您将实现一个AI驱动的马里奥(使用双重深度Q网络),它可以自己玩游戏。#!
yanglamei1962
·
2023-06-16 10:33
PyTorch学习教程
人工智能
网络
玩游戏
2019-06-02
Consequentialrankingalgorithmsandlong-termwelfarearxiv2019利用
强化学习
优化推荐系统(排序算法)的长期目标现有的推荐系统排序算法,都是优化的立即目标
wwang945
·
2023-06-16 08:34
给开发者的ChatGPT提示词工程指南
ChatGPTPromptEngineeringforDevelopment基本大语言模型和指令精调大语言模型的区别:指令精调大语言模型经过遵从指令的训练,即通过RLHF(基于人类反馈的
强化学习
)方式在指令上精调过
从流域到海域
·
2023-06-16 07:19
大语言模型
chatgpt
提示词
提示词工程
LLM
(十 一)从零开始学人工智能--
强化学习
:
强化学习
入门基础
强化学习
入门基础文章目录
强化学习
入门基础1.
强化学习
基础知识1.1
强化学习
发展历程1.2
强化学习
特点1.3
强化学习
应用1.4
强化学习
基本概念1.5
强化学习
智能体的主要组成部分1.6
强化学习
的分类2.动态规划
小花技术大本营
·
2023-06-16 06:05
大模型入门(五)—— 基于peft微调ChatGLM模型
经过中英双语训练,辅以监督微调、反馈自助、人类反馈
强化学习
等技术,ChatGLM因为是中文大模型,在中文任务的表现要优于LLaMa,我在一些实体抽取的任务中微调ChatGLM-6B,都取得了很不错的效果
柴神
·
2023-06-15 21:51
GPT
ChatGPT
人工智能
python
pytorch
强化学习
路线规划之深度
强化学习
学到如今,我实在明白了一个至关重要的东西,那就是目标很重要,有了清晰的目标我们就知道该做什么,不至于迷茫,否则每天都在寻找道路。所以我一直在规划这样一条道路,让想学习的人可以抛下不知道该怎么做的顾虑,不至于每天迷茫在该怎么做当中。力量是宝贵的,应该被花在真正知识的学习上,而不是被消耗在寻找道路的迷惘上。所以,我自己也一直在探索学习方法,如何不偏离主线。其次,学习一样东西,一定要先弄清楚其本源,要搞
eyexin2018
·
2023-06-15 20:04
强化学习
python
深度学习
开发语言
微软ChatGPT技术的底层支撑——GPU
微软的chatgpt是基于复杂的人工神经网络和
强化学习
的技术,这是如何运算的?在我们对比CPU、GPU和TPU之前,我们可以先了解到底机器学习或神经网络需要什么样的计算。
荔园微风
·
2023-06-15 18:19
Microsoft
人工智能
microsoft
chatgpt
微软
人工智能
强化学习
笔记-12 Eligibility Traces
前篇讨论了TD算法将MC同Bootstrap相结合,拥有很好的特性。本节所介绍的EligibilityTraces,其思想是多个TD(n)所计算预估累积收益按权重进行加权平均,从而得到更好的累积收益预估值。价值预估模型的参数更新式子可以调整为:1.Off-lineλ-return从式子中可以看出,必须要在一个episode结束后,才能计算各个时刻t下的值,因此同MC算法一样,模型在episode期
tostq
·
2023-06-15 18:48
笔记
强化学习
TD算法
强化学习
笔记-13 Policy Gradient Methods
强化学习
算法主要在于学习最优的决策,到目前为止,我们所讨论的决策选择都是通过价值预估函数来间接选择的。本节讨论的是通过一个参数化决策模型来直接根据状态选择动作,而不是根据价值预估函数来间接选择。
tostq
·
2023-06-15 18:48
笔记
强化学习
机器学习
强化学习
PPO:Proximal Policy Optimization Algorithms解读
PPO算法是一类PolicyGradient
强化学习
方法,经典的PolicyGradient通过一个参数化决策模型来根据状态确定动作,其参数更新是通过下式进行的:用于衡量决策模型的优劣目标,决策模型的优化目标为寻找最优决策
tostq
·
2023-06-15 18:17
算法
PPO
TRPO
强化学习
Policy
Gradient
从TRPO到PPO(理论分析与数学证明)
本文首发于行者AI引言一篇关于
强化学习
算法的理论推导,或许可以帮助你理解PPO算法背后的原理,从而找到改进PPO算法的灵感...马尔可夫决策过程由六个元素构成。
行者AI
·
2023-06-15 13:11
【知识普及】神经网络架构搜索(Neural Architecture Search,NAS)
文章目录1.背景引入2.网络架构搜索(NAS)2.1NAS搜索策略2.1.1基于
强化学习
2.1.2基于进化算法2.1.3基于梯度的方法2.2NAS加速2.2.1层次化表示2.2.2权值共享2.2.3表现预测
^_^ 晅菲
·
2023-06-15 12:43
知识普及
机器学习
人工智能
深度学习
Graph Neural Architecture Search
背景自动设计网络架构,提出了一种基于
强化学习
的图神经结构搜索方法(GraphNAS),该方法能够自动设计最佳的图神经结构。这是首次尝试研究使用
强化学习
设计最佳图形神经结构这一具有挑战性的问题。
Starry memory
·
2023-06-15 12:09
深度学习
人工智能
机器学习
OpenMMLab AI实战营第二期(1)计算机视觉与OpenMMLab概述
通过今天课程的学习,算是比较大的扩展了我的视野,近期主要学一些
强化学习
的知识,没有想到计算机视觉领域已经发展的这么迅猛,很多以前只是在脑海里想象的计算机视觉应用场景,原来OpenMMLab已经实现了。
小帅吖
·
2023-06-15 10:43
人工智能
计算机视觉
深度学习
ICML
强化学习
文章分类
序号文章关键词大概意思61ReinforcementLearningwithGeneralUtilities:SimplerVarianceReductionandLargeState-ActionSpaceGeneralUtilities,PG介绍了一种梯度下降方法,用于GeneralUtilities,就是目标函数是state-actionpairdistribution的非线性函数62Tra
HGGshiwo
·
2023-06-15 07:39
分类
人工智能
机器学习
【送书福利-第十二期】机工社Python与AI好书来袭!~
本文目录一、前言二、书籍介绍1、认识AI2、Python程序设计:人工智能案例实践3、机器学习Python版4、深度
强化学习
5、机器学习实践三、抽奖方式总结一、前言近来,人工智能聊天机器人ChatGPT
程序员洲洲
·
2023-06-15 01:44
项目踩坑
人工智能
python
chatgpt
基于多动作深度
强化学习
的柔性车间调度研究(Matlab代码实现)
欢迎来到本博客❤️❤️博主优势:博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。⛳座右铭:行百里者,半于九十。本文目录如下:目录1概述2运行结果3文献来源4Python代码实现1概述灵活作业车间调度问题(FJSP)在现代制造业中起着至关重要的作用,广泛用于各种制造工艺,例如半导体制造,汽车和纺织品制造(Brucker和Schlie,1990,Garey等人,1976,Jain和Meeran,19
紫极星光
·
2023-06-15 01:13
车间调度
matlab
开发语言
AlphaGoZero 原理讲解(附代码)
树搜索算法1.树节点及其动作分支2.选择要探索的动作分支3.扩展搜索树4.选择最终的动作三、训练神经网络1.网络结构2.训练数据3.训练目标总结前言前面我们了解了AlphaGo的原理,它通过结合监督学习和
强化学习
victorieskkkk
·
2023-06-14 22:14
机器学习
深度学习
人工智能
python
强化学习
入门资料整理
参考资料[1]
强化学习
基本概念[2]怎么理解
强化学习
中状态价值和动作价值?
叶非花
·
2023-06-14 20:35
机器学习
人工智能算法简介
一、按照模型训练方式不同可以分为监督学习(SupervisedLearning),无监督学习(UnsupervisedLearning)、半监督学习(Semi-supervisedLearning)和
强化学习
巨人肩上摘星怪
·
2023-06-14 15:12
Python神经网络学习(六)--机器学习--
强化学习
强化学习
:
强化学习
也是一个很重要的方向了,很多人用
强化学习
玩游戏,可能有人觉得
强化学习
很难(包括我),但是我今天用网上流传很广的、很经典的一个例子(悬崖徒步,CliffWalking),去带领大家明白
强化学习
ChuckieZhu
·
2023-06-14 13:45
机器学习
学习
人工智能
强化学习
悬崖徒步
机器学习基础概论
同时,这三类问题都属于监督学习的范畴,监督学习是机器学习的一个分支,还包括三个其他的主要分支:无监督学习、自监督学习和
强化学习
。
·
2023-06-14 11:08
【ROS】ROS+Gazebo
强化学习
:训练
1、安装ROS1【ROS】Ubuntu20.04安装ROS12、安装Anaconda【AI】PyTorch入门(一):通过Anaconda安装PyTorch【PyThon】Anaconda常用命令3、源码下载使用论文Goal-DrivenAutonomousExplorationThroughDeepReinforcementLearning的源码实例gitclonehttps://github.
郭老二
·
2023-06-14 07:54
ROS
ROS
第十篇:
强化学习
Q-learning求解迷宫问题 代码实现
你好,我是郭震(zhenguo)今天
强化学习
第10篇:
强化学习
Q-learning求解迷宫问题代码实现1创建地图创建迷宫地图import numpy as np# 创建迷宫地图exit_coord =
算法channel
·
2023-06-14 06:49
python
机器学习
算法
人工智能
开发语言
第十二篇:
强化学习
SARSA算法
你好,我是郭震(zhenguo)今天
强化学习
第二十篇:
强化学习
SARSA算法1历史SARSA(「State-Action-Reward-State-Action」)算法是一种经典的
强化学习
算法,用于解决马尔可夫决策过程
算法channel
·
2023-06-14 06:48
算法
数学建模
强化学习
笔记-11 Off-policy Methods with Approximation
本节将讨论如何通过模型近似的方式来应用offpolicy
强化学习
。1.Importancesamplingoff-policy策略一
tostq
·
2023-06-14 00:33
笔记
强化学习
一文带你了解的ChatGPT
什么是ChatGPTChatGPT是一种由OpenAI推出的专注于对话生成的人工智能语言模型,通过人类反馈的
强化学习
微调而来。
外星喵
·
2023-06-13 23:08
随笔
chatgpt
人工智能
【机器学习】Q-Learning详细介绍
Q-learning属于
强化学习
的算法通过
强化学习
,可以训练机器学习模型来模仿动物或儿童的学习方式。
青皮桔
·
2023-06-13 23:55
AI
算法
机器学习
人工智能
算法
强化学习
笔记-07 n-step Bootstrapping 多步TD时分学习
本文是博主对《ReinforcementLearning-Anintroduction》的阅读笔记,不涉及内容的翻译,主要为个人的理解和思考。上一节介绍了TD算法,其采用了Bootstrapping方法,当前过去的预估以及即期收益来更新累积收益函数:前文我们提到,通过BootstrappingTD算法,相比于蒙特卡罗法,可以加快学习速度,但另一方面在更新累积收益函数时会存在可能偏差。而n-step
tostq
·
2023-06-13 19:24
笔记
学习
强化学习
TD算法
强化学习
笔记-08 Planning and Learning
前几篇我们介绍了一个重点概念model-base和model-free,其中model-base是建立在存在某个环境模型,从模型中可以获得状态、动作、奖励的转移信息,比如动态规划方法,当我们确定了状态动作的转换概率,此时我们可以通过递归的方式,迅速获得价值函数的估计。在价值函数的更新过程中,一种方式是遍历所有状态-动作来完成更新,但如果状态-动作太多,而某些状态对于我们目标达成完全没有用,遍历所有
tostq
·
2023-06-13 19:24
笔记
强化学习
机器学习
人工智能
强化学习
笔记-0910 On-policy Method with Approximation
前几章我们所讨论的
强化学习
方法都是将价值函数建模为一个table形式,通过状态来查询具体状态的价值。但是当状态-动作空间极大,且多数状态-动作并没有太大意义时,这种table查询效率是极低的。
tostq
·
2023-06-13 19:49
笔记
强化学习
Sarsa
TD
learning
Q-learning
科研实习 | 加拿大Mila实验室唐建教授招收机器学习/生物医药方向科研实习生...
MilaMila实验室是由深度学习先驱YoshuaBengio教授领导的人工智能实验室(https://mila.quebec/),主要从事深度学习、
强化学习
、优化算法等人工智能领域的基础研究以及在不同领域的应用
PaperWeekly
·
2023-06-13 12:02
机器学习
人工智能
知识图谱
谷歌 Alpha 家族再添“猛将”:AlphaDev 重磅亮相,打破多年计算瓶颈,新排序算法提速 70%!...
具体来说,AlphaDev是一种通过
强化学习
来发现增强的计算机科
CSDN 程序人生
·
2023-06-13 10:10
排序算法
算法
强化学习
Q-Learning算法实践
Q-Learning算法与Sarsa算法对比相同点:1.都属于基于价值(value-based)算法的分类,都不需要神经网络。2.基本公式相同:不同点:1.Sarsa属于on-policy算法,Q-Learning属于off-policy算法。Q-Learning能够做出更大胆的决策。On-policy和off-policy区别在于,学习(learn)的时候off-policy并不需要传进next
Eliza_Her
·
2023-06-13 05:23
强化学习
算法
强化学习
强化学习
Sarsa算法实践
公式练习背景寻路游戏,学习到达终点而不掉进黑框的可行路径(但是不一定是最短可行路径)。源码路径:百度PARL包,examples\tutorials\lesson2\sarsa源码分析包含三个文件:gridworld.py、agent.py、train.pyGRIDWORLD提供寻路游戏的虚拟环境Environment,封装了State、Action、Reward和可视化界面,略。AGENT①根据
Eliza_Her
·
2023-06-13 05:53
强化学习
算法
强化学习
人工智能的未来趋势和发展方向
本文将探讨人工智能和机器人领域的未来趋势和发展方向,重点关注以下几个方面:通用人工智能、人机协作、
强化学习
、迁移学习、边缘计算以及道德和法律议题。
PyTechShare
·
2023-06-13 01:31
Python教程-高阶
人工智能
机器人
深度学习
【伤寒
强化学习
训练】打卡第六十七天 一期90天
少阳小柴胡汤之寻找少阳区块(续)功能的少阳什么叫做功能的少阳?用西医的角度来寻找中国人说的少阳,就是少阳区块,就是足少阳胆经的病,郁闷、失调、胆气不降,消化不良、闷痛、常常叹气;夏泻心汤证的心下痞是什么东西?用西医来解释的话,他会说人体的胃酸是很酸的;柴胡的功能,是要帮一个人"调畅气机”,让身体的气能够舒畅不要郁闷;柴胡芍药枳实甘草汤:气郁不舒畅,吃点东西就这里那里都不舒服,就是一个柴胡芍药枳实甘
A卐炏澬焚
·
2023-06-12 23:28
神经网络架构搜索——可微分搜索(DARTS)
背景神经网络架构搜索之前主流的方法主要包括:
强化学习
,进化学习。
AI异构
·
2023-06-12 19:52
亚马逊云科技中国峰会:探索
强化学习
的未来与Amazon DeepRacer赛车比赛
目录一、如何构建自己的第一个
强化学习
模型第一步:创建AWSDeepRacer资源第二步:定义你的赛道第三步:训练你的模型第四步:优化你的模型第五步:在仿真器中测试你的模型第六步:在真实赛道上测试你的模型二
海拥✘
·
2023-06-12 16:45
人工智能
科技
人工智能
机器学习
或许是一个新的算法方向?
今日谷歌DeepMind使用深度
强化学习
发现更快的排序算法,相关论文[1]成果已经发表在Nature上。据报道:该算法可以提速70%,相比之下,快了3倍之多。
冷冻工厂
·
2023-06-12 15:29
程序人生
LLaMA, ChatGLM, BLOOM的参数高效微调实践
(2)在小规模数据上,进行指令微调和基于人类反馈的
强化学习
,更好地对齐最终任务和人类偏好。
汀、人工智能
·
2023-06-12 14:47
AI前沿技术汇总
llama
深度学习
人工智能
chatglm
chatgpt
上一页
33
34
35
36
37
38
39
40
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他