元强化学习第6页

元强化学习

新本郑氏周易-清-恵栋

初王应麟辑郑元易注一卷，其后人附刻玉海之末，虽残章断句，尚颇见汉学之崖畧。于经籍颇为有功，然皆不着所出之书，又次序先后间与经文不应，亦有遗漏未载者。

幻影之心·2025-02-01 10:20

「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

多阶段训练：创新的模型架构DeepSeek-R1的训练方式采用了多阶段循环的策略，具体包括基础训练、强化学习（RL）、微调等多个阶段。这

人工智能学家·2025-02-01 06:23

DeepSeek R1：AI领域的新标杆

此外，R1-Zero模型通过强化学习和测试时计算实现了强大的推理能力，无需监督微调数据，标志着中国在AI领域的快速崛起，挑战美国的主导地位。AI模型在推理能

XianxinMao·2025-02-01 06:23

条件（三元）操作符7. 其他操作符8. 递增和递减操作）

目录一C语言中的操作符详解：1.算术操作符2.关系操作符（比较操作符）3.逻辑操作符4.位操作符5.赋值操作符6.条件（三元）操作符7.其他操作符8.递增和递减操作符二c语言操作符，应用场景：算术操作符

xiaoheshang_123·2025-02-01 04:01

python实现简单的二维有限元计算

有限元算法依据常见的有限元法教材，简单复现悬臂梁在重力作用下的形变（为了变形更明显，重力大小扩大了10倍），还没来得及写注释。【卧槽快跑，没注释！】

成田日上·2025-02-01 03:59

Hindsight Experience Replay (HER) 算法

HindsightExperienceReplay(HER)算法简介HindsightExperienceReplay(HER)是一种强化学习中的技术，旨在解决稀疏奖励问题，特别适用于目标导向的任务（例如机器人控制

C7211BA·2025-01-31 23:25

A3C（Asynchronous Advantage Actor-Critic）算法

A3C（AsynchronousAdvantageActor-Critic）是一种强化学习算法，它结合了Actor-Critic方法和异步更新（AsynchronousUpdates）技术。

C7211BA·2025-01-31 23:25

DeepSeek 推出全新推理模型 R1-Lite 预览版

R1系列模型采用强化学习训练，推理过程中包含大量反思和验证，思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上，取得了媲美o1-preview的推理效果。

三花AI·2025-01-31 22:47

强化学习在自动驾驶中的实现与挑战

强化学习在自动驾驶中的实现与挑战自动驾驶技术作为当今人工智能领域的前沿之一，正通过各种方式改变我们的出行方式。

Echo_Wish·2025-01-31 20:55

AI：263-强化学习在自动驾驶领域的应用与前沿挑战

强化学习在自动驾驶中的应用与挑战自动驾驶汽车是当前人工智能和机器学习的热门研究方向，而强化学习（ReinforcementLearning，RL）因其在复杂动态环境中的决策能力，成为推动自动驾驶技术的重要工具

一键难忘·2025-01-31 20:24

强化学习在自动驾驶技术中的应用与挑战

摘要：围绕强化学习在自动驾驶领域的应用进行了多方面的概括和总结。

电气_空空·2025-01-31 20:54

强化学习：在无人驾驶中的应用

强化学习：在无人驾驶中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着科技的飞速发展，无人驾驶技术逐渐成为汽车工业和人工智能领域的热点

AI天才研究院·2025-01-31 19:23

基于强化学习的自动驾驶决策规划算法

基于强化学习的自动驾驶决策规划算法作者：禅与计算机程序设计艺术1.背景介绍自动驾驶技术是当前人工智能领域最受关注和投入的方向之一。

AI天才研究院·2025-01-31 19:22

【论文复现】一种改进哈里斯鹰优化算法用于连续和离散优化问题

目录1.摘要2.哈里斯鹰算法HHO原理3.改进策略4.结果展示5.参考文献6.代码获取1.摘要哈里斯鹰优化（HHO）是一种基于种群的元启发式优化算法，已被广泛应用于各种测试函数和实际问题。

小O的算法实验室·2025-01-31 09:22

递增的三元子序列

如果存在这样的三元组下标(i,j,k)且满足i

白露塞纳·2025-01-31 07:03

论文笔记（七十）DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（二）

DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning（二）文章概括摘要：2.方法2.3.DeepSeek-R1：冷启动强化学习

墨绿色的摆渡人·2025-01-31 07:01

校招154W！DeepSeek待遇和核心成员曝光！

其高薪职位如深度学习研究员，年薪最高可达税前154万元。同时，该公司也注重给予其他职位合理薪酬，如客户端研发工程师年薪30万，实习生日薪500元，并提供转正机会及房补。

AI生成曾小健·2025-01-31 03:00

程序员护眼指南：Windows设置护眼色

（3）佩戴防蓝光眼镜，可在京东上搜索“小米防蓝光眼镜”，在小米旗舰店上购买99元的防蓝光眼镜。近视的朋友建议下次配眼镜时加

英国老鼠_·2025-01-31 03:57

python断言assert实例_python接口测试assert断言

广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！

weixin_39722921·2025-01-30 23:01

前馈神经网络——最基本的神经网络架构

FNN中的每一层与下一层的神经元之间是完全连接的，但不同层之间的神经元不相互连接。

纠结哥_Shrek·2025-01-30 23:01

pytorch深度Q网络

DQN的关键创新包括：经验回放（ExperienceReplay）：在强化学习中，当前的学习可能会依赖于最近的经验，容易

纠结哥_Shrek·2025-01-30 23:31

【DeepSeek】复现DeepSeek R1？快来看这个Open R1项目实践指南~

因此，这篇博客会从最初的概念入手，带领大家了解OpenR1的原理与技术细节，并侧重讲解其中最为关键的强化学习训练方法之一——GRPO(群组相对策略优化,GroupRela

FF-Studio·2025-01-30 19:24

实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）

但，为了更好的理解强化学习在LLM训练过程中发挥的意义，也为了学习GPRO这个强化学习算法，笔者出此题目，方便大家学习理解。GRPO（GroupRela

FF-Studio·2025-01-30 19:54

启元世界（Inspir.ai）技术浅析（一）

启元世界（Inspir.ai）作为全球领先的通用人工智能平台公司，自2017年成立以来，一直致力于通过人工智能技术提升产业效能和生活体验。

爱研究的小牛·2025-01-30 12:28

python求一个数的阶乘_阶乘计算python

广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！

weixin_39540725·2025-01-30 12:21

微消息队列MQTT（3）（购买阿里云服务（MQTT）（ RocketMq））

苹果酱0567·2025-01-30 11:49

高级测试简历借鉴--深圳0803

2年）+最高学历/学位最近工作（2年）职位：高级软件工程师公司：腾讯科技深圳有限公司行业：计算机软件最高学历/学位专业：信息与计算科学学校：武汉信息科技学院学历/学位：本科（统招3、目前年收入：15万元(

V紫玲珑·2025-01-30 10:44

Payment Kit（华为支付服务）概述

PaymentKit（华为支付服务）提供了方便、安全和快捷的支付方式，开发者在开发的商户应用/元服务中接入华为支付服务便捷且快速。

李洋-蛟龙腾飞公司·2025-01-30 09:03

贪心算法--加油站、公路问题

公路上每个站点都可以加油，编号为iii的站点一升油的价格为aia_iai元，且每个站点只出售整数升的油。小苞想从站点111开车到站点nnn，一开始小苞在站点111且车的油箱是空的。

我不叫喂！我叫楚雨荨·2025-01-30 07:46

算法-三数之和

用于存储最终结果的数组constresult=[];//首先对数组进行排序，方便后续操作nums.sort((a,b)=>a-b);constn=nums.length;//遍历数组，将当前元素作为三元组的第一个元素

不停留·2025-01-30 07:45

Rust中奖励函数的实现与应用

Rust中奖励函数的实现与应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Rust,奖励函数,强化学习,机器学习,状态空间1.背景介绍1.1问题的由来在机器学习领域

AI天才研究院·2025-01-30 07:45

LLM based Single Agent System

LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，

AGI大模型与大数据研究院·2025-01-30 05:03

AI常见的算法

人工智能（AI）中常见的算法分为多个领域，如机器学习、深度学习、强化学习、自然语言处理和计算机视觉等。

纠结哥_Shrek·2025-01-30 03:49

机器学习Day01

人工智能三大概念及其关系人工智能（AI）：使用计算机来模拟或者代替人类机器学习（ML）：机器自动学习，并不只由人定义规则编程深度学习（DL）：大脑仿生，模拟人大脑神经网络，设计一层层神经元模拟事物机器学习是实现人工智能的一种途径

酒脑猫·2025-01-30 02:06

【DL】神经网络与机器学习基础知识介绍（一）

文章目录基本通用概念梯度下降算法数据工程训练技术偏差与方差防止过拟合评估指标决策树基本通用概念机器学习的类型：监督学习（SupervisedLearning）：分类，回归无监督学习（UnsupervisedLearning）：聚类，降维强化学习

MengWoods·2025-01-30 01:01

DeepSeek 模型：架构创新与实际应用详解

汪子熙·2025-01-29 23:52

python获取键盘按键_python获取键盘

广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！

weixin_39992417·2025-01-29 23:19

Python运算符

文章目录1.运算符1.1运算符的概念1.2运算符的分类2.算术运算符3.赋值运算符4.比较运算符5.逻辑运算符5.1not逻辑非5.2and逻辑与5.3or逻辑或5.4⾮布尔值的与或运算6.条件运算符（三元运算符

SSSCAESAR·2025-01-29 22:09

提示词设计流程 ——《如何从0开始构建一个基于强化学习的AI智能体》使用场景为例

《如何从0开始构建一个基于强化学习的AI智能体》使用场景提示词设计流程是否识别改进点分析评估结果根据反馈调整提示词细化内容要求增强专业术语调整约束条件验证专业性检查内容准确性评估逻辑连贯性上下文提供角色设定指令描述输入问题设计约束条件设定输出格式定义示例参考提供开始明确目标与需求确定任务类型定义预期结果识别关键问题结构化提示词设计生成初始提示词使用

由数入道·2025-01-29 21:07

【DeepSeek】大模型强化学习训练GRPO算法，你学会了吗？

如果你还不知道GRPO，你可以先看这篇帖子：【DeepSeek】一文详解GRPO算法——为什么能减少大模型训练资源？看了论文跟没看一样？做两道题练练！曾经最痛恨的应试教育，却能让你深深记住这知识点。由ChatGPTo1pro生成，o1pro的输出token和写作能力比DeepSeekR1强。GRPO原论文链接：https://arxiv.org/abs/2402.03300GRPO中译文链接：ht

FF-Studio·2025-01-29 21:56

《深度剖析Q-learning中的Q值：解锁智能决策的密码》

在人工智能的飞速发展进程中，强化学习作为一个关键领域，为智能体与环境交互并学习最优行为策略提供了有效框架。

·2025-01-29 19:51

火出圈的DeepSeeK R1详解

强化学习驱动的训练：采用大规模强化学习技术，仅需极少量标注数据，显著提升推理能力。长链推理（CoT）支持：思维链长度可达数万字，能逐步分解复杂问题，通过多步骤逻辑推理解决问题。

清风AI·2025-01-29 17:58

DeepSeek：通用人工智能的技术前沿与创新突破

其研发方向覆盖自然语言处理、多模态交互、强化学习等领域，并在模型架构、训练效率及实际应用场景中取得显著成果。二、核心

热爱分享的博士僧·2025-01-29 17:52

0小明的数组游戏

0小明的数组游戏-蓝桥云课问题描述今天小明获得了三个长度为n的数组，分别为a,b,c，小明盯着这三个数组看了半天，脑子里渐渐产生了一个想法，我能否知道这三个数组中有多少对三元组下标{i,j,k}满足ai

qystca·2025-01-29 16:12

【人工智能】Python常用库-TensorFlow常用方法教程

TensorFlow是一个广泛应用的开源深度学习框架，支持多种机器学习任务，如深度学习、神经网络、强化学习等。以下是TensorFlow的详细教程，涵盖基础使用方法和示例代码。

IT古董·2025-01-29 15:07

有限元分析学习——Anasys Workbanch第一阶段笔记梳理

第一阶段笔记主要源自于哔哩哔哩《ANSYS-workbench有限元分析应用基础教程》张晔主要内容导图：笔记导航如下：AnasysWorkbanch第一阶段笔记(1)基本信息与结果解读_有限元分析变形比例

垂杨有暮鸦⊙_⊙·2025-01-29 11:57

OpenAI的编程语言和框架，给程序员带来了帮助有哪些

OpenAI的研究涉及深度学习、自然语言处理、视觉感知、强化学习等多个领域，并已在各种应用中取得了令人瞩目的成果。例如，在机器人领域，Open

API技术大佬Anzexi58·2025-01-29 07:46

强化学习很多ac架构的算法比如ppo，为什么使用状态价值网络而不使用动作价值网络实现critic呢?｜状态价值网络的优势与挑战｜Actor-Critic｜状态价值｜强化学习

目录1.强化学习的基础1.1策略与价值函数2.Actor-Critic架构概述2.1Critic的作用3.为什么选择状态价值网络？

concisedistinct·2025-01-29 01:27

强化学习中，为什么用AC架构

目录强化学习中，为什么用AC架构为什么用AC架构？

资源存储库·2025-01-29 01:25

上一页 2 3 4 5 6 7 8 9 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

推荐频道

元强化学习

相关性分析——点二列相关分析

新本郑氏周易-清-恵栋

「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

DeepSeek R1：AI领域的新标杆

条件（三元）操作符7. 其他操作符8. 递增和递减操作）

python实现简单的二维有限元计算

Hindsight Experience Replay (HER) 算法

A3C（Asynchronous Advantage Actor-Critic）算法

DeepSeek 推出全新推理模型 R1-Lite 预览版

强化学习在自动驾驶中的实现与挑战

AI：263-强化学习在自动驾驶领域的应用与前沿挑战

强化学习在自动驾驶技术中的应用与挑战

强化学习：在无人驾驶中的应用

基于强化学习的自动驾驶决策规划算法

【论文复现】一种改进哈里斯鹰优化算法用于连续和离散优化问题

递增的三元子序列

论文笔记（七十）DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（二）

校招154W！DeepSeek待遇和核心成员曝光！

程序员护眼指南：Windows设置护眼色

python断言assert实例_python接口测试assert断言

前馈神经网络——最基本的神经网络架构

pytorch深度Q网络

【DeepSeek】复现DeepSeek R1？快来看这个Open R1项目实践指南~

实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）

启元世界（Inspir.ai）技术浅析（一）

python求一个数的阶乘_阶乘计算python

微消息队列MQTT（3）（购买阿里云服务 （MQTT）（ RocketMq））

高级测试简历借鉴--深圳0803

Payment Kit（华为支付服务）概述

贪心算法--加油站、公路问题

算法-三数之和

Rust中奖励函数的实现与应用

LLM based Single Agent System

AI常见的算法

机器学习Day01

【DL】神经网络与机器学习基础知识介绍（一）

DeepSeek 模型：架构创新与实际应用详解

python获取键盘按键_python获取键盘

Python运算符

提示词设计流程 ——《如何从0开始构建一个基于强化学习的AI智能体》使用场景为例

【DeepSeek】大模型强化学习训练GRPO算法，你学会了吗？

《深度剖析Q-learning中的Q值：解锁智能决策的密码》

火出圈的DeepSeeK R1详解

DeepSeek：通用人工智能的技术前沿与创新突破

0小明的数组游戏

【人工智能】Python常用库-TensorFlow常用方法教程

有限元分析学习——Anasys Workbanch第一阶段笔记梳理

OpenAI的编程语言和框架，给程序员带来了帮助有哪些

强化学习很多ac架构的算法比如ppo，为什么使用状态价值网络而不使用动作价值网络实现critic呢?｜状态价值网络的优势与挑战｜Actor-Critic｜状态价值｜强化学习

强化学习中，为什么用AC架构

微消息队列MQTT（3）（购买阿里云服务（MQTT）（ RocketMq））