飞桨parl_基础篇_强化学习第5页

大厂学院雷丰阳 JUC 学习笔记

基础篇synchronized和lock的区别1.从本质上：synchronized是Java内的一个关键字，lock是一个接口。

偷偷儿·2025-02-16 21:40

揭秘DeepSeek内幕：清华教授剖析AI模型技术原理

在本文中，清华大学长聘副教授将深入剖析DeepSeekR1背后的大规模强化学习技术及其基本原理，并进一步展望大模型技术未来的发展方向。

大模型.·2025-02-16 19:23

DeepSeek正重构具身大模型和人形机器人赛道！

2024年1月20日，公司发布全球首个完全通过强化学习训练的专注于推理任务的高性能语言模型DeepSeek-R1

Robot251·2025-02-16 17:12

C语言【基础篇】之简单语法——构建程序大厦的基石解析

链接:C语言【基础篇】之搭建环境——从新手到实战的必备前奏本文我们介绍一下C语言最基础的一些知识，为构建程序大厦打好基石。第一个程序分析HelloWorld程序分析#inclu

EnigmaCoder·2025-02-16 07:53

DeepSeek-R1-Zero 与 DeepSeek-R1 的异同与优劣分析

DeepSeek-R1-Zero与DeepSeek-R1的异同与优劣分析一、相同点核心训练方法：两者均基于强化学习（RL），采用GroupRelativePolicyOptimization（GRPO）

AI生成曾小健·2025-02-16 04:34

《深度Q网络优化：突破高维连续状态空间的束缚》

在人工智能的发展历程中，深度Q网络（DQN）作为强化学习与深度学习融合的关键成果，为解决复杂决策问题开辟了新路径。

·2025-02-15 18:22

DQN的原理和代码实现

文章目录1.概述2.DQN的训练步骤2.1初始化2.2训练循环2.3终止条件2.4评估3.代码示例1.概述深度Q网络（DeepQ-Network,DQN）是强化学习中的一种重要算法，由GoogleDeepMind

SmallerFL·2025-02-15 15:23

从零到一学习c++（基础篇--筑基期八-表达式）

从零到一学习C++（基础篇）作者：羡鱼肘子温馨提示1：本篇是记录我的学习经历，会有不少片面的认知，万分期待您的指正。

羡鱼肘子·2025-02-15 15:22

DQN原理和代码实现

参考：王树森《强化学习》书籍、课程、代码1、基本概念折扣回报：Ut=Rt+γ⋅Rt+1+γ2⋅Rt+2+⋯+γn−t⋅Rn.U_t=R_t+\gamma\cdotR_{t+1}+\gamma^2\cdotR

KPer_Yang·2025-02-15 14:20

go+系列【数组、集合基础篇】

一、GO的代码的数组如果我们想要用GO语言去完成一个数组的初始化并且赋值的话是比较繁琐的，他需要的代码如下：packagemainimport"fmt"funcmain(){a:=[]float64{1,2,3.4}fmt.Println(a)}而我们使用GO+的话就仅仅只这样写：a:=[1,2,3.4]println(a)对比来看一下GO+对比与GO，省去了类型的定义，GO+基本上和GO的代码时

五岁小孩新之助·2025-02-15 14:16

强化学习在机器人控制中的应用：从理论到实践

强化学习在机器人控制中的应用：从理论到实践大家好，我是你们熟悉的人工智能与Python领域自媒体创作者Echo_Wish。今天我们来聊聊一个炙手可热的话题——强化学习在机器人控制中的应用。

Echo_Wish·2025-02-15 13:08

X-R1 项目代码文件的详细剖析并精读rewards、grpo、x_grpo_trainer（src/x_r1）

这个项目名为[X-R1](https://github.com/dhcode-cpp/X-R1)，是一个基于强化学习的训练框架，旨在构建一个易于使用、低成本的训练框架，以加速ScalingPost-Training

仙人掌_lz·2025-02-15 12:34

Python深度学习代做目标检测NLP计算机视觉强化学习

了解您的需求，您似乎在寻找关于Python深度学习领域的代做服务，特别是在目标检测、自然语言处理（NLP）、计算机视觉以及强化学习方面。以下是一些关于这些领域的概述以及寻找相关服务的建议。

matlabgoodboy·2025-02-15 10:43

Bengio新作Aaren：探索Transformer性能与RNN效率的融合

实验表明，Aaren在四个流行的序列问题设置（强化学习、事件预测、时间序列分类和时间序列预测）的38个数据

AI记忆·2025-02-15 03:17

先进制造aps专题二十九基于ai智能体的生产排程和工厂生产仿真引擎的设计

再在工厂仿真引擎里仿真执行，这样可以预先分析计划和执行的差异情况并进行调整优化这里的产生生产计划，仿真生产执行和数据分析都是人工进行的这些工作可以让ai智能体来做，从而实现整套流程的自动化和智能化我们可以在强化学习框架中结合排产仿真

lijianhua_9712·2025-02-14 21:02

DeepSeek R1：引领未来教育革命的自适应学习路径规划系统

随着人工智能技术的进步，特别是深度学习和强化学习的应用，我们能够更加精准地识别学习者的需求，并据此设计出最适合他们的学习路径。利用先进的算法和模型来实现对学习路径的智能化管理。

Coderabo·2025-02-14 18:38

开源 APM 性能检测系统与架构

开源APM性能检测系统与架构（一）APM基础篇介绍APM的定义、核心思想和作用。APM，全称ApplicationPerformanceManagement，是一种应用性能监控工具。

老黄浅谈质量·2025-02-14 15:17

Deepseek背后的强化学习RL入门理解和Python脚本实现

强化学习简单原理强化学习是一种让智能体通过与环境的交互来学习最优行为策略的方法。想象一下，你有一只小狗，你想让它学会自己找到回家的路。

大F的智能小课·2025-02-14 12:54

DeepSeek正重构人形机器人和具身大模型赛道！

2024年1月20日，公司发布全球首个完全通过强化学习训练的专注于推理任务的高性能语言模型DeepSeek-R1

Robot251·2025-02-14 10:38

【AI论文】使用大型推理模型进行竞技编程

摘要：我们的研究表明，将强化学习应用于大型语言模型（LLMs）能显著提升复杂编码和推理任务的性能。

东临碣石82·2025-02-13 23:06

Vue3笔记_＜入门基础篇＞

目录Setup语法糖ref:定义一个数据的响应式reactive:定义一个对象类型的响应式数据toRef()toRefs()计算属性watchEffect函数生命周期Vue3获取DomPropsVue3自定义事件Setup语法糖setup是一个专门用于组合式API的特殊钩子函数，只在初始化时执行一次。setup有两种返回值:对象。对象中的属性，方法在模板中都可以直接使用函数。自定义渲染内容，覆盖模

我的白银时代·2025-02-13 23:01

Stable Diffusion 教程基础篇：如何写出好的prompt，一些技巧和原则

StableDiffusion教程-中文AskAIforART·Originaltxt2imgandimg2imgmodes·基础模式之文生图/图生图点击可放大基础入门部分输入一段话，生成一张图。这是AI绘画的核心。入门就是那么简单，不过，这段话怎么写，其实也是有窍门的。在StableDiffusion里面，这段描述也就是Prompt，我们称之为AI的魔法咒语。那么，最开始我们需要怎么做呢？当然是

AI想象家·2025-02-13 22:24

【必看】凭啥？DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能

其核心策略包括减少监督微调（SFT）步骤，仅依赖强化学习（RL）技术。DeepSeek-R1-Zero版本完全跳过SFT，仅通过RL进行训练。

大F的智能小课·2025-02-13 21:51

从零到一学习c++（基础篇--筑基期七-vector与迭代器）

从零到一学习C++（基础篇）作者：羡鱼肘子温馨提示1：本篇是记录我的学习经历，会有不少片面的认知，万分期待您的指正。温馨提示2：本篇会尽量用更加通俗的语言介绍c++的基础，用通俗的语言去解释术语。

羡鱼肘子·2025-02-13 21:47

书籍-《强化学习数学基础》

书籍：MathematicalFoundationsofReinforcementLearning作者：赵世钰出版：Springer编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《强化学习数学基础

·2025-02-13 20:48

强化学习算法：蒙特卡洛树搜索 (Monte Carlo Tree Search) 原理与代码实例讲解

强化学习算法：蒙特卡洛树搜索(MonteCarloTreeSearch)原理与代码实例讲解关键词：蒙特卡洛树搜索,强化学习,决策树,搜索算法,博弈策略,应用场景,代码实现1.背景介绍1.1问题由来强化学习

杭州大厂Java程序媛·2025-02-13 07:02

MySQL面经

目录基础篇MySQL的存储引擎有哪些？为什么常用InnoDB？

MySGDLife·2025-02-12 18:59

普惠AI 如何在 Anolis OS 8 上部署生产可用的 DeepSeek 推理服务

背景介绍DeepSeek-R1DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。

·2025-02-12 17:52

从零到一学习c++（基础篇--筑基期四-auto、decltype）

从零到一学习C++（基础篇）作者：羡鱼肘子温馨提示1：本篇是记录我的学习经历，会有不少片面的认知，万分期待您的指正。

羡鱼肘子·2025-02-12 15:06

从零到一学习c++（基础篇--筑基期五-数组、指针）

从零到一学习C++（基础篇）作者：羡鱼肘子温馨提示1：本篇是记录我的学习经历，会有不少片面的认知，万分期待您的指正。

羡鱼肘子·2025-02-12 15:06

从零到一学习python（基础篇）

python:从零到一作者：羡鱼肘子可运行代码和详细教程见：PythonFromZeroToOne/python从零到一(基础篇）atmain·lnbhy/PythonFromZeroToOne·GitHubCodeMarkdown

羡鱼肘子·2025-02-12 15:36

【MySQL】（基础篇四） —— 创建数据库和表

管理数据库和表本文介绍如何使用SQL命令管理MySQL的数据库和表首先经过前几篇文章中对于SQL前置知识的理解，我们知道，数据库和表的关系类似于文件系统中的文件夹和文件，一个数据库中可以有多个表，想要使用表并对其中的数据进行管理，首先应该对其所属数据库进行管理。管理数据库创建数据库在MySQL中，创建数据库的SQL命令相对简单，基本语法如下：CREATEDATABASE数据库名;数据库名应该保证唯

麦田里的稻草人w·2025-02-12 15:35

在飞桨AIStudio星河社区使用Ollama运行DeepSeek-r1大模型

星河社区是非常好的开源AI社区，提供免费的V100算力环境。前段时间对DeepSeek感兴趣，发现使用Ollama部署非常简单方便。但是星河社区因为没有sudo权限，所以Ollama没法按照常规方法安装，后来发现可以使用手动方法安装手动安装Ollama下载Ollama软件wgethttps://github.com/ollama/ollama/releases/latest/download/ol

skywalk8163·2025-02-12 14:29

手把手教学，DeepSeek-R1微调全流程拆解

手把手教学，DeepSeek-R1微调全流程拆解原创极客见识GeekSavvy2025年02月09日09:02广东DeepSeek通过发布其开源推理模型DeepSeek-R1颠覆了AI格局，该模型使用创新的强化学习技术

AI生成曾小健·2025-02-12 05:01

对DeepSeek-R1通过强化学习提升大型语言模型推理能力的技术原理解析

强化学习基础•基本概念：强化学习是一种机器学习方法，智能体（模型）通过与环境进行交互，根据环境反馈的奖励信号来学习最优的行为策略。

一只贴代码君·2025-02-12 02:12

Java 高频面试闯关秘籍

目录Java基础篇：涵盖OOP、多线程、集合等基础知识。Java高级篇：深入探讨HashMap、JVM、线程池等高级特性。

向画·2025-02-11 23:48

【专题】DeepSeek颠覆性在于实现AI平权、惊艳世界，算力与应用将迎来结构性变化报告汇总PDF洞察（附原数据表）

DeepSeek-R1的出现是个大事件，它在技术创新方面，通过独特的强化学习与蒸馏技术，在性能上逼近国际领先模型。

·2025-02-11 21:14

《深入浅出多模态》（二）：多模态任务及数据集介绍

作者主页:GoAI|公众号:GoAI的学习小屋|交流群:704932595|个人简介：掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计

GoAI·2025-02-11 16:53

DeepSeek R1 简易指南：架构、本地部署和硬件要求

DeepSeek-R1-Zero证明了纯粹的强化学习是可行的，而DeepSeek-R1则展示了如何将监督学习与强化学习相结合，从而创建出能力更强、更实用的模型。

·2025-02-11 12:49

『大模型笔记』国外大神对DeepSeek R1的科普！

强化学习（新的规模定律？）模型蒸馏（新的规模定律？）2025年的预测地缘政治：Distealing结论讨论二

AI大模型前沿研究·2025-02-11 09:02

从零开始：用Python手写神经网络

从图像识别到自然语言处理，再到强化学习，神经网络的身影无处不在。然而，对于许多初学者来说，神经网络似乎是一个神秘而复杂的黑盒子。

WHCIS·2025-02-11 08:27

AI分支知识之机器学习，深度学习，强化学习的关系

机器学习，深度学习，强化学习的关系这一篇文章我们来探讨下AI领域中机器学习（ML）、深度学习（DL）和强化学习（RL）的关系。

王钧石的技术博客·2025-02-11 08:55

强化学习关键技术：重要性采样深度剖析

目录一、引言二、重要性采样基本原理（一）什么是重要性采样（二）重要性采样在强化学习中的作用三、判断采样好坏的方法（一）偏差（Bias）（二）方差（Variance）（三）有效样本数量（EffectiveSampleSize

进一步有进一步的欢喜·2025-02-11 08:21

DeepSeek R1为什么能

DeepSeekR1模仿人类思考方式的核心在于其纯强化学习训练方式，这种方式更接近人类通过试错和反馈来学习的过程。与GPT等传统模型依赖大量标注数据进行监督学习不同，Dee

森焱森·2025-02-11 03:48

大模型入门（六）—— RLHF微调大模型

2）训练奖励模型奖励模型是输入一个文本序列，模型给出符合人类偏好的奖励数值，这个奖励数值对于后面的强化学习训练非常重要。构建奖励模型的训练数据一般是同一个数据用不同的语言模型生成结果，然后人工打分。

LLM.·2025-02-10 23:17

汽车自动驾驶AI

决策系统：基于感知数据，AI通过深度学习、强化学习等算法进行路径规划和决策控制。例如，利用

pps-key·2025-02-10 07:00

2024最强Java面试八股文（精简、纯手打）

，JVM，多线程，数据库（MySQL/Redis）SSM，Dubbo，网络，MQ，Zookeeper，Netty，微服务，大数据，算法，项目，设计模式等，篇幅足足近2千页，大家面试前拿去提前刷刷，一、基础篇

m0_74823021·2025-02-10 06:23

大模型学习笔记 - LLM 对齐优化算法 DPO

训练的目标是语言模型损失，任务是nexttokenprediction，生成的token不可控，为了让大模型能生成符合人类偏好的答案(无毒无害等）一般都会进行微调和人类对齐，通常采用的方法是基于人类反馈的强化学习方法

JL_Jessie·2025-02-10 03:54

一切皆是映射：域适应在DQN中的研究进展与挑战

1.背景介绍1.1深度强化学习与域适应的邂逅深度强化学习(DeepReinforcementLearning,DRL)在近年来取得了瞩目的成就，从Atari游戏到围棋，再到机器人控制，其强大的学习能力令人惊叹

AI天才研究院·2025-02-10 00:33

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读

文章目录前言一、摘要二、引言三、贡献1.贡献后训练：基础模型的大规模强化学习蒸馏：较小的模型也可以很强大2.评估结果概览reasoningtasksknowledgeohters四、方法1.Overview2

tangjunjun-owen·2025-02-09 23:54

推荐频道

飞桨parl_基础篇_强化学习

大厂学院 雷丰阳 JUC 学习笔记

揭秘DeepSeek内幕：清华教授剖析AI模型技术原理

DeepSeek正重构具身大模型和人形机器人赛道！

C语言【基础篇】之简单语法——构建程序大厦的基石解析

DeepSeek-R1-Zero 与 DeepSeek-R1 的异同与优劣分析

《深度Q网络优化：突破高维连续状态空间的束缚》

DQN的原理和代码实现

从零到一学习c++（基础篇--筑基期八-表达式）

DQN原理和代码实现

go+系列【数组、集合基础篇】

强化学习在机器人控制中的应用：从理论到实践

X-R1 项目代码文件的详细剖析并精读rewards、grpo、x_grpo_trainer（src/x_r1）

Python深度学习代做目标检测NLP计算机视觉强化学习

Bengio新作Aaren：探索Transformer性能与RNN效率的融合

先进制造aps专题二十九 基于ai智能体的生产排程和工厂生产仿真引擎的设计

DeepSeek R1：引领未来教育革命的自适应学习路径规划系统

开源 APM 性能检测系统与架构

Deepseek背后的强化学习RL入门理解和Python脚本实现

DeepSeek正重构人形机器人和具身大模型赛道！

【AI论文】使用大型推理模型进行竞技编程

Vue3笔记_＜入门基础篇＞

Stable Diffusion 教程基础篇： 如何写出好的prompt，一些技巧和原则

【必看】凭啥？DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能

从零到一学习c++（基础篇--筑基期七-vector与迭代器）

书籍-《强化学习数学基础》

强化学习算法：蒙特卡洛树搜索 (Monte Carlo Tree Search) 原理与代码实例讲解

MySQL面经

普惠AI 如何在 Anolis OS 8 上部署生产可用的 DeepSeek 推理服务

从零到一学习c++（基础篇--筑基期四-auto、decltype）

从零到一学习c++（基础篇--筑基期五-数组、指针）

从零到一学习python（基础篇）

【MySQL】（基础篇四） —— 创建数据库和表

在飞桨AIStudio星河社区使用Ollama运行DeepSeek-r1大模型

手把手教学，DeepSeek-R1微调全流程拆解

对DeepSeek-R1通过强化学习提升大型语言模型推理能力的技术原理解析

Java 高频面试闯关秘籍

【专题】DeepSeek颠覆性在于实现AI平权、惊艳世界，算力与应用将迎来结构性变化报告汇总PDF洞察（附原数据表）

《深入浅出多模态》（二）：多模态任务及数据集介绍

DeepSeek R1 简易指南：架构、本地部署和硬件要求

『大模型笔记』国外大神对DeepSeek R1的科普！

从零开始：用Python手写神经网络

AI分支知识之机器学习，深度学习，强化学习的关系

强化学习关键技术：重要性采样深度剖析

DeepSeek R1为什么能

大模型入门（六）—— RLHF微调大模型

汽车自动驾驶AI

2024最强Java面试八股文（精简、纯手打）

大模型学习笔记 - LLM 对齐优化算法 DPO

一切皆是映射：域适应在DQN中的研究进展与挑战

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读

大厂学院雷丰阳 JUC 学习笔记

先进制造aps专题二十九基于ai智能体的生产排程和工厂生产仿真引擎的设计

Stable Diffusion 教程基础篇：如何写出好的prompt，一些技巧和原则