动手强化学习第6页

Deepseek成功启示：从 TRPO 到 GRPO训练LLM

本文将深入探讨LLMs的训练过程，特别是强化学习（ReinforcementLearning，RL）（深度解析DeepSeekR1：强化学习与知识蒸馏的协同力量）在这一领域的应用，从TRP

大模型之路·2025-02-08 20:03

机器学习模型创建的数学原理

1模型工作原理机器学习学习模型主要分为监督学习、无监督学习、半监督学习和强化学习，本文聚焦探讨目前应用最为广泛的监督学习问题，下午如未特殊指明，机器学习特指有监督学习机器学习。

HadesZ~·2025-02-08 15:04

动手写ORM框架 - GeeORM第一天 database/sql 基础

文章目录1初识SQLite2database/sql标准库3实现一个简单的log库4核心结构Session本文是7天用Go从零实现ORM框架GeeORM的第一篇。介绍了SQLite的基础操作（连接数据库，创建表、增删记录等）。使用Go语言标准库database/sql连接并操作SQLite数据库，并简单封装。代码约150行1初识SQLiteSQLiteisaC-languagelibrarytha

程序员林北北·2025-02-08 15:32

动手学图神经网络（12）：MovieLens上的链接回归

MovieLens上的链接回归在MovieLens数据集上进行评分预测的实践过程，包括数据处理、模型构建、训练以及评估等步骤，预测用户对电影的评分（即边的属性值）。环境设置使用pip安装pyg-lib、pytorch_geometric、sentence_transformers、fuzzywuzzy、captum等。importtorchprint(torch.__version__)impor

段智华·2025-02-08 11:07

力扣77题组合

示例:输入:n=4,k=2输出:[[2,4],[3,4],[2,3],[1,2],[1,3],[1,4],]思路:1.动手写一下,是如何组合的,然后可以发现,可以类似一棵树,选择一个数,往下,继续选择下一个数

zzxdddd·2025-02-08 10:25

一切皆是映射：强化学习在医疗诊断中的应用：挑战与机遇

《一切皆是映射：强化学习在医疗诊断中的应用：挑战与机遇》关键词强化学习，医疗诊断，图像识别，数据预处理，算法优化摘要随着医疗技术的发展，医疗诊断的准确性和效率越来越受到关注。

AI天才研究院·2025-02-08 07:28

DeepSeek-R1深度报告：基于Python强化学习的前沿长链推理模型揭秘与实战——兼谈SEO优化与实用经验分享

【DeepSeek-R1深度报告：基于Python强化学习的前沿长链推理模型揭秘与实战——兼谈SEO优化与实用经验分享】配合此文章使用，效果更佳：DeepSeek-R1深度报告——50道相关面试题——深刻理解相关概念

快撑死的鱼·2025-02-08 05:19

DeepSeek模型与OpenAI模型原理和技术架构的异同分析

DeepSeek模型与OpenAI模型原理和技术架构的异同分析一、模型原理（一）DeepSeekR1DeepSeekR1的核心原理是基于强化学习（RL）的训练方式，其创新之处在于不依赖任何监督微调（SFT

程序猿000001号·2025-02-08 04:10

【论文阅读】DeepSeek-R1：通过强化学习激励LLMs的推理能力 | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL

DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearningDeepSeek-R1：通过强化学习激励LLMs的推理能力

AI天才研究院·2025-02-07 22:05

深入浅出 DeepSeek-Coder-V2 是如何打破闭源模型封锁的

今天，我们就从模型架构、训练数据、强化学习优化三

fertiland·2025-02-07 17:33

SRMT：一种融合共享记忆与稀疏注意力的多智能体强化学习框架

在人工智能(AI)和强化学习(RL)领域的发展进程中，长期记忆维持和决策优化一直是核心技术难点。传统强化学习模型在经验回溯方面存在局限性，这显著制约了其在复杂动态环境中的应用效果。

·2025-02-07 13:28

【Elasticsearch】Elasticsearch：aggregation介绍

文章目录1.概述2.关于ElasticFacets的一点背景3.准备数据4.动手实践5.例子MetricAggregationsBucketAggregations内嵌BucketAggregations1

九师兄·2025-02-07 10:47

CentOS 7.3 Linux系统安装过程介绍

在学习Linux系统的过程中，我们需要安装一个Linux系统以供操练和实践，多动手多实

dvlinker·2025-02-07 04:35

KNN算法：从思想到实现（附代码）

本文将详细介绍KNN的核心概念、使用方法及其在sklearn中的实现，并展示如何自己动手编写一个简单的KNN算法。新样本寻找K个最近邻分类问题:多数表决回归问题:均值计算KNN核心思想如何做一个样

lihuayong·2025-02-07 03:29

[论文笔记] Deepseek技术报告

1.总体概述背景与目标报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。

心心喵·2025-02-06 22:53

Python视频制作引擎Manim安装教程2024版(科学概念可视化)_下载mainm引擎

三、入门学习视频我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们

m0_61067876·2025-02-06 15:13

它在强化学习中的作用是什么？

“若要得到救赎，必先承受痛苦。”作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！

追光者♂·2025-02-06 14:34

深度学习与搜索引擎优化的结合：DeepSeek的创新与探索

目录引言1.传统搜索引擎的局限性2.深度学习在搜索引擎中的作用3.DeepSeek实现搜索引擎优化的关键技术3.1神经网络与搜索引擎优化3.2自然语言处理与查询理解3.3深度强化学习与搜索结果排序4.DeepSeek

云边有个稻草人·2025-02-06 10:37

AI协助探索AI新构型自动化创新的技术实现

一、AI自进化架构的核心范式1.元代码生成与模块化重构-代码级自编程：基于神经架构搜索的强化学习框架，AI可通过生成元代码模板（框架的抽象层定义）自动组合功能模块。

liron71·2025-02-06 10:35

国家超算平台上线DeepSeek - R1系列模型：开启AI新征程

它用了强化学习训练，推理的时候会反复思考验证，思维链能有好几万字长。在数学、代码编写和复杂逻辑推理这些方面，表现相当厉害

CodeJourney.·2025-02-06 08:25

AI大模型探秘：核心能力与应用场景深度解析

AI：包含很多术语，如：模式识别、自然语言处理、神经网络、机器学习、深度学习、强化学习、人类反馈强化学习等。类比：AI是电力–吴恩达。

程序员辣条·2025-02-06 08:53

一个聚合搜索网站——老马知搜

偶然看到别人的一个需求，好像自己也挺需要的，于是自己动手做了一个。

笑容为你·2025-02-06 05:30

DeepSeek-R1：通过强化学习提升大型语言模型推理能力的探索

DeepSeek-R1：通过强化学习提升大型语言模型推理能力的探索在人工智能领域，大型语言模型（LLMs）的发展日新月异，其在自然语言处理和生成任务中的表现逐渐接近人类水平。

kaichu2·2025-02-06 03:07

第十章 Python编程基础——Python 学习资源与进阶方向

动手实践：学完知识点立刻写代码，巩固记忆。权威学习资源官方文档Python官方文档：https://docs.python.org/3/优点：最权威的参考手册，涵盖所有语法和标准库。适合

你把貂蝉藏哪了·2025-02-06 00:14

Vue演练场基础知识（七）插槽

为学习Vue基础知识，我动手操作通关了Vue演练场，该演练场教程的目标是快速体验使用Vue是什么感受，设置偏好时我选的是选项式+单文件组件。

暗暗那·2025-02-05 22:06

免费搭建个人博客——hexo搭建教程

一番搜索后，在知乎上找到了一个hexo个人博客建立教程，非常详细地介绍了如何从0到1搭建hexo博客，就动手跟着这位博主的教程做了。

暗暗那·2025-02-05 22:06

机器学习在金融领域的应用

个性化服务需求1.2机器学习的兴起1.2.1大数据时代的到来1.2.2计算能力的提升1.2.3算法的不断创新2.核心概念与联系2.1机器学习的定义与分类2.1.1有监督学习2.1.2无监督学习2.1.3强化学习

AI天才研究院·2025-02-05 17:01

LLM 算法工程师的速成指南：微调、强化学习微调与偏好微调

OpenAI近期在直播中，提到了两个新的概念：①强化学习微调（ReinforcementFine-Tuning）：仅需少量高质量数据（数十到数千个），模型即可通过强化学习处理复杂任务。

大模型玩家·2025-02-05 16:24

一切皆是映射：元学习中的神经架构搜索（NAS）

元学习神经架构搜索NAS遗传算法强化学习演化算法一切皆是映射：元学习中的神经架构搜索（NAS）在人工智能的广阔领域中，神经架构搜索（NeuralArchitectureSearch，简称NAS）是一颗璀璨的明星

杭州大厂Java程序媛·2025-02-05 16:22

机器学习，深度学习，神经网络，深度神经网络

深度学习的算法又分很多种，比较典型的四种：卷积神经网络—CNN,循环神经网络—RNN,生成对抗网络—GANs,深度强化学习—RL。机器学习和深度学习的

武昌库里写JAVA·2025-02-05 12:52

DeepSeek-R1全面超越OpenAI o1：开源大模型训练范式革新

OpenAI早期专注于强化学习（RL），但在Transformer结构问世后，迅速调整方向，借助Google的开源研究开发出强大的LLM。然而，尽

·2025-02-05 02:16

OpenAI 模型与 DeepSeek 模型使用的强化学习有何不同

OpenAI模型与DeepSeek模型使用的强化学习有何不同阅读时长：15分钟发布时间：2025-02-04近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM

·2025-02-04 18:02

【大模型应用开发动手做AI Agent】第二轮思考：模型决定计算

【大模型应用开发动手做AIAgent】第二轮思考：模型决定计算关键词：大模型，AIAgent，模型决定计算，模型优化，计算优化，硬件加速，效率提升1.背景介绍随着深度学习技术的飞速发展，大模型在自然语言处理

AGI大模型与大数据研究院·2025-02-04 16:30

DeepSeek R1 AI 论文翻译

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。

·2025-02-04 14:27

人工智能机器学习基本概念详解

本文将详细探讨机器学习的基本概念，包括监督学习、无监督学习、强化学习及其应用示例。一、机器学习的基本概念1.1数据数据是机器学习的基础。机器学习模型通过分析数据来识别模式和

猿享天开·2025-02-04 13:07

利用 OpenAI GPT、LangChain 和 Streamlit 创建自己的 PDF 问答系统

hj_caas·2025-02-04 13:01

DeepSeek- R1 原理介绍

DeepSeek-R1是由DeepSeek公司推出的一款基于强化学习（RL）的开源推理模型，其核心原理和特点如下：1.核心技术与架构强化学习驱动：DeepSeek-R1是首个完全通过强化学习训练的大型语言模型

kcarly·2025-02-04 08:50

DeepSeek R1 AI 论文翻译

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。

老马啸西风·2025-02-04 06:04

构建由局部观测、分布式决策与全局奖励协同作用的多智能体强化学习系统

传统的单智能体强化学习（RL）模型难以直接适用于这种场景，因此需要多智能体强化学习（MARL）的方法。1.2将问题转化为部分可观测马尔可夫决策过

由数入道·2025-02-04 05:30

动手学PyTorch建模与应用：从深度学习到大模型

在人工智能时代，机器学习技术日新月异，深度学习是机器学习领域中一个全新的研究方向和应用热点，它是机器学习的一种，也是实现人工智能的必由之路。深度学习的出现不仅推动了机器学习的发展，而且促进了人工智能技术的革新，已经被成功应用在语音识别、图像分类识别、地球物理、大语言模型等领域，具有巨大的发展潜力和价值。本书是一本带领读者快速学习PyTorch并将其运用于深度学习建模方向的入门指南，重点介绍了基于P

王国平·2025-02-04 00:51

机器学习笔记——特征工程、正则化、强化学习

本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。

好评笔记·2025-02-04 00:48

DeepSeek R1 AI 论文翻译

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。

·2025-02-03 20:09

AIGC与虚拟身份及元宇宙的未来：虚拟人物创作与智能交互

云边有个稻草人-CSDN博客目录引言一、AIGC在元宇宙中的作用1.1AIGC与虚拟人物创作1.1.1生成虚拟人物外观1.1.2个性化虚拟角色设计1.2AIGC与虚拟角色的行为与交互1.2.1行为生成与强化学习

云边有个稻草人·2025-02-03 19:38

Reinforcement Learning 通过强化学习激励大型语言模型的推理能力

主要技术：1.强化学习(RL)核心是强化学习技术，像训练小狗一样，当模型做出正确的推理步骤或得到正确的

davenian·2025-02-03 18:56

C++计算精解【21】

文章目录动手做汇编解释器【4】COCO/R概述变量赋值的ATG生成的代码框架参考文献动手做汇编解释器【4】COCO/R概述Coco/R是一个用于构造词法分析器（LexicalAnalyzers）和语法分析器

sakura_sea·2025-02-03 18:24

基于“蘑菇书”的强化学习知识点（一）：奖励函数（Reward Function）和价值函数（Value Function）的区别

奖励函数（RewardFunction）和价值函数（ValueFunction）的区别摘要1.定义与目标奖励函数（RewardFunction）价值函数（ValueFunction）2.核心区别3.具体示例场景：迷宫导航问题(1)奖励函数的设计(2)价值函数的计算对比结果4.关系与协同作用总结摘要本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析！具体内容请阅读蘑菇书EasyRL！

墨绿色的摆渡人·2025-02-03 17:20

线性回归的简单实现

本文是《动手学深度学习》的笔记文章目录线性回归的简单实现生成随机数据集读取数据初始化模型参数定义模型定义损失函数定义优化算法训练模型线性回归的简洁实现生成数据集读取数据定义模型初始化模型参数定义损失函数定义优化算法训练模型线性回归的简单实现用了

SkaWxp·2025-02-03 14:58

初入机器学习

也为大家提供一些个人的思考一切仅供参考概念辨析深度学习：本质是建模，将训练得到的模型作为系统的一部分使用侧重于发现样本集中隐含的规律难点是认识并了解模型，合理设置初始模型，要对建模对象有比较深刻的认识依赖大量的准确训练样本强化学习

辰尘_星启·2025-02-03 14:54

基于CNN(一维卷积Conv1D)+LSTM+Attention 实现股票多变量时间序列预测(PyTorch版)

食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域，讨论了各种复杂的深度神经网络思想，如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习

矩阵猫咪·2025-02-03 12:42

Python 浅拷贝深拷贝

看《流畅的Python》8.3节默认做浅拷贝，自己动手实践。书中提到的网站http://pythontutor.com是一个可视化编程的网站。csdn不支持图片粘贴，我也是服了，图片全没了。。。

MIPS71·2025-02-03 12:36

推荐频道

动手强化学习

Deepseek成功启示：从 TRPO 到 GRPO训练LLM

机器学习模型创建的数学原理

动手写ORM框架 - GeeORM第一天 database/sql 基础

动手学图神经网络（12）：MovieLens上的链接回归

力扣77题组合

一切皆是映射：强化学习在医疗诊断中的应用：挑战与机遇

DeepSeek-R1深度报告：基于Python强化学习的前沿长链推理模型揭秘与实战——兼谈SEO优化与实用经验分享

DeepSeek模型与OpenAI模型原理和技术架构的异同分析

【论文阅读】DeepSeek-R1：通过强化学习激励LLMs的推理能力 | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL

深入浅出 DeepSeek-Coder-V2 是如何打破闭源模型封锁的

SRMT：一种融合共享记忆与稀疏注意力的多智能体强化学习框架

【Elasticsearch】Elasticsearch：aggregation介绍

CentOS 7.3 Linux系统安装过程介绍

KNN算法：从思想到实现（附代码）

[论文笔记] Deepseek技术报告

Python视频制作引擎Manim安装教程2024版(科学概念可视化)_下载mainm引擎

它在强化学习中的作用是什么？

深度学习与搜索引擎优化的结合：DeepSeek的创新与探索

AI协助探索AI新构型自动化创新的技术实现

国家超算平台上线DeepSeek - R1系列模型：开启AI新征程

AI大模型探秘：核心能力与应用场景深度解析

一个聚合搜索网站——老马知搜

DeepSeek-R1：通过强化学习提升大型语言模型推理能力的探索

第十章 Python编程基础——Python 学习资源与进阶方向

Vue演练场基础知识（七）插槽

免费搭建个人博客——hexo搭建教程

机器学习在金融领域的应用

LLM 算法工程师的速成指南：微调、强化学习微调与偏好微调

一切皆是映射：元学习中的神经架构搜索（NAS）

机器学习，深度学习，神经网络，深度神经网络

DeepSeek-R1全面超越OpenAI o1：开源大模型训练范式革新

OpenAI 模型与 DeepSeek 模型使用的强化学习有何不同

【大模型应用开发 动手做AI Agent】第二轮思考：模型决定计算

DeepSeek R1 AI 论文翻译

人工智能机器学习基本概念详解

利用 OpenAI GPT、LangChain 和 Streamlit 创建自己的 PDF 问答系统

DeepSeek- R1 原理介绍

DeepSeek R1 AI 论文翻译

构建由局部观测、分布式决策与全局奖励协同作用的多智能体强化学习系统

动手学PyTorch建模与应用：从深度学习到大模型

机器学习笔记——特征工程、正则化、强化学习

DeepSeek R1 AI 论文翻译

AIGC与虚拟身份及元宇宙的未来：虚拟人物创作与智能交互

Reinforcement Learning 通过强化学习激励大型语言模型的推理能力

C++计算精解【21】

基于“蘑菇书”的强化学习知识点（一）：奖励函数（Reward Function）和价值函数（Value Function）的区别

线性回归的简单实现

初入机器学习

基于CNN(一维卷积Conv1D)+LSTM+Attention 实现股票多变量时间序列预测(PyTorch版)

Python 浅拷贝 深拷贝

【大模型应用开发动手做AI Agent】第二轮思考：模型决定计算

Python 浅拷贝深拷贝