强化学习算法（RL）第9页

汽车自动驾驶AI

决策系统：基于感知数据，AI通过深度学习、强化学习等算法进行路径规划和决策控制。例如，利用

pps-key·2025-02-10 07:00

大模型学习笔记 - LLM 对齐优化算法 DPO

训练的目标是语言模型损失，任务是nexttokenprediction，生成的token不可控，为了让大模型能生成符合人类偏好的答案(无毒无害等）一般都会进行微调和人类对齐，通常采用的方法是基于人类反馈的强化学习方法

JL_Jessie·2025-02-10 03:54

无人机目标追踪技术

目标识别与跟踪算法：采用机器学习和深度学习算法，无人机能够识别和分类不同的目标，并对目标进行

kely117·2025-02-10 02:48

一切皆是映射：域适应在DQN中的研究进展与挑战

1.背景介绍1.1深度强化学习与域适应的邂逅深度强化学习(DeepReinforcementLearning,DRL)在近年来取得了瞩目的成就，从Atari游戏到围棋，再到机器人控制，其强大的学习能力令人惊叹

AI天才研究院·2025-02-10 00:33

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读

文章目录前言一、摘要二、引言三、贡献1.贡献后训练：基础模型的大规模强化学习蒸馏：较小的模型也可以很强大2.评估结果概览reasoningtasksknowledgeohters四、方法1.Overview2

tangjunjun-owen·2025-02-09 23:54

Python机器学习实战：独热编码

独热编码（One-HotEncoding）是一种用于将分类数据转换为适合机器学习算法处理的数值型数据的编码技术。

python游乐园·2025-02-09 18:51

机器学习之实战篇——图像压缩(K-means聚类算法)

K-means聚类算法是一种无监督学习算法，在图像压缩中被广泛应用。通过将图像中的像素聚类为有限的几种颜色，从而降低图像的复杂度，实现压缩效果。应用使用场景网络传输：减少图片在网络上传输时的带宽消耗。

鱼弦·2025-02-09 16:08

人工智能-A* 算法与机器学习算法结合

以下将为你展示如何将A*算法与机器学习算法（这里以简单的神经网络为例）结合实现路径规划。我们会先使用A*算法生成一些路径规划数据，然后用这些数据训练一个简单的神经网络，让神经网络学习如何预测路径。

小赖同学啊·2025-02-09 12:11

DeepSeek-R1 原理解析及 Linux 本地部署详细教程

二、DeepSeek-R1原理解析2.1强化学习训练DeepSeek-R1系列模型借助强化学习进行训练，这是其具备强大推理能力的

power-辰南·2025-02-09 12:05

巧妙使用机器学习的方法来检测IOT设备中的DDOS攻击

而使用机器学习算法的异常检测模型可以有效降低检测中的假阳性。网络中间件的限制网络中间件的内存和处理能力有限，导致在异常检测方面在算法上有一定的限制。

网络安全大菠萝·2025-02-09 11:04

DeepSeek使用技巧大全（含本地部署教程）

DeepSeek是一款由国内顶尖团队研发的人工智能，它基于先进的深度学习算法构建，拥有强大的自然语言处理能力和对复杂任务的处理能力。

xiecoding.cn·2025-02-09 10:21

一文搞懂DeepSeek - 开源模型R1

其纯强化学习的训练方法、开源与低成本的特性以及技术创新使得DeepSeek-R1成为了AI领域的一颗新星。**在多个基准测试中，DeepSeek-R1的表现优于或接近OpenAIo1。

程序员辣条·2025-02-09 01:12

DQN深度强化学习：CartPole倒立摆任务（完整代码）

DQN（DeepQ-Network，深度Q网络）是Q-Learning的深度学习扩展，通过神经网络替代Q表的方式来解决高维状态空间问题（例如图像输入），开启了深度强化学习时代。它在2013年由Dee

林泽毅·2025-02-08 21:45

python实现yolo目标检测_目标检测|YOLO原理与实现

欢迎交流与转载，文章会同步发布在公众号：机器学习算法全栈工程师(Jeemy110)最新的YOLOv2和YOLOv3:小白将：目标检测|YOLOv2原理与实现(附YOLOv3)zhuanlan.zhihu.com

weixin_39709194·2025-02-08 20:10

Deepseek成功启示：从 TRPO 到 GRPO训练LLM

本文将深入探讨LLMs的训练过程，特别是强化学习（ReinforcementLearning，RL）（深度解析DeepSeekR1：强化学习与知识蒸馏的协同力量）在这一领域的应用，从TRP

大模型之路·2025-02-08 20:03

机器学习模型创建的数学原理

1模型工作原理机器学习学习模型主要分为监督学习、无监督学习、半监督学习和强化学习，本文聚焦探讨目前应用最为广泛的监督学习问题，下午如未特殊指明，机器学习特指有监督学习机器学习。

HadesZ~·2025-02-08 15:04

一切皆是映射：强化学习在医疗诊断中的应用：挑战与机遇

《一切皆是映射：强化学习在医疗诊断中的应用：挑战与机遇》关键词强化学习，医疗诊断，图像识别，数据预处理，算法优化摘要随着医疗技术的发展，医疗诊断的准确性和效率越来越受到关注。

AI天才研究院·2025-02-08 07:28

DeepSeek-R1深度报告：基于Python强化学习的前沿长链推理模型揭秘与实战——兼谈SEO优化与实用经验分享

【DeepSeek-R1深度报告：基于Python强化学习的前沿长链推理模型揭秘与实战——兼谈SEO优化与实用经验分享】配合此文章使用，效果更佳：DeepSeek-R1深度报告——50道相关面试题——深刻理解相关概念

快撑死的鱼·2025-02-08 05:19

DeepSeek模型与OpenAI模型原理和技术架构的异同分析

DeepSeek模型与OpenAI模型原理和技术架构的异同分析一、模型原理（一）DeepSeekR1DeepSeekR1的核心原理是基于强化学习（RL）的训练方式，其创新之处在于不依赖任何监督微调（SFT

程序猿000001号·2025-02-08 04:10

机器学习算法分类

机器学习算法可以根据不同的标准进行分类，常见的分类方式包括根据学习方式和算法功能进行分类。

和风化雨·2025-02-07 23:07

【论文阅读】DeepSeek-R1：通过强化学习激励LLMs的推理能力 | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL

DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearningDeepSeek-R1：通过强化学习激励LLMs的推理能力

AI天才研究院·2025-02-07 22:05

深入浅出 DeepSeek-Coder-V2 是如何打破闭源模型封锁的

今天，我们就从模型架构、训练数据、强化学习优化三

fertiland·2025-02-07 17:33

SRMT：一种融合共享记忆与稀疏注意力的多智能体强化学习框架

在人工智能(AI)和强化学习(RL)领域的发展进程中，长期记忆维持和决策优化一直是核心技术难点。传统强化学习模型在经验回溯方面存在局限性，这显著制约了其在复杂动态环境中的应用效果。

·2025-02-07 13:28

KNN算法：从思想到实现（附代码）

引言K最近邻算法（KNearestNeighbors,KNN）是一种简单而有效的机器学习算法，用于分类和回归问题。

lihuayong·2025-02-07 03:29

机器学习与数据挖掘：决策树（知识点总结）

或是所有样本在所有属性上取值相同，无法划分;*将当前节点标记为叶节点，将其类别设定为该节点所含样本最多的类别；当前结点包含的样本集合为空，不能划分；*将当前节点标记为叶节点，将其类别设定其父节点所含样本最多的类别；划分选择决策树学习算法包括

KE.WINE·2025-02-07 02:49

特征编码技术:onehot编码与label编码

特征工程的目的是将原始数据转换成适合机器学习算法输入的格式。其中,特征编码是特征工程中的一个关键步骤。本文将重点介绍两种常用的特征编码技术:one-hot编码和label编码。

AGI大模型与大数据研究院·2025-02-07 00:06

机器学习算法 —— 朴素贝叶斯

欢迎来到我的博客——探索技术的无限可能！博客的简介（文章目录）目录朴素贝叶斯朴素贝叶斯的介绍朴素贝叶斯的优点朴素贝叶斯的缺点朴素贝叶斯的应用实战（贝叶斯分类）莺尾花数据库函数导入数据导入和分析模型训练模型预测原理简析模拟离散数据集朴素贝叶斯朴素贝叶斯的介绍朴素贝叶斯法=贝叶斯定理+特征条件独立。朴素贝叶斯（NaiveBayes）是基于贝叶斯定理的概率分类算法。该算法假设特征之间相互独立，即某个特征

ZShiJ·2025-02-06 23:01

[论文笔记] Deepseek技术报告

1.总体概述背景与目标报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。

心心喵·2025-02-06 22:53

10大机器学习算法

10大机器学习算法7分钟阅读2025年02月06日“机器学习是一门让计算机在没有明确编程的情况下采取行动的科学。”

·2025-02-06 21:56

它在强化学习中的作用是什么？

“若要得到救赎，必先承受痛苦。”作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！

追光者♂·2025-02-06 14:34

深度学习与搜索引擎优化的结合：DeepSeek的创新与探索

目录引言1.传统搜索引擎的局限性2.深度学习在搜索引擎中的作用3.DeepSeek实现搜索引擎优化的关键技术3.1神经网络与搜索引擎优化3.2自然语言处理与查询理解3.3深度强化学习与搜索结果排序4.DeepSeek

云边有个稻草人·2025-02-06 10:37

AI协助探索AI新构型自动化创新的技术实现

一、AI自进化架构的核心范式1.元代码生成与模块化重构-代码级自编程：基于神经架构搜索的强化学习框架，AI可通过生成元代码模板（框架的抽象层定义）自动组合功能模块。

liron71·2025-02-06 10:35

国家超算平台上线DeepSeek - R1系列模型：开启AI新征程

它用了强化学习训练，推理的时候会反复思考验证，思维链能有好几万字长。在数学、代码编写和复杂逻辑推理这些方面，表现相当厉害

CodeJourney.·2025-02-06 08:25

（Aliyun AI ACP 04）人工智能建模流程与基础知识：深度学习、增强学习与迁移学习关键技术综述

文章目录阿里云人工智能工程师ACP认证考试知识点辅助阅读（AliyunAIACP04）人工智能建模流程与基础知识：深度学习、增强学习与迁移学习关键技术综述I.深度学习算法1️⃣前馈神经网络(FFNs)详解

North_D·2025-02-06 08:24

AI大模型探秘：核心能力与应用场景深度解析

AI：包含很多术语，如：模式识别、自然语言处理、神经网络、机器学习、深度学习、强化学习、人类反馈强化学习等。类比：AI是电力–吴恩达。

程序员辣条·2025-02-06 08:53

gym-anytrading

参考：https://github.com/upb-lea/gym-electric-motorAnyTrading是一组基于reinforcementlearning(RL)的tradingalgorithms

AAA客服小高·2025-02-06 07:16

二值连接：深度神经网络的轻量级革命

与此同时，移动设备和嵌入式系统的快速发展对低功耗、高效能的深度学习算法提出了更高的

步子哥·2025-02-06 06:11

机器学习算法-逻辑回归

机器学习算法-逻辑回归1.K-近邻算法（略）2.线性回归（略）3.逻辑回归3.1逻辑回归介绍逻辑回归（LogisticRegression)是机器学习中的一种分类模型，逻辑回归是一种分类算法，虽然名字中带有回归

Larkin88·2025-02-06 03:12

深入详解人工智能机器学习算法——逻辑回归算法

引言逻辑回归（LogisticRegression）是机器学习中一种基本而重要的分类算法。在这篇文章中，我们将深入解析逻辑回归的各个方面，包括其基础知识、数学原理、实现方法、以及应用场景。我们还将通过具体的代码示例和应用案例，帮助您全面理解逻辑回归算法。第一部分：逻辑回归的基础知识1.1什么是逻辑回归？逻辑回归是一种用于解决二分类问题的回归分析方法。尽管名字中带有“回归”，逻辑回归的目标是将预测结

猿享天开·2025-02-06 03:42

DeepSeek-R1：通过强化学习提升大型语言模型推理能力的探索

DeepSeek-R1：通过强化学习提升大型语言模型推理能力的探索在人工智能领域，大型语言模型（LLMs）的发展日新月异，其在自然语言处理和生成任务中的表现逐渐接近人类水平。

kaichu2·2025-02-06 03:07

现代编程的影响

例如，在人工智能领域，编程使得机器学习算法得以实现，从而创造出能够自主学习和适应环境的智能系统。1.2促进开源文化繁荣编程促进了开源文化的发展，使得全球范围内的开发者能够共享代码、知识和经验。

2501_90255623·2025-02-05 18:07

深度学习实战一：线性回归（基于Pytorch，含数据和详细注释）

虽然简单，但是跟大多数监督学习算法的

若北辰·2025-02-05 17:34

MATLAB机器学习、深度学习

目录第一章MATLAB图像处理基础第二章BP神经网络及其在图像处理中的应用第三章卷积神经网络及其在图像处理中的应第四章迁移学习算法及其在图像处理中的应用第五章生成式对抗网络（GAN）及其在图像处理中的应用第六章目标检测

Yolo566Q·2025-02-05 17:01

机器学习在金融领域的应用

个性化服务需求1.2机器学习的兴起1.2.1大数据时代的到来1.2.2计算能力的提升1.2.3算法的不断创新2.核心概念与联系2.1机器学习的定义与分类2.1.1有监督学习2.1.2无监督学习2.1.3强化学习

AI天才研究院·2025-02-05 17:01

LLM 算法工程师的速成指南：微调、强化学习微调与偏好微调

OpenAI近期在直播中，提到了两个新的概念：①强化学习微调（ReinforcementFine-Tuning）：仅需少量高质量数据（数十到数千个），模型即可通过强化学习处理复杂任务。

大模型玩家·2025-02-05 16:24

人工智能基础知识速成 - 机器学习、深度学习算法原理及其实际应用案例

一、机器学习概念与原理什么是机器学习？机器学习是人工智能的一个分支，通过从数据中学习和改进算法，使计算机系统在没有明确编程的情况下也能够自动地学习和改进。机器学习是一种实现人工智能的技术手段，能够让计算机“自我学习”，从而实现更准确的预测和决策。机器学习的基本原理机器学习的基本原理是通过构建数学模型，使用大量的数据进行训练，使得模型能够智能地预测和决策。在机器学习中，常用的模型包括线性回归、逻辑回

苹果酱0567·2025-02-05 16:23

一切皆是映射：元学习中的神经架构搜索（NAS）

元学习神经架构搜索NAS遗传算法强化学习演化算法一切皆是映射：元学习中的神经架构搜索（NAS）在人工智能的广阔领域中，神经架构搜索（NeuralArchitectureSearch，简称NAS）是一颗璀璨的明星

杭州大厂Java程序媛·2025-02-05 16:22

AI 图像生成器，如何使用 Janus-Pro 和 Janus， Deepseek 的 Janus-Pro、Janus 和其他领先工具的比较

人工智能驱动的图像生成器使用深度学习算法将文本描述转换为逼真或艺术化的视觉效果，可满足营销、广告、游戏和内容创作等各种行业的需求。

知识大胖·2025-02-05 13:30

机器学习，深度学习，神经网络，深度神经网络

深度学习的算法又分很多种，比较典型的四种：卷积神经网络—CNN,循环神经网络—RNN,生成对抗网络—GANs,深度强化学习—RL。机器学习和深度学习的

武昌库里写JAVA·2025-02-05 12:52

Python中的决策树算法探索基本原理

Python中的决策树算法探索决策树是一种简单而直观的机器学习算法，广泛应用于分类和回归任务中。它通过对数据进行分割，构建一个树形结构，从而做出决策。

myCOTB·2025-02-05 12:21

推荐频道

强化学习算法（RL）