《Learning

强化学习：原理、概念与代码实践

一、引言强化学习（ReinforcementLearning）作为机器学习的一个重要分支，旨在通过智能体（agent）与环境的交互，学习到最优的行为策略，以最大化长期累积奖励。

AndrewHZ·2025-02-19 01:07

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别STF（SupervisedFine-Tuning）和RLHF（ReinforcementLearningfromHumanFeedback）

钟小宇·2025-02-18 18:11

阅读论文“用于车联网安全车载通信的机器学习技术“的学习笔记

前言论文全称为MachineLearningTechnologiesforSecureVehicularCommunicationinInternetofVehicles:RecentAdvancescandApplications

饮长安千年月·2025-02-18 18:08

机器学些|实战?

机器学习实战：从零到%1…今天聊聊机器学习（MachineLearning,ML），这个听起来高大上的技术其实并没有那么神秘。跟着我的节奏，咱们一起来探索一下如何从零开始！

dami_king·2025-02-18 17:02

机器学习和线性回归、softmax回归

监督学习监督学习（supervisedlearning）擅⻓在“给定输⼊特征”的情况下预测标签。每个“特征-标签”对都称为一个样本（example）。

小名叫咸菜·2025-02-18 13:53

强化学习原理与代码实战案例讲解

强化学习（ReinforcementLearning,RL）是机器学习的一个重要分支，它关注的是智能体（Agent）如何在环境中通过与环境交互来学习最优的行为策略。

AI天才研究院·2025-02-18 05:53

强化学习在连续动作空间的应用：DDPG与TD3

1.背景介绍1.1强化学习简介强化学习（ReinforcementLearning，简称RL）是一种机器学习方法，它通过让智能体（Agent）在环境（Environment）中与环境进行交互，学习如何根据观察到的状态

AI天才研究院·2025-02-18 00:02

书籍-《机器学习的秘密：它是如何工作的以及它对你的意义》

书籍：SecretsOfMachineLearning:HowItWorksAndWhatItMeansForYou作者：TomKohn出版：WorldScientificPublishingCoPteLtd

·2025-02-18 00:37

翻译Deep Learning and the Game of Go（14）第十二章采用actor-critic方法的强化学习

本章包括:利用优势使强化学习更有效率用actor-critic方法来实现自我提升AI设计和训练Keras的多输出神经网络如果你正在学习下围棋，最好的改进方法之一是让一个水平更高的棋手给你复盘。有时候，最有用的反馈只是指出你在哪里赢棋或输棋。复盘的人可能会给出这样的评论，“你下了30步后已经远远落后了”或“在下了110步后，你有一个获胜的局面，但你的对手在130时扭转了局面。”为什么这种反馈是有帮助

idol_watch·2025-02-17 22:16

【深度学习】计算机视觉（CV）-图像分类-ResNet（Residual Network，残差网络）

ResNet的核心思想是残差学习（ResidualLearning），它通过跳跃连接（SkipConnections）解决了深度神经网络训练中的梯度消失和梯度爆炸问题，使得非常深的网络（如50层、1

IT古董·2025-02-17 14:57

【深度解析】ICLR：人工智能领域的顶级学术会议 | 顶会与SCI期刊的区别全攻略

【深度解析】ICLR：人工智能领域的顶级学术会议|顶会与SCI期刊的区别全攻略简介在人工智能和机器学习领域，ICLR（InternationalConferenceonLearningRepresentations

X_taiyang18·2025-02-17 13:44

宇树G1嵌入式软件架构及技术实现

Opensourcedatacollection:https://github.com/unitreerobotics/avp_teleoperateOpensourcelearningalgorithms

爱吃青菜的大力水手·2025-02-17 10:55

探索Redux：构建可预测、可测试的JavaScript应用

探索Redux：构建可预测、可测试的JavaScript应用learn-redux:boom:ComprehensiveNotesforLearning(howtouse)ReduxtomanagestateinyourWeb

黎杉娜Torrent·2025-02-16 18:45

【学习笔记】李宏毅2021春机器学习课程第2.3节：Adaptive Learning Rate

文章目录Trainingstuck≠SmallGradientDifferentparametersneedsdifferentlearningrateRootmeansquareAdagradRMSPropAdamLearningRateSchedulingTrainingstuck

Harryline-lx·2025-02-16 07:21

【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1论文解析1.论文基本信息标题：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning作者

大表哥汽车人·2025-02-15 02:40

ECE 219 Models and Algorithms

ModelsandAlgorithmsECE219Winter2025Project2:DataRepresentationsandClusteringDueFebruary07,2025by11:59pmIntroductionMachinelearningalgorithmsareappliedtoawidevarietyofdata

·2025-02-14 22:31

论文代码阅读及部分复现：Revisiting Deep Learning Models for Tabular Data

arxiv.org/pdf/2106.11959.pdf项目地址：GitHub-yandex-research/rtdl-revisiting-models:(NeurIPS2021)RevisitingDeepLearningModelsforTabularData

thorn_r·2025-02-14 19:44

零基础入门机器学习 -- 第一章什么是机器学习？

1.1机器学习的定义机器学习（MachineLearning,ML）是让计算机从数据中学习，然后在没有明确编程的情况下进行预测或决策的技术。

山海青风·2025-02-14 13:30

HAMIL-QA：心房 LGE MRI 质量评估的多实例学习分层方法

文章目录HAMIL-QA:HierarchicalApproachtoMultipleInstanceLearningforAtrialLGEMRIQualityAssessment摘要方法实验结果HAMIL-QA

小杨小杨1·2025-02-14 06:09

Python 中如何 import 绝对路径的模块

importsyssys.path.append('模块所在路径')import路径下需要的模块使用场景：importsyssys.path.append('/Users/feishuoren/Projects/pytorch_learning

斐硕人·2025-02-14 04:16

DeepSeek底层揭秘——知识图谱与语料库的联邦学习架构

实际案例猫哥说1.知识图谱与语料库的联邦学习架构(1)定义“知识图谱与语料库的联邦学习架构”是一种结合知识图谱（KnowledgeGraph,KG）、语料库（Corpus）和联邦学习（FederatedLearning

9命怪猫·2025-02-14 02:51

书籍-《机器学习数学基础》

书籍：MathematicsforMachineLearning作者：MarcPeterDeisenroth，A.AldoFaisal，ChengSoonOng出版：CambridgeUniversityPress

·2025-02-14 01:30

书籍-《强化学习数学基础》

书籍：MathematicalFoundationsofReinforcementLearning作者：赵世钰出版：Springer编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《强化学习数学基础

·2025-02-13 20:48

攻克AWS认证机器学习工程师（AWS Certified Machine Learning Engineer） - 助理级别认证：我的成功路线图

引言当我决定考取AWS认证机器学习工程师-助理（AWSCertifiedMachineLearningEngineer—Associate）级别证书时，我就预料到这将是一段充满挑战但回报颇丰的旅程。

硅基创想家·2025-02-13 16:14

强化学习算法：蒙特卡洛树搜索 (Monte Carlo Tree Search) 原理与代码实例讲解

MonteCarloTreeSearch)原理与代码实例讲解关键词：蒙特卡洛树搜索,强化学习,决策树,搜索算法,博弈策略,应用场景,代码实现1.背景介绍1.1问题由来强化学习（ReinforcementLearning

杭州大厂Java程序媛·2025-02-13 07:02

推荐项目：AWS Certified Machine Learning Specialty (MLS-C01) 课程

赵鹰伟Meadow·2025-02-13 05:49

AnyPlace：学习机器人操作的泛化目标放置

25年2月来自多伦多大学、VectorInst、上海交大等机构的论文“AnyPlace:LearningGeneralizedObjectPlacementforRobotManipulation”。

硅谷秋水·2025-02-13 04:15

17.推荐系统的在线学习与实时更新

郑万通·2025-02-12 20:15

KDD 2023 | 先睹为快！KDD 2023论文合集50篇（附下载地址）

下载地址：点我跳转1.DoubleAdapt:AMeta-learningApproachtoIncrementalLearningforStockTrendForecastingCode：NoneArea

马拉AI·2025-02-12 15:04

蓝桥杯真题 - 更小的数 - 题解

题目链接：https://www.lanqiao.cn/problems/3503/learning/个人评价：难度2星（满星：5）前置知识：区间dp整体思路反转区间[l,r][l,r][l,r]内的数字

ExRoc·2025-02-12 01:36

快速搭建GRU循环神经网络预测模型

让我想想，MATLAB的DeepLearningToolbox提供了设计和训练神经网络的功能，包括GRU层。等等，我需要确认一下如何在MATLAB中创建包含GRU层的网络。好的，那我就开始写代码吧

智汇未来·2025-02-11 22:38

探索计算机视觉的基石：PASCAL VOC 数据集

gitcode.com/Resource-Bundle-Collection/dc7bf项目介绍PASCALVOC（PatternAnalysis,StatisticalModelingandComputationalLearningVisualObjectClasses

卢姬铃Edric·2025-02-11 21:26

迁移学习 Transfer Learning

迁移学习（TransferLearning）是什么？迁移学习是一种机器学习方法，它的核心思想是利用已有模型的知识来帮助新的任务或数据集进行学习，从而减少训练数据的需求、加快训练速度，并提升模型性能。

有人给我介绍对象吗·2025-02-11 20:23

deepseek学习笔记

1、deepseek的论文deepseek的论文《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》于

wsnzou·2025-02-11 10:40

详解Redis中lua脚本和事务

Inlearningknowledge,oneshouldbegoodatthinking,thinking,andthinkingagain.

优人ovo·2025-02-11 08:53

WPF入门_06资源和样式

共享资源的方法5、在CustomControlLibrary中定义和使用共享资源6、样式7、样式触发器1、资源基础介绍尽管每个元素都提供了Resources属性，但通常在窗口级别上定义资源，如下定义一个字符串资源LearningHard

思忖小下·2025-02-11 00:53

DeepSeek联邦学习（Federated Learning）基础与实践

联邦学习（FederatedLearning,FL）是一种在分布式环境中训练模型的技术，允许多个设备或节点在不共享原始数据的情况下协同训练模型。

Evaporator Core·2025-02-10 23:44

DeepSeek自监督学习基础与实践

自监督学习（Self-SupervisedLearning,SSL）是一种利用未标注数据进行模型训练的技术。

Evaporator Core·2025-02-10 23:43

股票分析工具Python源码

系统的需求设计和实现企业财务管理系统的需求设计和实现董事会办公管理系统的需求设计和实现公司组织架构图设计工具库存管理系统的需求设计和实现批量执行SQL脚本导出Excel文件数据库巡检工具Python源码分享E-Learning

mosquito_lover1·2025-02-10 21:01

pytorch 人脸修复_修复pytorch数据加载器

Hackingdatascienceworkflows)Icameacrossaninterestingproblemrecently.AteammateandIwereworkingonaseriesofDeepLearningexperimentsthatinvolvedanimagedatasetthatspannedhundredsofgigab

weixin_26729375·2025-02-10 19:18

论文解读（MGAE）《MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs》

Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统论文信息论文标题：MGAE:MaskedAutoencodersforSelf-SupervisedLearningonG

虚幻私塾·2025-02-10 03:26

基于对比增强的超声视频的域知识为乳腺癌诊断提供了深度学习

DomainKnowledgePoweredDeepLearningforBreastCancerDiagnosisBasedonContrast-EnhancedUltrasoundVideos期刊分析摘要引言相关工作乳腺癌中的

Philo`·2025-02-10 03:56

【论文精读】《Towards Deep Learning Models Resistant to Adversarial Attacks》

摘要本文探讨了深度学习模型在面对对抗性攻击时的脆弱性，并提出了一种基于鲁棒优化的方法来增强神经网络的对抗鲁棒性。通过鞍点优化框架，作者提供了对抗攻击和防御机制的统一视角，并在MNIST和CIFAR-10数据集上验证了其方法的有效性。本文的核心贡献包括：1）定义攻击模型和扰动集以优化模型参数；2）强调网络容量对对抗鲁棒性的影响；3）提出对抗训练作为提升模型鲁棒性的关键方法。本文为深度学习模型的对抗鲁

智算菩萨·2025-02-10 03:25

CNN-day5-经典神经网络LeNets5

经典神经网络-LeNets51998年YannLeCun等提出的第一个用于手写数字识别问题并产生实际商业（邮政行业）价值的卷积神经网络参考：论文笔记：Gradient-BasedLearningAppliedtoDocumentRecognition-CSDN

谢眠·2025-02-10 03:54

一切皆是映射：域适应在DQN中的研究进展与挑战

1.背景介绍1.1深度强化学习与域适应的邂逅深度强化学习(DeepReinforcementLearning,DRL)在近年来取得了瞩目的成就，从Atari游戏到围棋，再到机器人控制，其强大的学习能力令人惊叹

AI天才研究院·2025-02-10 00:33

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读

基础模型的大规模强化学习蒸馏：较小的模型也可以很强大2.评估结果概览reasoningtasksknowledgeohters四、方法1.Overview2.DeepSeek-R1-Zero:ReinforcementLearningontheBaseModelReinforcementLearningAlgorithm

tangjunjun-owen·2025-02-09 23:54

【人工智能专栏】Stochastic Gradient Descent (SGD) 随机梯度下降

SGD)随机梯度下降IntroducingSGDAI:StochasticGradientDescent(SGD)isapopularoptimizationalgorithmusedinmachinelearningforfindingtheminimumofacostfunction.Itisavariantofthegradientdesc

manylinux·2025-02-09 17:09

翻译模型

提出基于规则的翻译1993年，IBM提出基于词的统计翻译模型2003年，Koehn提出基于短语的统计翻译模型2014年，谷歌和蒙特利尔大学提出端到端神经网络机器翻译，SequencetoSequenceLearningwithNeuralNetworks

daisy190127·2025-02-09 16:08

DQN深度强化学习：CartPole倒立摆任务（完整代码）

DQN（DeepQ-Network，深度Q网络）是Q-Learning的深度学习扩展，通过神经网络替代Q表的方式来解决高维状态空间问题（例如图像输入），开启了深度强化学习时代。它在2013年由Dee

林泽毅·2025-02-08 21:45

深度学习之DCGAN算法深度解析

DCGAN（深度卷积生成对抗网络）是IanGoodfellow在2014年提出的GAN（生成对抗网络）的改进版本，由Radford等人在2015年的论文《UnsupervisedRepresentationLearningwithDeepConvolutional

贾斯汀玛尔斯·2025-02-08 20:08

推荐频道