强化学习Blogs 第2页

QwQ-32B企业级本地部署：结合XInference与Open-WebUI使用

QwQ-32B是阿里巴巴Qwen团队推出的一款推理模型，拥有320亿参数，基于Transformer架构，采用大规模强化学习方法训练而成。

大势下的牛马·2025-03-14 00:56

LLM Weekly（2025.03.03-03.09）

网络新闻QwQ-32B：拥抱强化学习的力量。研究人员推出了QwQ-32B，这是一个拥有320亿参数的模型，它利用强化学习来提升推理能力。

UnknownBody·2025-03-13 16:29

Chebykan wx 文章阅读

sigmoid函数的超层叠近似[3]多层前馈网络是通用近似器[5]注意力是你所需要的[6]深度残差学习用于图像识别[7]视觉化神经网络的损失景观[8]牙齿模具点云补全通过数据增强和混合RL-GAN[9]强化学习

やっはろ·2025-03-13 02:44

macOS - security 命令

文章目录简介使用手册:语法如下：子命令列表如下创建钥匙串向钥匙串中添加钥匙（认证实体）删除证书查找认证实体（证书＋私钥）本文转载自下面地址，有删减重新排版https://www.cnblogs.com/

伊织code·2025-03-12 22:46

keil5 MDK warning:registered ARM compiler version not found in path

增加系统环境变量ARMCC5LIBX:\keil_v5\ARM\ARMCC\bin貌似需要与下面这个变量都存在ADSK_CLM_WPAD_PROXY_CHECKFALSE转载于:https://www.cnblogs.com

weixin_34268610·2025-03-12 16:38

用物理信息神经网络（PINN）解决实际优化问题：全面解析与实践

实验表明，PINN相比传统数值方法及强化学习（RL）/遗传算法（GA），在收敛速度、解的稳定性及物理保真度上均实现突破性提升。关键词：物理信息神经网络；优化任务；深度学习；强化学习；航天器轨道一、

青橘MATLAB学习·2025-03-12 14:23

django allauth 自定义登录界面

起因，目的:为什么前几天还在写强化学习，今天又写django,问就是：客户需求>个人兴趣。问题来源：allauth默认的登录界面不好看，这里记录几个问题。

waterHBO·2025-03-12 13:19

人工智能机器学习算法分类全解析

目录一、引言二、机器学习算法分类概述（一）基于学习方式的分类1.监督学习（SupervisedLearning）2.无监督学习（UnsupervisedLearning）3.强化学习（ReinforcementLearning

power-辰南·2025-03-12 07:08

[JAVA设计模式]第四部分：行为模式

声明：原创作品，转载时请注明文章来自SAP师太技术博客（博/客/园ｗｗｗ.ｃｎｂｌｏｇｓ.ｃｏｍ）：www.cnblogs.com/jiangzhengjun，并以超链接形式标明文章原始出处，否则将追究法律责任

zzm_·2025-03-12 06:00

怎么定义世界模型，Sora/Genie/JEPA 谁是世界模型呢？（1）

其实世界模型在ML领域不是什么新概念，远远早于Transfomer这些东西被提出来，因为它最早是强化学习RL领域的，在20世纪90年代由JuergenSchmiduber实验室给提出来的。

周博洋K·2025-03-11 23:52

Python init.py

Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854

愚昧之山绝望之谷开悟之坡·2025-03-11 16:58

《Natural Actor-Critic》译读笔记

《NaturalActor-Critic》摘要本文提出了一种新型的强化学习架构，即自然演员-评论家（NaturalActor-Critic）。

songyuc·2025-03-11 11:21

测试websocket接口

http://www.cnblogs.com/ListenWind/p/4760179.htmlhttp://www.cnblogs.com/yuanchunli/articles/5265738.html

驰驰的老爸·2025-03-11 06:10

LLM Weekly（2025.02.17-02.23）

Grok发布了Grok3Beta，通过强化学习、扩展计算和多模态理解提供卓越的推理能力。Grok3和Grok3mini在学术基准上取得了高分，其中Grok3在AIME’25上获得了93.3%的分数。

UnknownBody·2025-03-11 01:59

大话机器学习三大门派：监督、无监督与强化学习

以武侠江湖为隐喻，系统阐述了机器学习的三大范式：监督学习（少林派）凭借标注数据精准建模，擅长图像分类等预测任务；无监督学习（逍遥派）通过数据自组织发现隐藏规律，在生成对抗网络（GAN）等场景大放异彩；强化学习

安意诚Matrix·2025-03-10 15:44

zookeeper CuratorFramework基本使用方法

参考：Zookeeper框架Curator使用-扎心了，老铁-博客园(cnblogs.com)1，引入依赖org.apache.zookeeperzookeeper3.4.8org.apache.curatorcurator-framework4.0.0org.apache.curatorcurator-recipes4.0.02

angen2018·2025-03-10 07:51

sklearn 支持向量机实践总结

转自http://www.cnblogs.com/pinard/p/6117515.html之前通过一个系列对支持向量机(以下简称SVM)算法的原理做了一个总结，本文从实践的角度对scikit-learnSVM

可爱的红薯·2025-03-10 06:15

DDD/CQRS

weixin_34293902·2025-03-10 05:36

使用DeepSeek来构建LangGraph Agent

随着DeepseekR1的发布，我们不得不把目光聚焦在这个能赶超多个顶流大模型的模型身上，它主要是其在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。

乔巴先生24·2025-03-09 21:59

当深度学习遇见禅宗：用东方智慧重新诠释DQN算法

引言：代码与禅的碰撞♂️在某个调试代码到凌晨三点的夜晚，我突然意识到：强化学习的过程，竟与佛家修行惊人地相似。智能体在环境中探索

带上一无所知的我·2025-03-09 21:28

asp.net core使用gzip

http://www.talkingdotnet.com/how-to-enable-gzip-compression-in-asp-net-core/转载于:https://www.cnblogs.com

weixin_30663471·2025-03-09 18:35

echarts标准饼图——提示框（tooltip）配置

(一)——提示框（tooltip）配置weixin_30446197于2016-11-2511:33:00发布508收藏4文章标签：javascriptViewUI原文链接：http://www.cnblogs.com

我是陈大大·2025-03-09 18:26

main函数的argc与arg

原文地址：https://www.cnblogs.com/dongry/p/10729892.htmlＣ语言中main函数的参数有两个,这两个参数写为argc和argv.因此,main函数的函数头可写为

某风吾起·2025-03-09 16:39

就在刚刚！马斯克决定将“地球上最聪明的人工智能”Grok-3免费了！

Grok-3的核心优势在于其大规模强化学习（RL）优化，能够在几秒到几分钟内进行深度推理，适应复杂任务的需求。配备的D

源代码杀手·2025-03-08 12:16

机器学习入门知识

二、机器学习的基本类型1.监督学习2.无监督学习3.半监督学习4.强化学习三、机器学习的工作流程四、常见的机器学习算法五、机器学习的评价指标六、机器学习中的过拟合与欠拟合七、机器学习的应用八、学习机器学习的资源前言随着人工智能的发展

十五境剑修·2025-03-08 09:33

uniapp微信小程序canvas隐藏

嵌套在view里并被view设置idCSS把它给顶出去#canvas{position:fixed;top:-9999999999999rpx;}本文作者：小泽沐优声本文链接：https://www.cnblogs.com

Ann_R·2025-03-08 04:54

简单分析Mysql不同方式联表查询的效率问题

参考：https://www.cnblogs.com/wyq178/p/11576065.htmlhttps://blog.csdn.net/hzz532968708/article/details/773704

逆袭的小学生·2025-03-07 19:06

特斯拉FSD不同版本的进化

特斯拉，FSD，自动驾驶，深度学习，计算机视觉，强化学习，神经网络，模型训练1.背景介绍特斯拉自2016年推出Autopilot以来，一直致力于开发全自动驾驶系统，其目标是实现完全无人驾驶，让汽车能够像人类一样感知周围环境

AI智能涌现深度研究·2025-03-07 19:35

ASIHTTPRequest类库简介和使用说明

一、简介原文链接http://www.cnblogs.com/dotey/archive/2011/05/10/2041966.html1.下载源码官方网站：http://allseeing-i.com

从小爱吃苹果干·2025-03-07 17:44

阿里深夜开源QwQ-32B模型，仅需1/10的成本即可比肩R1满血版

大规模强化学习（RL）有潜力超越传统的预训练和后训练方法来提升模型性能。近期的研究表明，强化学习可以显著提高模型的推理能力。

伪_装·2025-03-07 13:45

2024年图灵奖公布：两位AI先锋因强化学习获奖

纽约时报》报道，全球最大的计算机专业人士协会计算机协会(ACM)周三宣布，将2024年图灵奖授予安德鲁·巴托(AndrewBarto)博士和理查德·萨顿(RichardSutton)博士，以表彰他们在强化学习方面的研究

吴脑的键客·2025-03-07 13:15

（24-1）DeepSeek中的强化学习：DeepSeek简介

在人工智能的浩瀚星空中，DeepSeek犹如一座巍峨的科技丰碑，熠熠生辉，引领着大模型时代的风云变幻。DeepSeek以卓越的创新精神和前沿的技术架构，突破常规极限，将海量知识与智能推理完美融合，展现出惊人的计算力与思维深度。4.1DeepSeek简介DeepSeek是一家成立于2023年的中国人工智能初创公司，专注于开发高效且经济的大型语言模型。其核心技术包括多头潜在注意力（Multi-head

码农三叔·2025-03-07 12:33

实现XX系统设计时所实现的质量属性战术

..转载于:https://www.cnblogs.com/3066405538a/p/6665523.html

weixin_30810583·2025-03-07 00:59

详解：Grok中文版 _Grok 3 国内中文版本在线使用

借助深度学习与强化学习等先进技术，GrokAI具备自我学习的能力，可以通过不断的训练来优

·2025-03-06 18:35

【大模型学习】第八章深入理解机器学习技术细节

SupervisedLearning）1.定义与工作原理2.常见任务3.应用场景示例：房价预测二、无监督学习（UnsupervisedLearning）1.定义与工作原理2.常见任务3.应用场景示例：客户细分三、强化学习

好多渔鱼好多·2025-03-06 16:57

非GUI模式执行jemter压测

https://www.cnblogs.com/shaohuang/p/17508011.html准备JMeter脚本-首先，在GUI模式下创建并调试好你的JMeter测试计划。

十叶知秋·2025-03-06 16:24

Perl初试

/usr/bin/perl-w#auth:lichmama@cnblogs.com#what:sendmessagetophone#usage:sms.pl[phonenumber][text]usestrict

weixin_30480583·2025-03-06 16:22

AI语言模型的技术之争：DeepSeek与ChatGPT的架构与训练揭秘

的基础概述1.1DeepSeek简介1.2ChatGPT简介第二章：模型架构对比2.1Transformer架构：核心相似性2.2模型规模与参数第三章：训练方法与技术3.1预训练与微调：基础训练方法3.2强化学习与奖励建模

m0_74825466·2025-03-06 06:29

自然语言模型（NLP）介绍

例如，DeepSeek通过强化学习提升推理能力，其混合专家架构（MoE）显著优化了计算效率‌。二、核心技术解析1.DeepSeek模型架构混合专家模型（MoE）：DeepSeek-V3采用Mo

Liudef06·2025-03-06 04:11

Search-o1：智体搜索增强的大型推理模型

大型推理模型(LRM)（例如OpenAI-o1）已通过大规模强化学习展示长步推理能力。然而，它们的扩展推理过程通常会受到知识不足的影响，从而导致频繁出现不确定性和潜在错误。

三谷秋水·2025-03-05 22:53

强化学习实践 openai gymnasium CartPole-v1 DQN算法实现

前言最近在学习强化学习，大致过了一遍强化学习的数学原理（视频）。视频讲的很好，但是实践的部分总是感觉有点匮乏（毕竟解决gridworld方格世界（GitHub）的问题的很难给人特别大的

abstcol·2025-03-05 14:12

强化学习是否能够在完全不确定的环境中找到一个合理的策略，还是说它只能在已知规则下生效？

强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，广泛应用于机器人控制、自动驾驶、游戏策略和金融决策等领域。

concisedistinct·2025-03-05 12:58

Spark基本命令

/stophs.sh三、基础使用参考链接：https://www.cnblogs.com/dasn/arti

chenworeng5605·2025-03-05 10:42

清华大学DeepSeek PPT第二版深度解读：人工智能前沿技术解析

第二版PPT从以下方面实现全面升级：AI前沿技术覆盖：涵盖大模型、深度强化学习等领域最新研究进展工业级实践案例：新增多个企业级项目解决方案案例三维知识框架：从算法原理→代码实现→工程部署的全链路解析下载建议

qudongmofashi·2025-03-05 09:04

PyTorch 中结合迁移学习和强化学习的完整实现方案

结合迁移学习（TransferLearning）和强化学习（ReinforcementLearning,RL）是解决复杂任务的有效方法。

小赖同学啊·2025-03-05 07:54

【机器学习】Reinforcement Learning-强化学习基本概念

1、Q值与V值1.1Q值和V值的定义Q值：也称为动作价值函数，评估动作的价值，它代表了智能体选择这个动作后，一直到最终状态奖励总和的期望，表示为Q(s,a)，其中s是状态，a是动作。V值：评估状态的价值，也称为状态价值函数，表示为V(s)，其中s是状态。它代表了智能体在这个状态下，一直到最终状态的奖励总和的期望。V值与动作无关只与状态有关。Q值和V值的概念是一致的，都是衡量在马可洛夫树上某一个节点

长相忆兮长相忆·2025-03-05 02:42

Elasticsearch常用命令

1、安装教程windows环境下elasticsearch安装教程(超详细)-hualess-博客园(cnblogs.com)Elasticsearch下载地址：https://artifacts.elastic.co

墨明&棋妙·2025-03-04 23:13

Conda/Miniconda/Anaconda 常用命令整理及介绍

作者：HELO出处：http://www.cnblogs.com/HELO-K欢迎转载,转载时请保留此声明,谢谢！

baixijun6078·2025-03-04 15:39

.NET周刊【2月第3期 2025-02-16】

国内文章我们是如何解决abp身上的几个痛点https://www.cnblogs.com/jackyfei/p/18709265张飞洪分享了abp框架在.net社区的使用经验，认为其在模块化、DDD和微服务上表现优良

INCerry·2025-03-04 12:13

SFT与RLHF的关系

在大模型训练中，SFT（监督微调）和RLHF（基于人类反馈的强化学习）是相互关联但目标不同的两个阶段，通常需要结合使用以优化模型性能，而非互相替代。

一只积极向上的小咸鱼·2025-03-04 11:12

推荐频道

强化学习Blogs