训练后量化第9页

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

用上该算法后，Qwen2.5-32B模型只经过RL训练，不引入蒸馏等其他技术，在AIME2024基准上拿下50分，优于相同setting下使用GRPO算法的DeepSeek-R1-Zero-Qwen，且

·2025-03-22 22:24

“三分钟”看懂仓库质检 - WMS质检管理要点精华版(2-2)

在仓储管理中，上期我们说了收货前质检，这期我们来说说收货后质检。同样它也是确保货物质量的关键环节。

·2025-03-22 22:53

如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测

如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测文章目录1.安装依赖2.数据准备3.配置YOLOv83.1

计算机C9硕士_算法工程师·2025-03-22 22:08

想使用dify实现docx文档的自动生成？试了一圈，感觉还是根据python-docx更靠谱

最近笔者接到一个需要批量生成标准化需求文档的任务，尝试了目前热门的低代码工具Dify后，发现对于稍微复杂格式的文档生成需求（例如文本居中这么简单的需求），最终还是回归到基于python-docx库的解决方案

几道之旅·2025-03-22 21:37

渗透测试-越权测试、sql注入

该漏洞是指应用在检查授权时存在纰漏，使得攻击者在获得低权限用户账户后，利用一些方式绕过权限检查，访问或者操作其他用户或者更高权限。

夜晚打字声·2025-03-22 21:36

MSE分类时梯度消失的问题详解和交叉熵损失的梯度推导

前文请移步笔者的另一篇博客：大模型训练为什么选择交叉熵损失（Cross-EntropyLoss）：均方误差（MSE）和交叉熵损失的深入对比MSE分类时梯度消失的问题详解我们深入探讨MSE（均方误差）的梯度特性

阿正的梦工坊·2025-03-22 21:34

python 列表排序

有些时候我们希望对列表进行排序后，列表可以保存我们排序后的结果，但是很多情况下我们只是希望通过列表的排序，临时的显示排序结果而已。所以对于列表的排序可以分为永久性的排序和临时性的排序。

rainynights·2025-03-22 21:33

【从零开始学习计算机科学】计算机体系结构（一）计算机体系结构、指令、指令集（ISA）与量化评估

【从零开始学习计算机科学】计算机体系结构（一）计算机体系结构、指令、指令集（ISA）与量化评估概论计算机体系结构简介计算机的分类并行体系结构指令集体系结构（ISA）分类存储器寻址寻址模式操作数大小指令ISA

贫苦游商·2025-03-22 21:33

HTTP请求过程详解

重要：当用户输入URL后，浏览器首先解析域名，通过DNS查询获取服务器IP。接着通过三次握手建立TCP连接，如果是HTTPS还会进行TLS加密协商。

酥暮沐·2025-03-22 20:30

基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践

第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行

weixin_贾·2025-03-22 20:59

SQL优化思想——不优化或许是最好的优化⓵哈哈，其实我几乎什么都没做

⓵啥没做就搞定Q：L老师，自从您为XXX平台做了SQL优化后，运行非常顺畅，您是做

梁敬彬·2025-03-22 20:59

华为静音模式指定联系人来电响铃

水果这个地方做的是很方便的，直接添加紧急联系人，什么声音都没有，只有指定人的电话铃声直接上结论，华为是不支持直接这样设置的，也就是水果里面静音后，打开紧急联系人，仍能收到电话的功能，鸿蒙现在没有，但是有一些间接实现的办法一个不算完美但有用的常见解决方案

修心光·2025-03-22 20:28

一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！

前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。

小城哇哇·2025-03-22 20:26

anythingLLM 使用教程

与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。

惟贤箬溪·2025-03-22 19:24

深度解析大模型推理框架：原理、应用与实践

该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析

百度_开发者中心·2025-03-22 19:24

大模型推理框架：从理论到实践的全面解析

然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。

百度_开发者中心·2025-03-22 19:23

山西中考计算机评分软件

访问网址：https://www.123865.com/s/cPmDjv-mSeBd提取码:zkds下载安装后具体步骤请访问：https://www.123865.com/s/cPmDjv-1SeBd提取码

SuRuiYuan1·2025-03-22 19:18

Nginx 在 Ubuntu 上的安装与配置指南

本指南将详细介绍Nginx的安装过程、安装后的检查方法、服务的管理以及基本的配置步骤，帮助你快速上手并正确使用Nginx。1.安装Nginx安装Nginx非常简单，只需使用以下

一回生二回熟·2025-03-22 18:14

YOLO算法全面改进指南（二）

本方案整合了轻量化设计、多模态融合、动态特征优化等创新点，并给出可验证的实验方向。

niuTaylor·2025-03-22 18:13

回归任务训练--MNIST全连接神经网络（Mnist_NN）

importtorchimportnumpyasnpimportloggingfromtorch.utils.dataimportTensorDataset,DataLoaderfromtorch.utils.dataimportDataLoader#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname

豆芽819·2025-03-22 18:10

MQ总结

全局只有一个失败后把消息写入数据库表，后期通过定时任务扫描，再次发

·2025-03-22 18:20

【GNSS原理】【差分定位】Chapter.4 GNSS定位技术分析——DGPS原理[2025年3月]

DGPS原理作者：齐花Guyc(CAUC)文章目录Chapter.4GNSS定位技术分析——DGPS原理一、引言二、差分定位（DGPS）1.位置差分2.伪距差分GPS单差伪距GPS双差伪距3.载波相位平滑后的伪距差分

牵星术小白·2025-03-22 17:37

大模型学习-让其他电脑可访问本地ollama的模型并进行流式响应

localhost我们可以让Ollama监听局域网IP，在Ollama服务器上运行：setOLLAMA_HOST=0.0.0.0:11434ollamaserve注意：这种方式只对当前CMD窗口有效，关闭窗口后就会失效

Gratitute_林腾·2025-03-22 17:35

《南京日报》专题报道 | 耘瞳科技“工业之眼”加码“中国智造”

在江宁开发区，机器人已不再是科幻电影里的遥远想象，他们就像人类的“同事”，在工地上忙着贴砖、刷墙、搬运、检测；在体育训练场上帮助运动员矫正姿势；在医院里帮助医生发现帕金森早期征兆，在智慧工厂里与人类分工协作

耘瞳科技·2025-03-22 17:04

测试工程师Ai应用实战指南简例prompt

案例基于电商平台"订单超时自动关闭"功能测试：案例背景项目名称：电商平台订单系统V2.3测试目标：验证"用户下单后30分钟未支付，订单自动关闭并释放库存"功能技术栈：SpringBoot+MySQL+Redis

进击的雷神·2025-03-22 17:04

Python——函数

对于转换得到的二进制小数，小数点后最多保留10位。小数点后不足10位，则输出这些位，尾部不补0；小数点后超出10位，则直接舍弃超出部分。

生如雪花·2025-03-22 17:33

OSI七层模型

等到达目的地后，再一层层解开，最终呈现给接收者。一、OSI七层模型简介：物理层-负责定义物理连接的电气、机械、过程和功能特性，如电压水平、电缆规格

_洛_神·2025-03-22 17:02

大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB

视频教程在这：3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili一、大规模异构集群出现的原因：同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源

爱串门的小马驹·2025-03-22 16:29

软件工程简答

什么是软件工程软件工程：将系统化的、规范的、可量化的方法应用于软件的开发、运行和维护，即将工程化方法应用于软件。支持软件工程的根基在于质量关注点。软件工程的基础是过程层，将各个技术层次结合在一起。

Ruannn（努力版）·2025-03-22 16:58

Mysql 报错: (1364, “Field ‘id‘ doesn‘t have a default value“)

Cannotchangecolumn'id':usedinaforeignkeyconstraint在于主键id已存在外键关系,不允许随意修改主键的属性值,所以我们须得先把外键关联删除之后,在更改主键,主键更改完毕后,

Lonelypatients°·2025-03-22 15:23

MiniMind：完全从 0 训练自己的大模型

其目标是把上手LLM的门槛无限降低，直接从0开始训练一个极其轻量的语言模型，最低仅需2G显卡即可推理训练！

三花AI·2025-03-22 15:49

MiniMind：3小时完全从0训练一个仅有26M的小参数GPT，最低仅需2G显卡即可推理训练！

哈罗·沃德·2025-03-22 15:19

minimind2学习：（1）训练

1、数据下载参考：https://github.com/jingyaogong/minimind/tree/master2、预训练训练6个epochspythontrain_pretrain.py--epochs6

溯源006·2025-03-22 14:47

Stacking算法：集成学习的终极武器

1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来

civilpy·2025-03-22 14:16

MiniMind

数据集分类：tokenizer训练集：这个数据集用于训练分词器（tokenizer），是文本处理中的一个重要步骤。它可以帮助模型更好地理解文本数据的结构。

亚伯拉罕·黄肯·2025-03-22 14:46

直方图梯度提升：大数据时代的极速决策引擎

但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树

万事可爱^·2025-03-22 14:14

【集成学习】：Stacking原理以及Python代码实现

总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容

Geeksongs·2025-03-22 14:14

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化

一个处女座的程序猿·2025-03-22 14:43

centos环境安装swoole后,php7无法加载swoole.so时出现nable to load dynamic library 'swoole.so'

先贴上错误提示[[email protected]]#php-vPHPWarning:PHPStartup:Unabletoloaddynamiclibrary'swoole.so'(tried:/usr/lib64/php/modules/swoole.so(/usr/lib64/php/modules/swoole.so:undefinedsymbol:php_sockets_le_socket)

yyfx2010·2025-03-22 14:42

EasySwoole热加载

文件热加载由于swoole常驻内存的特性，修改文件后需要重启worker进程才能将被修改的文件重新载入内存中解决：Process的方式实现文件变动自动进行服务重载1.安装inotify扩展peclinstallinotify2

龏皚觻髾檃·2025-03-22 14:40

模型部署后的版本回滚策略，如何确保服务降级的平滑性？

模型部署版本回滚策略与平滑服务降级技术体系（2025版）一、核心设计原则与架构模型部署回滚的平滑性需建立在版本隔离性、流量可控性、数据兼容性三大支柱上，结合2025年前沿技术实现多维保障：

百态老人·2025-03-22 14:39

Django系列教程（15）——上传文件

服务器在接收到POST请求后需要将其存储在服务器上的某个地方。Django默认的存储地址是相对于根目

l软件定制开发工作室·2025-03-22 14:05

强化学习 Reward

奖励是智能体在执行某个动作后从环境中获得的即时反馈，用于评估该动作的好坏。这种反馈帮助智能体调整其行为策略，以期在未来获得更多的奖励。奖励可以是正数、负数或零，其或负

百态老人·2025-03-22 13:31

DeepSpeed-Chat：Reward Model【奖励模型】

但是，RM和SFT微调之间存在几个关键差异：训练数据差异：对于SFT微调，数据是查询（query）和答案（answer）拼接在一起。

u013250861·2025-03-22 13:31

【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践

本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解

蒙娜丽宁·2025-03-22 13:29

贪心算法（9）（java）最优除法

你需要找出怎么添加括号，以便计算后的表达式的值为最大值。以字符串格式返回具有最大值的对应表达式。注意:你的表达式不应该包含多余的括号。输入：【1000，100，10，2

奋进的小暄·2025-03-22 12:54

鸿蒙开发工程师简历项目撰写全攻略

一、项目结构的黄金法则建议采用「4+1」结构：项目背景（业务价值）+技术架构（鸿蒙特性）+核心实现（技术难点）+个人贡献（量化成果）+附加价值（延伸影响）二、鸿蒙特色技术点提炼技巧鸿蒙核心技术技术维度具体实现案例量化成果示例分布式软总线自定义协议实现家电设备低功耗连接连接成功率从

谢道韫689·2025-03-22 12:53

ESP32 智能猫喂水开发日志（RICE/MoSCoW/Kano三种产品路线规划）

RICE/MoSCoW/Kano三种产品路线的差异分析一、核心定位与适用场景差异1.RICE模型-核心逻辑：通过量化指标（Reach接触量、Impact影响程度、Confidence信心指数、Effort

天瑜创客·2025-03-22 12:23

RRU 软件中 DPD（数字预失真）的全面测试方案

DPD（数字预失真）技术旨在通过对输入到PA的信号进行预失真处理，补偿PA的非线性失真，使经过PA放大后的信号尽可能接近理想的线性信号。其基本原理是通过对PA的输入输出信号进行

youngerwang·2025-03-22 12:52

从零搭建Pytorch模型教程（七）单机多卡和多机多卡训练

前言本文主要介绍单机多卡训练和多机多卡训练的实现方法和一些注意事项。其中单机多卡训练介绍两种实现方式，一种是DP方式，一种是DDP方式。

AI大模型探索者·2025-03-22 12:50

推荐频道

训练后量化