推理训练第8页

STM32实战开发（172）：智能体育训练记录系统

引言随着人们对健康和运动的关注，体育训练记录系统变得越来越重要。智能体育训练记录系统能够帮助运动员记录、分析并优化他们的训练数据。

嵌入式开发项目·2025-03-03 02:53

STM32实战开发（179）：智能体育训练计划反馈系统

引言随着现代科技的不断发展，运动科学领域也在不断取得突破，尤其是在体育训练中，科技的应用越来越普及。从专业运动员到普通健身爱好者，都开始使用智能设备来优化训练计划，提高训练效率。

嵌入式开发项目·2025-03-03 02:53

【AI大模型】Transformers大模型库（九）：大模型微调之计算微调参数占比

、计算微调参数占比2.1概述2.2模型参数结构一览2.3微调参数占比计算三、总结一、引言这里的Transformers指的是huggingface开发的大模型库，为huggingface上数以万计的预训练大模型提供预测

LDG_AGI·2025-03-03 01:45

如何掌握deepseek的推理思路：3个高级AI指令技巧，小白也能轻松上手！

不是新模型发布，也不是算力升级，而是Deepseek——这类AI学会像人类一样推理。但是有时候，Deepseek的推理你会觉得还不够？

小机学AI大模型·2025-03-03 01:13

PyTorch数据加载：实战入门

"好的数据加载是成功训练的第一步"一、为什么要用DataLoader？当我们刚开始学习深度学习时，常常会这样处理数据：#传统方式加载数据images=[...]#所有图片数据labels=[...]

秋‍.·2025-03-03 01:43

大模型国产化迁移大模型到昇腾教程（Pytorch版）

已有国产AI芯片和Mindformers框架，基于昇腾910训练大模型，使用MindIE实现大模型服务化。本文介绍如何迅速将大型模型迁移到昇腾910B,许多入门者都是从斯坦福羊驼开始的。

科技互联人生·2025-03-03 01:42

大模型微调入门（Transformers + Pytorch）

输出：我们预训练的名字。训练为了性能好下载小参数模型，普通机器都能运行。

昵称不能为null·2025-03-03 00:06

计算机视觉实战：YOLOv8在工业质检中的应用（附完整代码+数据集）

从数据标注到模型部署，包含环境配置、数据增强、模型训练全流程详解，手把手教你打造高精度智能质检系统！

emmm形成中·2025-03-03 00:03

全民AI入门清华大学 deepseek 从入门到精通 pdf 免费下载

•DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。下载地址：链接：https://pan.quark.cn/s/b2e0b986332a提取码：4XNy

宇飞林海·2025-03-02 23:30

小白也能十分钟打造自己的推理大模型！unsloth+Colab轻松上手

简介：DeepSeek-R1-Distill-Llama-8B是一个基于Llama架构的8B参数语言模型，经过深度蒸馏（distillation）处理，旨在提高推理效率和精度。

X.Cristiano·2025-03-02 23:28

北京大学：2本手册，拓展AI应用深度与广度

深入剖析DeepSeek-R1在复杂逻辑推理、数学和编程任务中的优异表现，揭示其在推理密集型任务、教育、科研、知识应用和文档分析等领域的独特优势，为AIGC领域的从业者和爱好者提供了深入了解DeepSeek

2501_90766876·2025-03-02 21:48

如何学习训练大模型——100条建议（附详细说明）_如何训练自己的大模型_大模型如何训练

摘要：通过深入了解本文中的这些细节，并在实际项目中应用相关知识，将能够更好地理解和利用大模型的潜力，不仅在学术研究中，也在工程实践中。通过不断探索新方法、参与项目和保持热情，并将其应用于各种领域，从自然语言处理到计算机视觉和自动驾驶。通过不断学习、实践和探索，可以不断提升自己在深度学习领域的技能和洞察力，同时也能为社会和行业带来创新和改进。从小规模的项目和模型开始，逐渐迭代和扩展到更大的模型，逐步

大耳朵爱学习·2025-03-02 21:18

使用深度学习模型U-Net进行训练基于哨兵2的作物分割数据集。PyTorch框架为例，如何构建和训练U-Net模型来完成基于哨兵2的作物分割检测

使用深度学习模型如U-Net进行训练基于哨兵2的作物分割。

计算机C9硕士_算法工程师·2025-03-02 20:04

DeepSeek 开源狂欢周（四）DualPipe与EPLB双弹齐发，训练效率的“双引擎”加速器！

在DeepSeek开源周的第四天，DualPipe和EPLB这两项全新技术一同亮相，它们不仅为DeepSeek的低成本、高效训练大模型提供了强大支持，还为全球AI爱好者和从业者送上了两份“技术大礼包”。

OpenCSG·2025-03-02 19:56

2022.2.10训练思维练习

//输出十进制1234对应的八进制和十六进制//#include//intmain()//{//printf("0%o,0x%x\n",1234,1234);//return0;//}//将一个四位数反向输出//#include//intmain()//{//intn=0;//scanf_s("%d",&n);//while(n)//{//printf("%d",n%10);//n=n/10;//

钟佩颖·2025-03-02 18:52

2022.2.12思维训练（入门c语言题）

//#include//intmain()//{////return0;//}//#include//intmain()//{//printf("%d\n",sizeof(char));//printf("%d\n",sizeof(int));////printf("%d\n",sizeof(long));//printf("%d\n",sizeof(double));//return0;//}/

钟佩颖·2025-03-02 18:52

2W8000字 LLM架构文章阅读指北

|自然语言处理（NLP）之建模3、LLM大模型架构之词嵌入（Part1）3、LLM大模型架构之词嵌入（Part2）3、LLM大模型架构之词嵌入（Part3）4、LLM架构从基础到精通之Word2Vec训练全解析

·2025-03-02 17:24

使用Semantic Kernel：对DeepSeek添加自定义插件

大语言模型虽然具有强大的自然语言理解和生成能力，但它们通常是基于预训练的模型，其功能受限于训练时所接触的数据和任务。为大语言模型添加插件

归-途·2025-03-02 16:41

关于openAI接口的使用(个人学习总结)

OpenAIOpenAI的三种使用方法1、使用OpenAIAPI2、使用第三方库3、自己训练模型

暗雾飘扬·2025-03-02 16:38

3.4.4- 先颜色后形状的方式 STM32串口通信 openmv+STM32串口通信 openmv串口通信openmv识别物体 openmv神经网络训练 openmv数字识

非常详细的视频和文字教程，讲解常见的openmv教程包括巡线、物体识别、圆环识别、阈值自动获取等。非常适合学习openmv、K210、K230等项目视频合集链接在:openmv教程合集openmv入门到项目开发openmv和STM32通信openmv和opencv区别openmv巡线openmv数字识别教程LCD3.4.4-先颜色后形状的方式可以再试试先颜色后形状的识别方式。importsenso

好家伙VCC·2025-03-02 15:25

3.4.5-识别形状+颜色+增加最小变化阈值 STM32串口通信 openmv+STM32串口通信 openmv串口通信openmv识别物体 openmv神经网络训练 openmv数字识

非常详细的视频和文字教程，讲解常见的openmv教程包括巡线、物体识别、圆环识别、阈值自动获取等。非常适合学习openmv、K210、K230等项目视频合集链接在:openmv教程合集openmv入门到项目开发openmv和STM32通信openmv和opencv区别openmv巡线openmv数字识别教程LCD3.4.5-识别形状+颜色+增加最小变化阈值在形状+颜色的识别效果中，发现小球是不动，

好家伙VCC·2025-03-02 15:25

基于阿里云PAI平台快速部署DeepSeek大模型实战指南

在多项国际评测中，DeepSeek-R1模型在推理能力、多语言支持和长上下文处理（最高128K）方面表现卓越，尤其在企业级场景中展现出以下优势：高性能推理：单张A10显卡即可部署7B参数模型，推理速度提升

硅基打工人·2025-03-02 14:19

深度学习框架之主流学习框架

它们提供了构建、训练和部署神经网络所需的各种功能和库。以下是一些主流的深度学习框架及其特点：TensorFlow：由Google开发，是一个广泛使用的开源深度学习框架。

uu1224·2025-03-02 14:17

Llama 2架构深度解析：Meta开源的70B参数大模型设计哲学

Llama2作为Meta开源的商用级大语言模型，其架构设计体现了三大核心原则：效率优先：在7B/13B/70B参数规模下保持线性计算复杂度扩展性强化：通过改进注意力机制支持4k上下文长度安全性内嵌：在预训练阶段融入

AI时代已来！·2025-03-02 14:46

DINO-X：一种用于开放世界目标检测与理解的统一视觉模型

DINO-X：一种用于开放世界目标检测与理解的统一视觉模型摘要1引言2方法2.1模型架构2.1.1DINO-XPro2.1.2DINO-XEdge3数据集构建和模型训练数据收集模型训练摘要在本文中，我们介绍了

黄阳老师·2025-03-02 13:10

指数移动平均（EMA）策略

在神经网络领域，EMA常被用于对模型参数进行平滑处理，使得网络模型在训练过程中能够更加稳定且泛化能力可能得到提升。

Sherry Wangs·2025-03-02 13:06

Transformer预测 | 基于TCN-Transformer的股票价格预测（Pytorch）

文章目录预测效果文章概述程序设计参考资料预测效果文章概述Transformer预测|基于TCN-Transformer的股票价格预测（Python）Transformer模型本质上都是预训练语言模型，大都采用自监督学习

机器学习之心·2025-03-02 13:35

SQL-o1：一种用于Text-to-SQL的自奖励启发式动态搜索方法

为了解决这些问题，我们提出了SQL-o1，一种基于自奖励的启发式搜索方法，旨在增强LLMs在SQL查询生成中的推理能力。SQL-o1结合了蒙特卡洛树搜索(MCTS)进行过程级

数之何·2025-03-02 12:25

stars and seas·2025-03-02 11:50

【AI带来的机遇】

类比房地产黄金期中介赚取信息差、移动互联网初期应用商店分发红利，当前AI领域存在三大核心机遇：基础设施重构机遇（类比域名投资）AI大模型开源浪潮下，高质量训练数据资产、特定领域微调模型、模型中间件将成为新时代

调皮的芋头·2025-03-02 11:18

如何用AI写程序

一、AI写程序之工具选择（一）主流AI编程工具介绍如今市面上有诸多AI编程工具可供选择，以下为大家介绍几种常见且实用的工具：ChatGPT：由OpenAI开发的一款基于Transformer架构的预训练模型

Honmaple·2025-03-02 11:46

模型优化之强化学习（RL）与监督微调（SFT）的区别和联系

想了解有关deepseek本地训练的内容可以看我的文章：本地基于GGUF部署的DeepSeek实现轻量级调优之一：提示工程（PromptEngineering）（完整详细教程）_deepseekgguf-CSDN

搏博·2025-03-02 10:08

DeepMind首席科学家最新万字访谈：模型「慢思考」，能力大幅提升！

JackRae指出，推理模型是AI发展的新范式，推理模型并非追求即时响应，而是通过增加推理时的思考时间来提升答案质量，这导致了一种新的ScalingLaw，“慢思考”模式是提升AI性能的有效途径。

·2025-03-02 09:43

大模型在心力衰竭预测及临床方案制定中的应用研究报告

1.2研究目的1.3研究方法与创新点二、大模型技术与心力衰竭概述2.1大模型技术原理与发展2.2心力衰竭的病理机制与现状三、大模型在心力衰竭术前风险预测中的应用3.1数据收集与预处理3.2预测模型的构建与训练

LCG元·2025-03-02 09:58

完整的 Python 数据分析案例：在线游戏玩家付费预测

目录1.案例背景代码实现2.主要的代码难点解析2.1数据清洗-缺失值处理2.2特征工程-新特征计算与独热编码2.3特征选择2.4模型训练与评估2.5数据可视化3.可能改进的代码3.1数据清洗与特征工程改进

萧十一郎@·2025-03-02 08:56

边缘AI推理模型更新的秘密武器——Nginx的在线升级魔法

在当今快速发展的物联网和边缘计算时代，如何确保部署于边缘节点上的AI推理模型能够及时、高效地进行在线更新，成为了技术团队面临的一项重要挑战。

墨夶·2025-03-02 08:25

DeepSeek效应初现：Grok-3补刀ChatGPT，OpenAI已在ICU？

今天咱们聊聊最近在AI界引发轰动的新闻——DeepSeek和xAI相继用R1和Grok-3证明了预训练ScalingLaw并非OpenAI的护城河。这意味着什么呢？让我们一探究竟！

东方佑·2025-03-02 08:53

【大模型】fp32 和 fp16 的区别，混合精度的原理。

（仅为fp32的50%）数值范围约±3.4×10³⁸约±6.5×10⁴精度（尾数）23位（约7位有效十进制数）10位（约3位有效十进制数）用途高精度计算（如梯度更新）高效计算（如矩阵乘法）2.混合精度训练的原理核心思想

深度求索者·2025-03-02 08:20

【模型部署】大模型部署工具对比：SGLang, Ollama, VLLM, LLaMA.cpp如何选择？

以下是对比分析：性能VLLM(VirtualTensorLanguage):VLLM是一个高性能的推理库，特别适用于长序列任务。

深度求索者·2025-03-02 08:19

高效空间编码技术：SPD-Conv在目标检测中的创新应用

YOLOv8中的SPD-Conv实现YOLOv8SPD-Conv代码实现代码解析性能提升SPD-Conv的优势与应用场景SPD-Conv的设计细节与优化1.空间深度转换机制的进一步优化2.SPD-Conv的训练技巧与改进

向哆哆·2025-03-02 08:17

pytorch与深度学习随记——AlexNet

激活函数：AlexNet使用ReLU而不是sigmoid作为其激活函数，这有助于缓解梯度消失问题并加速训练过程。AlexNet架构的创新点局部响应归一化(LRN)：AlexNet引入LRN层，可以创建

黑色的山岗在沉睡·2025-03-02 08:46

穿越AI边界：深度集成DeepSeek API与云平台的实践之路

DeepSeek作为一款领先的大型语言生成模型，凭借其强大的推理和生成能力，已经被越来越多的开发者和行业专家所青睐。

云边有个稻草人·2025-03-02 07:45

【大模型】什么是蒸馏版大模型

大模型蒸馏一、知识蒸馏与无监督样本训练1.知识蒸馏的核心原理目标：将复杂大模型（Teacher）的知识迁移到轻量化小模型（Student）中，提升小模型性能。

深度求索者·2025-03-02 07:12

【llm对话系统】 LLM 大模型推理python实现：vLLM 框架

在LLM的应用中，推理(Inference)阶段至关重要。它指的是利用训练好的LLM模型，根据输入(Prompt)生成文本的过程。

kakaZhui·2025-03-02 06:06

卷积这个词在卷积神经网络中应该怎么理解

卷积核中的每个值称为权重（weights），这些权重是通过训练过程优化得到的。滑动窗

abments·2025-03-02 06:05

卷积核在初始阶段的数据是怎么获取的

卷积核的初始化随机初始化：在大多数情况下，卷积核（滤波器）的权重在模型训练开始时是随机初始化的。常用的随机初始化方法包括以下几种：均匀分布初始化：权重从一个均匀分布中抽取值。