天梯赛训练第6页

大模型元年：人工智能的“寒武纪大爆发”

一、从“专用”到“通用”：大模型开启AI新范式传统的人工智能模型往往是针对特定任务进行训练的“专用工具”，例如图像识别、语音识别等。而大模

小马过河R·2025-02-07 08:05

大模型生态开源工具整理

最近一直在做大模型应用开发工作,总结下用到的一些开源工具1-模型训练LLaMA-Factory整体介绍LLaMA-Factory是一个开源的微调框架，为开发者提供简便高效的工具，以便在预训练模型基础上快速适应特定任务需求

miracletiger·2025-02-07 08:35

python写接口调用模型_对YOLOv3模型调用时候的python接口详解

之前训练好的模型，在模型调用的时候，总是在lib=CDLL("/home/*****/*******/darknet/li

weixin_39835607·2025-02-07 07:28

聚类算法与应用

3.1基本原理3.1.1树状结构的建立3.1.2聚合或分裂策略3.2应用场景3.2.1生物学中的基因表达数据聚类3.2.2文本数据的主题分类4.聚类算法的实践应用4.1数据准备与预处理4.2算法选择与模型训练

theskylife·2025-02-07 06:16

DeepSeek开源引擎引爆央国企AI革命：一场自主可控的“智能突围战“

然而现实却充满挑战——某能源集团AI模型训练耗时长达72小时，某金融机构因数据安全问题被迫放弃云端方案，某制造央企为适配国产硬件额外投入超千万...这些痛点直指三大困局：性能瓶颈：

Light60·2025-02-07 05:43

4.2 过拟合与欠拟合

4.2.1什么是过拟合与欠拟合过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。

望云山190·2025-02-07 05:11

tensorflow模型继续训练？？

之前训练的模型没有收敛就结束了，再次训练，增加训练次数是不是就会收敛了？有时，网上的参考答案并不能解决问题，因为每个人的细节不同，总有些关键细节问题决定成败。

小李飞刀李寻欢·2025-02-07 04:35

使用一个大语言模型对另一个大语言模型进行“调教”

以下是基于搜索结果整理的详细步骤和方法：1.准备工作安装必要的库•Transformers：用于加载和训练模型。•Datasets：用于处理数据集。

大霸王龙·2025-02-07 03:25

Ollama安装部署deepseek

内置的模型下载llama3模型(亲测垃圾机房都可以跑起来)下载DeepSeek-V3模型运行模型搭建Web环境OllamaOllama是一个开源的大型语言模型服务工具，旨在帮助用户在本地环境中部署和运行大规模预训练语言模型

angel725·2025-02-07 02:53

Stable Diffusion使用样例实践（二）

细节上可以多训练几次，得到满意的为准。

Allen-Steven·2025-02-07 00:38

DeepSeek R1和V3区别

DeepSeekR1和V3是深度求索（DeepSeek）推出的两款大模型，尽管基于相似的技术框架（如混合专家架构MoE），但在设计目标、训练方法、性能表现和应用场景上存在显著差异。

@Rocky·2025-02-06 23:02

代码随想录算法训练营第二十八天| 回溯算法01

77.组合对着在回溯算法理论基础给出的代码模板，来做本题组合问题，大家就会发现写回溯算法套路。在回溯算法解决实际问题的过程中，大家会有各种疑问，先看视频介绍，基本可以解决大家的疑惑。本题关于剪枝操作是大家要理解的重点，因为后面很多回溯算法解决的题目，都是这个剪枝套路。题目链接/文章讲解：代码随想录视频讲解：带你学透回溯算法-组合问题（对应力扣题目：77.组合）|回溯法精讲！_哔哩哔哩_bilibi

Rachela_z·2025-02-06 23:02

机器学习算法 —— 朴素贝叶斯

博客的简介（文章目录）目录朴素贝叶斯朴素贝叶斯的介绍朴素贝叶斯的优点朴素贝叶斯的缺点朴素贝叶斯的应用实战（贝叶斯分类）莺尾花数据库函数导入数据导入和分析模型训练模型预测原理简析模拟离散数据集朴素贝叶斯朴素贝叶斯的介绍朴素贝叶斯法

ZShiJ·2025-02-06 23:01

[论文笔记] Deepseek技术报告

介绍了两代模型：DeepSeek-R1-Zero（纯RL，无SFT冷启动数据）和DeepSeek-R1（在RL前加入少量冷启动数据和多阶段训练流程，提升可读性及推理表现）。

心心喵·2025-02-06 22:53

深度学习篇---深度学习相关知识点&关键名词含义

Ronin-Lotus·2025-02-06 21:21

深度学习篇---深度学习中的超参数&张量转换&模型训练

文章目录前言第一部分：深度学习中的超参数1.学习率（LearningRate）定义重要性常见设置2.批处理大小（BatchSize）定义重要性常见设置3.迭代次数（NumberofEpochs）定义重要性常见设置4.优化器（Optimizer）定义重要性常见设置5.损失函数（LossFunction）定义重要性常见设置6.正则化（Regularization）定义重要性常见设置7.网络架构（Net

Ronin-Lotus·2025-02-06 21:50

利用Docker简化机器学习应用程序的部署和可扩展性

传统方法往往需要帮助将ML模型操作化，原因包括训练和服务环境之间的差异或扩展的困难。Docker是一个旨在自动化应用程序部署、扩展和管理的开源平台，作为解决这些挑战的方法。所提出的方法将ML模型及其

荆州克莱·2025-02-06 20:44

LDA主题分析—情感分析案例

以下是一个针对投诉内容进行情感分析的完整案例，包含数据准备、模型训练、情感分析以及结果展示的过程。案例：投诉内容情感分析步骤1：数据准备首先，我们准备一份包含用户投诉内容的数据集。

rubyw·2025-02-06 20:41

T1:实现mnist手写数字识别

>-**本文为[365天深度学习训练营](https://mp.weixin.qq.com/s/0dvHCaOoFnW8SCp3JpzKxg)中的学习记录博客**>-**原作者：[K同学啊](https

哈维羊·2025-02-06 19:33

LLM知识蒸馏代码讲解及训练实验

LLM知识蒸馏代码讲解及训练实验知识蒸馏简单讲即使用大规模参数的模型对小规模参数模型进行蒸馏，且不是简单的只使用答案，是需要两个模型的logprob进行交互的，故两个模型的vocabsize必须是一样的

淡水，·2025-02-06 18:33

深度学习学习笔记 --- 动量momentum

一、动量momentum的由来训练网络时，通常先对网络的初始值按照某种分布进行初始化，如：高斯分布。

杨鑫newlfe·2025-02-06 18:01

DeepSeek与OpenAI：谁是AI领域的更优选择？

一、成本与性价比1.训练成本DeepSeek在训练成本上的优势极为显著。其开发团队通过创

gs80140·2025-02-06 18:28

TensorFlow、把数字标签转化成onehot标签

在MNIST手写字数据集中，我们导入的数据和标签都是预先处理好的，但是在实际的训练中，数据和标签往往需要自己进行处理。以手写数字识别为例，我们需要将0-9共十个数字标签转化成onehot标签。

dg989385783·2025-02-06 18:58

【大模型LLM面试合集】训练数据_数据格式

对于大语言模型的训练中，SFT（SupervisedFine-Tuning）的数据集格式可以采用以下方式：输入数据：输入数据是一个文本序列，通常是一个句子或者一个段落。

X.AI666·2025-02-06 18:28

大型推理模型（LRM）的比较 OpenAI DeepSeek R1 Gemini 2.0

分钟发布时间：2025-02-06近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】1.架构与训练技术

·2025-02-06 17:20

构建安全可靠的LLM应用架构

接下来，我们将详细解析数据处理模块、模型训练模块、应用部署模块和安全防护模块的设计与实现策略。本文将使用Mermaid流程图和Pyth

AI天才研究院·2025-02-06 16:15

从零开始构建一个大语言模型-第五章第五节

第五章目录5.1评估生成文本模型5.2训练一个LLM5.3控制随机性的解码策略5.4在PyTorch中加载和保存模型权重5.5从OpenAI加载预训练权重5.5从OpenAI加载预训练权重此前，我们使用一个由一本短篇小说集组成的有限数据集训练了一个小型

释迦呼呼·2025-02-06 15:41

弹性文件服务（SFS）的使用场景

华为云弹性文件服务（ScalableFileService，简称SFS）是一种高性能、高可用、弹性伸缩的文件存储服务，广泛应用于多种场景，包括高性能计算、媒体处理、企业办公、AI训练等。

九河云·2025-02-06 14:02

Seed Edge- AGI（人工智能通用智能）长期研究计划

目标与定位核心目标是做比预训练和大模型迭代更长期、更基础的AGI前沿研究，为AI研究者提供更自由的探索空间和资源支持，探索AGI的新方法，推动通用智能的边界。支持措

自不量力的A同学·2025-02-06 13:29

DeepSeek-R1真算得上开源吗？

OpenAIo1模型证明，当LLM在推理时，通过增加计算量进行类似训练后，它们在数学、编程和逻辑等推理任务上的表现显著提升。然而，OpenAI推理模型的训练方法一直是秘密。

·2025-02-06 13:37

基于YOLOv11的目标检测系统

在之前YOLO版本令人印象深刻的进步基础上，YOLO11在架构和训练方法上进行了重大改进，使其成为广泛的计算机视觉任务的多功能选择。

夜思、晨·2025-02-06 12:21

使用Python和TensorFlow/Keras构建一个简单的CNN模型来识别手写数字

一个简单的图像识别项目代码示例，使用Python和TensorFlow/Keras库来训练一个基本的CNN模型，用于识别MNIST手写数字数据集，并将测试结果输出到HTML。

mosquito_lover1·2025-02-06 12:48

【保姆级教程】YOLOv8_Seg实例分割：训练自己的数据集

一、YOLOV8环境准备1.1下载安装最新的YOLOv8代码仓库地址：https://github.com/ultralytics/ultralytics1.2配置环境pipinstall-rrequirements.txt-ihttps://pypi

BILLY BILLY·2025-02-06 12:47

Python模型上线pmml以及自定义函数转换（1）

1、常规转换-模型训练好之后立即转换importjoblibfromsklearn2pmmlimportPMMLPipeline,sklearn2pmml#保存模型python可读入defdump(clf

jin_tmac·2025-02-06 12:46

yolov5 实例分割：从原理、构建数据集到训练部署

yolov5实例分割：从原理、构建数据集到训练部署1.模型介绍1.1YOLOv5结构1.2YOLOv5推理时间2.构建数据集2.1使用labelme标注数据集2.2生成coco格式label2.3coco

外卖猿·2025-02-06 12:15

深度学习No module named ‘torchvision.transforms.functional_tensor‘问题解决

问题在进行深度学习训练过程中出现ModuleNotFoundError:Nomodulenamed'torchvision.transforms.functional_tensor'报错，多方查阅资料后得到了解决方案

winrisef·2025-02-06 11:44

【单层神经网络】基于MXNet的线性回归实现（底层实现）

写在前面刚开始先从普通的寻优算法开始，熟悉一下学习训练过程下面将使用梯度下降法寻优，但这大概只能是局部最优，它并不是一个十分优秀的寻优算法整体流程生成训练数据集（实际工程中，需要从实际对象身上采集数据）

辰尘_星启·2025-02-06 11:43

在 Python 中生成一个简单的类 GPT 软件?

本文将详细介绍实现这一目标的具体步骤，涵盖环境搭建、数据准备、模型选择、训练与推理等多个方面。二、环境搭建2.1安装Python首先要确保系统中安装了Python。建议使用Python3.7及以上版本

一只小灿灿·2025-02-06 10:37

遗传算法与深度学习实战（33）——WGAN详解与实现

遗传算法与深度学习实战（33）——WGAN详解与实现0.前言1.训练生成对抗网络的挑战2.GAN优化问题2.1梯度消失2.2模式崩溃2.3无法收敛3WassersteinGAN3.1Wasserstein

盼小辉丶·2025-02-06 09:29

国家超算平台上线DeepSeek - R1系列模型：开启AI新征程

它用了强化学习训练，推理的时候会反复思考验证，思维链能有好几万字长。在数学、代码编写和复杂逻辑推理这些方面，表现相当厉害

CodeJourney.·2025-02-06 08:25

大模型的底层逻辑及Transformer架构

一、大模型的底层逻辑1.数据驱动大模型依赖海量的数据进行训练，数据的质量和数量直接影响模型的性能。通过大量的数据，模型能够学习到丰富的模式和规律，从而更好地处理各种任务。

搏博·2025-02-06 02:04

【深度学习】权重衰减

熙曦Sakura·2025-02-06 02:33

java调用ONNX模型

一、导出一个onnx模型这里训练了一个简单的线性回归模型通过SerializeToString完成导出。

jason.zeng@1502207·2025-02-06 01:30

AIGC从入门到实战：基于大模型的人工智能应用的涌现和爆发

1.2大模型：AIGC的基石AIGC的核心驱动力在于大规模预训练模型（简称“大模型”）。这些模型拥

AI天才研究院·2025-02-06 01:00

大规模语言模型从理论到实践 DeepSpeed实践

大规模语言模型从理论到实践DeepSpeed实践文章目录大规模语言模型从理论到实践DeepSpeed实践1.背景介绍1.1大规模语言模型的兴起1.2训练和部署LLM的挑战1.3DeepSpeed：赋能LLM

AI天才研究院·2025-02-06 01:59

【Mamba之模型训练系列（四）】将 mamba 扩展到多模态大型语言模型，实现高效推理

将mamba扩展到多模态大型语言模型，实现高效推理背景知识与研究动机Cobra模型设计视觉编码器DINOv2SigLIP投影器Mamba语言模型主干训练策略训练数据训练阶段预训练阶段多模态指令调整阶段微调策略训练细节训练策略的关键结论实验验证实验设置性能比较推理速度消融研究关键结论参考文献这篇文章介绍了一个名为

愷创作者·2025-02-06 00:45

一、TensorFlow的建模流程

划分数据集：训练集、验证集、测试集。转换为Dataset对象：利用tf.data优化数据流水线。

李建军·2025-02-05 23:10

【专题】DeepSeek技术颠覆or创新共赢，开启Al算法变革元年报告汇总PDF洞察（附原数据表）

海量数据不仅为模型训练提供了坚实基础，更驱动着AIAgent在各领域的创新应用。与此同时，国产大模型在近期密集涌现，数量已颇具规模且广泛渗透到多个垂直行业，展现出强

·2025-02-05 22:18

Python-机器学习（二）-K近邻算法的原理与鸢尾花数据集实现详解

fromsklearn.neighborsimportKNeighborsClassifierk=5#对模型训练clf=KNeighborsClassifier(n_neighbors=k)clf.fit

2401_84009679·2025-02-05 22:00

什么是大模型框架？常用的大模型框架盘点对比

什么是大模型框架大模型框架是指用于训练、推理和部署大型语言模型（LLMs）的软件工具和库。

AI产品经理·2025-02-05 21:25

推荐频道

天梯赛训练