暑期训练第21页

LLaMA-Factory|微调大语言模型初探索(3)，qlora微调deepseek记录

QLoRA通过反量化到BF16进行训练，在保持计算精度的同时，进一步节省显存和提高效率。QLoRA在加载、训练、以及权重

闻道且行之·2025-02-24 01:49

手撸 chatgpt 大模型:单词向量化编码和绝对位置编码算法

最初，向量中的各个字段会被初始化为随机数，然后通过大量的数据和深度学习模型来训练这些向量。训练过程逐步改变向量字段的值，从而使这些字段包含某种“知识”。

coding 迪斯尼·2025-02-24 00:11

TikTok运营的思路和思维

TIKTOKHEZI·2025-02-23 23:37

立体匹配常用数据集整理

文章目录前言一、常用数据集1.SceneFlow数据集2.KITTI数据集3.Middlebury数据集二、关于自己构建数据集训练的一些问题前言本文主要对立体匹配算法常用的公开数据集进行整理，包括数据集的简要介绍和下载链接

Scurry﹉·2025-02-23 21:18

目前（2025年2月）计算机视觉（CV）领域一些表现优异的深度学习模型

PaLI：这是一个多模态模型，结合了40亿参数的视觉Transformer（ViT）和多种大型语言模型（LLM），并在包含100多种语言的100亿图像和文本数据集上进行训练。PaLI在图像描述、视

空空转念·2025-02-23 20:18

当你给大模型一段输入之后，它是怎么得到答案的

2.动用毕生所学（模型“回想”知识）大模型并不是真有一个“数据库”，而是依靠训练时海量的知识联结：（类似人类的经验积累）内在规律：从上学过的教材、论文、百科中记住过“地球自转导致太阳视运动”这个常识。

牛不才·2025-02-23 19:37

图像处理：模拟色差的生成

但在实际生产环境中，瓷砖色差检测的数据量较少，无法直接获取足够的数据来训练和优化深度学习模型。于是就考虑通过人为生成色差数据的方式来扩充数据集，进行色差的模拟。1.什么是色差？

何以为皇·2025-02-23 18:33

大学生创新训练项目经验分享

前几天有同学问我能不能写一个科研竞赛什么的经验贴，给新生们分享一下，正好最近事情不是很多，所以打算写一个关于大创申报的帖子，供有需要的同学参考。本人计算机学院22级的学生，大二下学期的时候申报的大创项目，然后顺利拿到了2024年大创国家级重点立项，（PS：学校共立项481项，其中仅2个国家级重点项目。一、回顾本人的准备过程（仅供参考）大一下学期的时候，了解到有大创这个平台，也希望自己本科阶段，能够

菜就多练@Jade·2025-02-23 18:32

如何在 Hugging Face 上下载和使用模型—全面指南

无论你是从事学术研究还是在工业中应用NLP技术，HuggingFace都为你提供了丰富的预训练模型和工具库，这些资源大大加速了NLP任务的开发和部署。

Hello.Reader·2025-02-23 18:01

谁掌握了体育数据的密码就是胜利者

这种转变不仅改变了球队的训练和比赛策略，更深刻地影响着体育产业的发展方向。一、数据采集：竞技体育的数字化基础现代体育数据的采集已经形成了完整的生态系统。在NBA赛场上，每块场地安装的6个追踪摄

翱翔的猪脑花·2025-02-23 17:54

AI如何预测比赛结果：体育预测技术全解析

一、系统架构设计1.整体架构数据采集层数据处理层模型训练层预测服务层应用展示层2.技术选型Python3.8+TensorFlow/PyTorchScikit-learnPandas/NumpyFlask

翱翔的猪脑花·2025-02-23 17:54

Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测

本系统基于大数据设计并实现成都地铁客流量分析系统，使用网络爬虫爬取并收集成都地铁客流量数据，运用机器学习和时间序列分析等方法，对客流量数据进行预处理和特征选择，构建客流量预测模型，利用历史数据对模型进行训练和优化

qq_79856539·2025-02-23 16:16

大语言模型训练数据集格式

1.SFT（有监督微调）的数据集格式对于大语言模型的训练中，SFT（SupervisedFine-Tuning）的数据集格式可以采用以下方式：输入数据：输入数据是一个文本序列，通常是一个句子或者一个段落

香菜烤面包·2025-02-23 16:13

大模型训练 && 微调数据格式

对于大语言模型的训练中，SFT（SupervisedFine-Tuning）的数据集格式可以采用以下方式：输入数据：输入数据是一个文本序列，通常是一个句子或者一个段落。

comli_cn·2025-02-23 16:43

通俗理解Test time Scaling Law、RL Scaling Law和预训练Scaling Law

一、ScalingLaw解释1、预训练阶段的ScalingLaw（打地基阶段）通俗解释：就像建房子时，地基越大、材料越多、施工时间越长，房子就能盖得越高越稳。

老A的AI实验室·2025-02-23 16:12

Python基础训练100题（带答案）

文末有彩蛋！！！Python3100例实例001：数字组合题目有四个数字：1、2、3、4，能组成多少个互不相同且无重复数字的三位数？各是多少？程序分析遍历全部可能，把有重复的剃掉。total=0foriinrange(1,5):forjinrange(1,5):forkinrange(1,5):if((i!=j)and(j!=k)and(k!=i)):print(i,j,k)total+=1pri

乔代码嘚·2025-02-23 16:12

大语言模型：从开发到运行的深度解构

一、LLM开发训练的全流程解析1.数据工程的炼金术数据采集：构建涵盖网页文本（CommonCrawl）、书籍、论文、代码等领域的超大规模语料库，典型规模可达数十TB。

nbsaas-boot·2025-02-23 15:38

GPT和BERT的异同

BidirectionalEncoderRepresentationsfromTransformers）都是基于Transformer架构的语言模型，但它们的设计理念、使用的Transformer部分、训练方式

彬彬侠·2025-02-23 15:04

探秘 DeepSeek-V3：低成本训练铸就的 AI 大模型传奇

在人工智能大模型的激烈竞争赛道上，DeepSeek-V3宛如一匹黑马，凭借其卓越的性能和令人惊叹的低训练成本，迅速吸引了全球AI领域的目光。

道亦无名·2025-02-23 15:34

LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

关键词长度泛化位置编码数据格式核心结论1.实验结论：十进制加法任务上的长度泛化最佳组合：FIRE位置编码随机化位置编码反向数据格式索引提示（indexhints，辅助定位）2.在适当的配置下，Transformer模型可以泛化到训练序列长度的

Zhouqi_Hua·2025-02-23 14:30

基于Roboflow平台的数据集导出与YOLOv8目标检测训练实战

专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录基于Roboflow平台的数据集导出与YOLOv8目标检测训练实战1.什么是Roboflow

步入烟尘·2025-02-23 12:49

代码随想录训练营第二十三天| 39. 组合总和 40.组合总和II 131.分割回文串

39.组合总和题目链接/文章讲解：代码随想录视频讲解：带你学透回溯算法-组合总和（对应「leetcode」力扣题目：39.组合总和）|回溯法精讲！_哔哩哔哩_bilibili//组合问题要考虑是不是在一个集合里操作//最常见的就是递归回溯法//再考虑考虑剪枝classSolution{publicList>combinationSum(int[]candidates,inttarget){List

chengooooooo·2025-02-23 12:17

DeepSeek引爆递归开发大爆炸！

DeepSeekR1的发布意味着AI的普及是必然的，因为它让人们能轻松创建新的推理数据集，并用这些数据训练强大的AI模型。

极道Jdon·2025-02-23 12:47

人工智能训练师如何做图像数据标注，从情感分析和实体分析两个个场景分析

在人工智能训练中，图像情感分析和图像实体分析是两个重要的应用场景。高质量的图像数据标注对于训练情感识别模型和目标检测/语义分割模型至关重要。

小宝哥Code·2025-02-23 12:47

TensorFlow 2 来训练一个线性回归模型

本节将通过一个简单的示例，带领大家了解如何使用TensorFlow2来训练一个线性回归模型。这个例子将帮助大家掌握如何从数据处理、模型构建、训练到评估等步骤，逐步实现一个基础的机器学习任务。

大数据张老师·2025-02-23 11:42

深度学习框架与边缘计算融合驱动医疗金融模型优化新路径

当前，TensorFlow、PyTorch等主流框架通过轻量化改造（如TensorFlowLite与PyTorchMobile）逐步适应边缘设备的资源限制，同时结合联邦学习技术构建分布式训练网络。

智能计算研究中心·2025-02-23 11:10

边缘计算与联邦学习驱动医疗金融预测及模型可解释性技术突破

通过将计算资源下沉至终端设备，边缘计算有效缓解了传统中心化架构的延迟与带宽压力，而联邦学习则在保障数据隐私的前提下，实现了跨机构模型的分布式训练。

智能计算研究中心·2025-02-23 11:10

人工智能学习框架

这些框架提供了强大的工具和库，使得开发者能够更高效地构建、训练和部署模型。目前市面上有许多流行的AI学习框架，每种框架都有其独特的特点和适用场景。

静默.\\·2025-02-23 10:36

NVIDIA A100 SXM4与NVIDIA A100 PCIe版本区别深度对比：架构、性能与场景解析

NVIDIAA100SXM4与PCIe版本深度对比：架构、性能与场景解析作为NVIDIAAmpere架构的旗舰级数据中心GPU，A100系列凭借强大的计算能力和显存带宽，已成为人工智能训练、高性能计算（

ASI人工智能·2025-02-23 09:55

从环境搭建到数据训练全流程实战

DeepSeek作为国产优秀大模型，支持本地化部署和私有数据训练，可完美解决：数据不出内网：医疗/金融等敏感行业刚需垂直领域定制：用自有数据打造专属AI助手算力自由掌控：灵活调配GPU资源，成本可控本文将带你从零完成

菜鸟养成_记·2025-02-23 08:16

想象一个AI保姆机器人使用场景分析

其所有输出均由训练数据与程序逻辑驱

风口猪炒股指标·2025-02-23 07:41

使用 ChatGPT 构建 YouTube 下载器的分步指南

只需按照本教程中的步骤操作......ChatGPT是OpenAI训练的大型语言模型，可以根据自然语言输入生成代码。

pxr007·2025-02-23 07:37

深度学习之图像回归（二）

（一）主要是帮助迅速入门理清一个深度学习项目的逻辑这篇文章则主要注重在此基础上对于数据预处理和模型训练进行优化前者会通过涉及PCA主成分分析特征选择后者通过正则化数据预处理数据预处理的原因思路链未经过处理的原始数据存在一些问题

zhengyawen666·2025-02-23 05:52

文献阅读(part2)--Towards K-means-friendly spaces Simultaneous deep learning and clustering

AbstractIntroductionBackgroundandRelatedWorksProposedFormulationOptimizationProcedureInitializationviaLayer-wisePre-Training(通过分层预训练进行初始化

GUI Research Group·2025-02-23 02:33

DeepSeek核心技术 MoE（混合专家模型）

在DeepSeek-V2的基础上，采用MLA（多头潜在注意力）和DeepSeekMoE进行高效的推理和经济的训练。

baiyi666_888·2025-02-23 01:22

Python中常见库 PyTorch和Pydantic 讲解

它提供了丰富的工具和库，用于构建和训练各种深度学习模型，如卷积神经网络（CNN）、循环神经网络（RNN）及其变体（如LSTM、GRU）、生成对抗网络（GAN）等。

爱丫爱·2025-02-22 23:40

麦萌《至尊红颜归来》技术架构拆解：从复仇算法到分布式攻防的终极博弈

对抗性训练框架：修罗门诱捕圈套可建模为GAN（生

短剧萌·2025-02-22 18:56

【深度学习】Adam优化器

和二阶矩估计（uncenteredvariance）的偏差1.2.4更新模型参数1.3Adam的简单理解2Adam优化算法怎么用2.1导入所需的库和模块2.2定义模型和损失函数2.3定义优化器2.4在训练循

九筠·2025-02-22 18:54

word2vec之skip-gram算法原理

其他所有单词的概率（softmax输出也是11000）target是相近单词的one-hot形式2.Losstarget和output的矩阵的交叉熵最小or平方差最小3.NNet3.1隐层300个神经元,需要训练的权重矩阵大小是

cuixuange·2025-02-22 18:52

手写数字识别 neuralnet_mnist.py 代码解读来自GPT

通过加载训练好的模型（sample_weight.pkl），它对MNIST测试集进行预测，并计算模型的准确率。接下来，我会逐步解析这段代码的主要部分。

阿崽meitoufa·2025-02-22 17:19

C++：使用 SFML 创建强化学习迷宫场景

通过设计合适的环境，我们可以训练模型让其通过迷宫找到最优路径。本文将介绍如何使用C++和SFML库来创建一个迷宫场景，并为强化学习模型提供一个可视化的平台。

煤炭里de黑猫·2025-02-22 16:10

Python：实现 PyTorch 中训练自定义卷积神经网络模型(CNN)并导出模型为 ONNX 格式，同时使用 ONNX Runtime 进行推理

本文将介绍如何使用PyTorch训练一个简单的卷积神经网络（CNN）模型，并将训练好的模型导出为ONNX格式，之后使用ONNXRuntime在Python中加载并进行推理。

煤炭里de黑猫·2025-02-22 16:40

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

LLaVACoT：让视觉语言模型逐步推理摘要1引言2相关工作3提出的方法4后训练性能5推理时间缩放6最新VLMs的比较7结论摘要大型语言模型在推理能力方面取得了长足的进步，特别是通过推理时间缩放，如OpenAI

UnknownBody·2025-02-22 16:08

Python机器学习库之scikit-llm使用详解

概要Pythonscikit-llm库是一个用于机器学习的强大工具，它基于scikit-learn库并扩展了一些机器学习算法和功能，可以帮助开发者更轻松地进行机器学习模型的训练和评估。

Rocky006·2025-02-22 15:06

用 Python + LLM 实现一个智能对话

这些模型被训练来理解和生成自然语言文本，能够执行多种自然语言处理（NLP）任务，如文本生成、翻译、摘要、问答等。所以LLM可以做以下事情：文本生成：LLM可以生成各种类型的文本，如新闻、文章、小说等。

AGI大模型学习·2025-02-22 15:04

十月学习笔记

知识点什么是预训练模型预训练模型是一个通过大量数据上进行训练并被保存下来的网络。

木子不多余·2025-02-22 15:28

大语言模型基础

简介AI大模型是“人工智能预训练大模型”的简称，包含了“预训练”和“大模型”两层含义，二者结合产生了一种新的人工智能模式，即模型在大规模数据集上完成了预训练后无需微调，或仅需要少量数据的微调，就能直接支撑各类应用

MatrixSparse·2025-02-22 15:27

2024年华为OD机试最新题库（D卷200分完整题库）

许愿腾讯offercpp选手，人已经麻了，其他地方全都挂完了，暑期实习的唯一一根救命稻草了，没有这个实习就只能马上准备应届生哪里能领到就业补贴呢就业补贴是分地方吗，北京这边外地人能够领取到应届生就业补贴吗

2301_79125431·2025-02-22 14:53

AI训练师团队管理运营思路

本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。

姚瑞南·2025-02-22 13:19

AIGC训练效率与模型优化的深入探讨

文章目录1.AIGC概述2.AIGC模型训练效率的重要性3.模型优化的概念与目标4.模型优化策略4.1学习率调节4.2模型架构选择4.3数据预处理与增强4.4正则化技术4.5量化与剪枝5.代码示例6.结论人工智能领域的发展

DARLING Zero two♡·2025-02-22 13:18

推荐频道

暑期训练