训练深度学习第14页

大语言模型：从开发到运行的深度解构

一、LLM开发训练的全流程解析1.数据工程的炼金术数据采集：构建涵盖网页文本（CommonCrawl）、书籍、论文、代码等领域的超大规模语料库，典型规模可达数十TB。

nbsaas-boot·2025-02-23 15:38

深度学习革命背后：DBN、AlexNet、GAN 等神级架构，究竟藏着怎样的 AI 崛起密码？（附deepseek）

深度学习革命**3.深度学习革命（2006年至今）****2006年：深度学习奠基——深度信念网络（DBN）****2012年：AlexNet崛起****2014年：架构创新潮****生成对抗网络（GAN

universe_code·2025-02-23 15:35

GPT和BERT的异同

BidirectionalEncoderRepresentationsfromTransformers）都是基于Transformer架构的语言模型，但它们的设计理念、使用的Transformer部分、训练方式

彬彬侠·2025-02-23 15:04

探秘 DeepSeek-V3：低成本训练铸就的 AI 大模型传奇

在人工智能大模型的激烈竞争赛道上，DeepSeek-V3宛如一匹黑马，凭借其卓越的性能和令人惊叹的低训练成本，迅速吸引了全球AI领域的目光。

道亦无名·2025-02-23 15:34

整理：4篇论文知识蒸馏引领高效模型新时代

传统的深度学习模型往往依赖于复杂的大型网络，以获取卓越的性能。然而，这些庞大的模型对计算资源和存储空间的需求，使得它们在实际应用中，尤其是在边缘设备或移动端部署中面临巨大挑战。

mslion·2025-02-23 14:31

LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

关键词长度泛化位置编码数据格式核心结论1.实验结论：十进制加法任务上的长度泛化最佳组合：FIRE位置编码随机化位置编码反向数据格式索引提示（indexhints，辅助定位）2.在适当的配置下，Transformer模型可以泛化到训练序列长度的

Zhouqi_Hua·2025-02-23 14:30

基于Roboflow平台的数据集导出与YOLOv8目标检测训练实战

专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录基于Roboflow平台的数据集导出与YOLOv8目标检测训练实战1.什么是Roboflow

步入烟尘·2025-02-23 12:49

代码随想录训练营第二十三天| 39. 组合总和 40.组合总和II 131.分割回文串

39.组合总和题目链接/文章讲解：代码随想录视频讲解：带你学透回溯算法-组合总和（对应「leetcode」力扣题目：39.组合总和）|回溯法精讲！_哔哩哔哩_bilibili//组合问题要考虑是不是在一个集合里操作//最常见的就是递归回溯法//再考虑考虑剪枝classSolution{publicList>combinationSum(int[]candidates,inttarget){List

chengooooooo·2025-02-23 12:17

DeepSeek引爆递归开发大爆炸！

DeepSeekR1的发布意味着AI的普及是必然的，因为它让人们能轻松创建新的推理数据集，并用这些数据训练强大的AI模型。

极道Jdon·2025-02-23 12:47

人工智能训练师如何做图像数据标注，从情感分析和实体分析两个个场景分析

在人工智能训练中，图像情感分析和图像实体分析是两个重要的应用场景。高质量的图像数据标注对于训练情感识别模型和目标检测/语义分割模型至关重要。

小宝哥Code·2025-02-23 12:47

人工智能：从基础到前沿

2.2人工智能的历史2.3人工智能的分类3.机器学习3.1机器学习概述3.2监督学习3.3无监督学习3.4强化学习4.深度学习4.1深度学习概述4.2神经网络基础4.3卷积神经网络（CNN）4.4循环神经网络

顾漂亮·2025-02-23 12:15

TensorFlow 2 来训练一个线性回归模型

本节将通过一个简单的示例，带领大家了解如何使用TensorFlow2来训练一个线性回归模型。这个例子将帮助大家掌握如何从数据处理、模型构建、训练到评估等步骤，逐步实现一个基础的机器学习任务。

大数据张老师·2025-02-23 11:42

深度学习框架与边缘计算融合驱动医疗金融模型优化新路径

内容概要随着边缘计算与深度学习框架的深度融合，医疗与金融领域的模型优化正在突破传统算力与隐私保护的瓶颈。

智能计算研究中心·2025-02-23 11:10

边缘计算与联邦学习驱动医疗金融预测及模型可解释性技术突破

通过将计算资源下沉至终端设备，边缘计算有效缓解了传统中心化架构的延迟与带宽压力，而联邦学习则在保障数据隐私的前提下，实现了跨机构模型的分布式训练。

智能计算研究中心·2025-02-23 11:10

人工智能学习框架

人工智能学习框架概述随着人工智能技术的飞速发展，选择合适的机器学习或深度学习框架对于项目的成功至关重要。这些框架提供了强大的工具和库，使得开发者能够更高效地构建、训练和部署模型。

静默.\\·2025-02-23 10:36

NVIDIA A100 SXM4与NVIDIA A100 PCIe版本区别深度对比：架构、性能与场景解析

NVIDIAA100SXM4与PCIe版本深度对比：架构、性能与场景解析作为NVIDIAAmpere架构的旗舰级数据中心GPU，A100系列凭借强大的计算能力和显存带宽，已成为人工智能训练、高性能计算（

ASI人工智能·2025-02-23 09:55

从环境搭建到数据训练全流程实战

DeepSeek作为国产优秀大模型，支持本地化部署和私有数据训练，可完美解决：数据不出内网：医疗/金融等敏感行业刚需垂直领域定制：用自有数据打造专属AI助手算力自由掌控：灵活调配GPU资源，成本可控本文将带你从零完成

菜鸟养成_记·2025-02-23 08:16

如何将DeepSeek集成到自己的项目中：从入门到精通

引言DeepSeek作为一款强大的深度学习平台，正在为开发者提供高效、灵活的AI解决方案。无论你是想构建一个图像分类系统，还是开发一个自然语言处理应用，DeepSeek都能帮助你快速实现目标。

木觞清·2025-02-23 08:43

想象一个AI保姆机器人使用场景分析

其所有输出均由训练数据与程序逻辑驱

风口猪炒股指标·2025-02-23 07:41

使用 ChatGPT 构建 YouTube 下载器的分步指南

只需按照本教程中的步骤操作......ChatGPT是OpenAI训练的大型语言模型，可以根据自然语言输入生成代码。

pxr007·2025-02-23 07:37

机器学习和深度学习有什么区别？

深度学习和机器学习有什么区别？深度学习是机器学习一个分支，机器学习包含深度学习。

facaixxx2024·2025-02-23 05:54

AI趋势下，软件测试工程师怎么拥抱AI

以下是我的一些思考：一、掌握AI基础知识软件测试工程师需要学习机器学习、深度学习、自然语言处理等领域的基本原理和算法。

悠然的笔记本·2025-02-23 05:24

深度学习之图像回归（二）

（一）主要是帮助迅速入门理清一个深度学习项目的逻辑这篇文章则主要注重在此基础上对于数据预处理和模型训练进行优化前者会通过涉及PCA主成分分析特征选择后者通过正则化数据预处理数据预处理的原因思路链未经过处理的原始数据存在一些问题

zhengyawen666·2025-02-23 05:52

VGG 改进：加入GAMAttention注意力机制提升对全局信息捕捉能力

：融入模块后的网络经过测试，可以直接使用，设置好输入和输出的图片维度即可1.GAMAttention注意力机制GAMAttention（GlobalAttentionMechanism）是一种用于增强深度学习模型对全局信息捕捉能力的注意力机制

听风吹等浪起·2025-02-23 02:36

文献阅读(part2)--Towards K-means-friendly spaces Simultaneous deep learning and clustering

AbstractIntroductionBackgroundandRelatedWorksProposedFormulationOptimizationProcedureInitializationviaLayer-wisePre-Training(通过分层预训练进行初始化

GUI Research Group·2025-02-23 02:33

DeepSeek核心技术 MoE（混合专家模型）

在DeepSeek-V2的基础上，采用MLA（多头潜在注意力）和DeepSeekMoE进行高效的推理和经济的训练。

baiyi666_888·2025-02-23 01:22

【深度学习】矩阵的理解与应用

一、矩阵基础知识1.什么是矩阵？矩阵是一个数学概念，通常表示为一个二维数组，它由行和列组成，用于存储数值数据。矩阵是线性代数的基本工具之一，广泛应用于数学、物理学、工程学、计算机科学、机器学习和数据分析等领域。1.1矩阵的表示一个矩阵通常用大写字母来表示，例如AAA，而矩阵中的元素则用小写字母来表示，例如aija_{ij}aij，其中iii表示行索引，jjj表示列索引。本质：矩阵是二维的张量矩阵的

大数据追光猿·2025-02-23 00:47

Python中常见库 PyTorch和Pydantic 讲解

PyTorch简介PyTorch是一个开源的深度学习框架，由Facebook的AI研究团队开发。

爱丫爱·2025-02-22 23:40

计算机视觉CV学习路线

计算机视觉CV学习路线1.基础准备（可参考mooc学习）2.计算机视觉基础知识（可参考mooc学习、计算机图形学）3.经典计算机视觉算法（可参考吴恩达机器学习课程、国内外计算机图形学课程）4.深度学习基础

我喝AD钙·2025-02-22 23:08

【深度学习基础模型】去噪自编码器 (Denoising Autoencoders, DAE)详细理解并附实现代码。

【深度学习基础模型】ExtractingandComposingRobustFeatureswithDenoisingAutoencoders【深度学习基础模型】ExtractingandComposingRobustFeatureswithDenoisingAutoencoders

985小水博一枚呀·2025-02-22 22:00

深入探索Mozilla的DeepSpeech：语音识别的新里程碑

深入探索Mozilla的DeepSpeech：语音识别的新里程碑项目地址:https://gitcode.com/gh_mirrors/de/DeepSpeech项目简介是一个开源的语音识别引擎，基于深度学习技术

温宝沫Morgan·2025-02-22 18:28

麦萌《至尊红颜归来》技术架构拆解：从复仇算法到分布式攻防的终极博弈

对抗性训练框架：修罗门诱捕圈套可建模为GAN（生

短剧萌·2025-02-22 18:56

【深度学习】Adam优化器

和二阶矩估计（uncenteredvariance）的偏差1.2.4更新模型参数1.3Adam的简单理解2Adam优化算法怎么用2.1导入所需的库和模块2.2定义模型和损失函数2.3定义优化器2.4在训练循

九筠·2025-02-22 18:54

word2vec之skip-gram算法原理

其他所有单词的概率（softmax输出也是11000）target是相近单词的one-hot形式2.Losstarget和output的矩阵的交叉熵最小or平方差最小3.NNet3.1隐层300个神经元,需要训练的权重矩阵大小是

cuixuange·2025-02-22 18:52

手写数字识别 neuralnet_mnist.py 代码解读来自GPT

通过加载训练好的模型（sample_weight.pkl），它对MNIST测试集进行预测，并计算模型的准确率。接下来，我会逐步解析这段代码的主要部分。

阿崽meitoufa·2025-02-22 17:19

C++：使用 SFML 创建强化学习迷宫场景

通过设计合适的环境，我们可以训练模型让其通过迷宫找到最优路径。本文将介绍如何使用C++和SFML库来创建一个迷宫场景，并为强化学习模型提供一个可视化的平台。

煤炭里de黑猫·2025-02-22 16:10

Python：实现 PyTorch 中训练自定义卷积神经网络模型(CNN)并导出模型为 ONNX 格式，同时使用 ONNX Runtime 进行推理

本文将介绍如何使用PyTorch训练一个简单的卷积神经网络（CNN）模型，并将训练好的模型导出为ONNX格式，之后使用ONNXRuntime在Python中加载并进行推理。

煤炭里de黑猫·2025-02-22 16:40

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

LLaVACoT：让视觉语言模型逐步推理摘要1引言2相关工作3提出的方法4后训练性能5推理时间缩放6最新VLMs的比较7结论摘要大型语言模型在推理能力方面取得了长足的进步，特别是通过推理时间缩放，如OpenAI

UnknownBody·2025-02-22 16:08

Python机器学习库之scikit-llm使用详解

概要Pythonscikit-llm库是一个用于机器学习的强大工具，它基于scikit-learn库并扩展了一些机器学习算法和功能，可以帮助开发者更轻松地进行机器学习模型的训练和评估。

Rocky006·2025-02-22 15:06

用 Python + LLM 实现一个智能对话

这些模型被训练来理解和生成自然语言文本，能够执行多种自然语言处理（NLP）任务，如文本生成、翻译、摘要、问答等。所以LLM可以做以下事情：文本生成：LLM可以生成各种类型的文本，如新闻、文章、小说等。

AGI大模型学习·2025-02-22 15:04

十月学习笔记

知识点什么是预训练模型预训练模型是一个通过大量数据上进行训练并被保存下来的网络。

木子不多余·2025-02-22 15:28

大语言模型基础

简介AI大模型是“人工智能预训练大模型”的简称，包含了“预训练”和“大模型”两层含义，二者结合产生了一种新的人工智能模式，即模型在大规模数据集上完成了预训练后无需微调，或仅需要少量数据的微调，就能直接支撑各类应用

MatrixSparse·2025-02-22 15:27

AI训练师团队管理运营思路

本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。

姚瑞南·2025-02-22 13:19

AIGC训练效率与模型优化的深入探讨

文章目录1.AIGC概述2.AIGC模型训练效率的重要性3.模型优化的概念与目标4.模型优化策略4.1学习率调节4.2模型架构选择4.3数据预处理与增强4.4正则化技术4.5量化与剪枝5.代码示例6.结论人工智能领域的发展

DARLING Zero two♡·2025-02-22 13:18

计算机视觉与深度学习实战：以Python为工具，基于帧间差法进行视频目标检测

一、引言随着科技的飞速发展，计算机视觉和深度学习已成为当今科技领域的热门话题。它们不仅在科研领域取得了显著的成果，而且在安防监控、智能交通、医疗影像分析、工业自动化等领域得到了广泛的应用。

好知识传播者·2025-02-22 13:16

RepVGGBlock实现

这种方法可以在训练时使用复杂的多分支结构，在推理时将其简化为单一的卷积层，从而显著提高

武乐乐~·2025-02-22 13:45

基于深度学习的入侵检测系统设计与实现

基于深度学习的入侵检测系统设计与实现关键词：深度学习、入侵检测、网络安全、机器学习、神经网络、特征提取、实时分析文章目录基于深度学习的入侵检测系统设计与实现1.背景介绍1.1网络安全的重要性1.2传统入侵检测系统的局限性

AI天才研究院·2025-02-22 13:44

大模型微调

以下是在本地部署使用LLaMA-Factory导出的LoRA模型，并通过Ollama运行的步骤指南：1.准备工作已训练好的LoRA模型:确保通过LLaMA-Factory导出了LoRA适配器文件（通常是

猴的哥儿·2025-02-22 12:42

【Llama3:8b】手把手教你如何在本地部署自己的 LLM大模型

训练垂直定制化的大模型需要大量数据，而数据是公司的核心资产和基石。没有公司愿意将这些关键数据上传到外部服务器，这是公司的命脉所在。本地部

AI大模型..·2025-02-22 12:40

【大模型应用开发动手做AI Agent】大模型就是Agent的大脑

大模型应用开发动手做AIAgent】大模型就是Agent的大脑关键词：大模型,AIAgent,智能决策,任务导向,知识表示,交互式学习,混合智能1.背景介绍1.1问题由来随着人工智能(AI)技术的发展，尤其是深度学习和自然语言处理

杭州大厂Java程序媛·2025-02-22 12:39

推荐频道

训练深度学习