LLM训练第27页

图像检测分析难题？三维天地引入YOLO目标检测技术带来全新解决方案！

然而,传统的图像处理方法面临着诸多挑战,如庞大的数据量、复杂的特征提取、漫长的模型训练周期以及复杂的公式计算等。这些问题不仅限制了检测的效率,还对结果的准确性产生了负面影响。

资讯分享周·2025-02-21 08:02

LLM 中的 Matryoshka 量化：原理与优势

MatQuant如何改进LLM性能指标MatQuant对模型量化的影响每个比特宽度处理模型权重的特定部分，并且它们的组合输出被聚合以优化整体量化性能。

数据掘金·2025-02-21 07:58

4、使用百度飞浆训练字符验证码

前言：前面我们讲了环境的安装，这一篇就讲一讲如何使用飞浆来训练我们的字符验证码实战讲解：老规矩，有文档我们就先看文档：十分钟完成PP-OCRv3识别全流程实战可以看到第一步就是准备运行环境，由于飞浆的运行环境我们前面已经安装好了

时光亦不回首·2025-02-21 06:25

利用深度学习进行汇率预测：LSTM与Transformer模型的应用实践

第一部分：数据收集与准备1.1数据集介绍1.2数据准备第二部分：使用LSTM模型进行汇率预测2.1数据序列化2.2LSTM模型构建2.3模型训练与评估2.4结果可视化第三部分：使用Transformer

人工智能_SYBH·2025-02-21 06:53

使用shell脚本运行python程序

在训练深度学习模型时，为了解放生产力，避免手动调参等，一般写成shell脚本的形式，执行一次shell就可以把所有的python程序给运行完毕。

GiantGo·2025-02-21 05:15

使用BREEBS平台提升AI知识库

这些Breebs可供任何大语言模型（LLM）或聊天机器人使用，以提升其专业知识，减少幻觉，并提供访问来源的途径。Breebs背后实现了多种增强生成（RAG）模型，以在每次迭代中无缝提供有用的上下文。

dgay_hua·2025-02-21 05:11

使用 AnyscaleEmbeddings 进行文本嵌入

通过预训练模型（如BERT、GPT等），我们可以获得语义丰富

dgay_hua·2025-02-21 03:04

串联型晶体管稳压电源的设计实验《模拟电子技术仿真实验》实验任务及报告书

1.实验要求：(1)根据实验题目，进行系统分析，达到系统综合技能训练；(2)研究单相桥式整流、电容滤波电路的特性；(3)学习串联型晶体管稳压电源的设计方法以及主要技术指标的测试方法；2.实验仪器与元器件

CHG727·2025-02-21 02:30

跨语言语义理解与生成：多语言预训练方法及一致性优化策略

网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO

网罗开发·2025-02-21 02:57

企业级RAG开源项目分享：Quivr、MaxKB、Dify、FastGPT、RagFlow

企业级RAGGitHub开源项目深度分享：Quivr、MaxKB、Dify、FastGPT、RagFlow及私有化LLM部署建议随着生成式AI技术的成熟，检索增强生成（RAG）已成为企业构建智能应用的关键技术

Ainnle·2025-02-21 00:16

FLUX本地Lora训练

前言目前Flux出现了3个训练工具SimpleTunerhttps://github.com/bghira/SimpleTuner，X-LABS的https://github.com/XLabs-AI/

王念博客·2025-02-21 00:15

DeepSpeed Chat大模型训练【训练类ChatGPT 的大模型】

第1章：DeepSpeed-Chat模型训练实战本章内容介绍如何使用微软最新发布的DeepSpeedChat来训练类ChatGPT的大模型。通过本章内容，你将了解：DS-Chat是什么？

u013250861·2025-02-20 23:40

【数据挖掘】ARFF格式与数据收集

【数据挖掘】ARFF格式与数据收集三级目录1.ARFF格式与数据收集2.稀疏数据3.属性类型4.缺失值与不正确的值5.了解数据6.知识表达7.聚类机器学习算法训练数据挖掘分析数据共享与交换三级目录1.ARFF

布鲁惠比寿·2025-02-20 23:04

代理IP服务如何优化AI大模型训练的分布式计算效率

AI大模型训练就像一场接力赛，每个计算节点都是接力选手，而代理IP则是保证选手们“跑得更稳、交接更顺”的隐形教练。在分布式计算中，效率瓶颈往往不是算力本身，而是数据调度与通信协作的隐性损耗。

·2025-02-20 21:33

【核心算法篇十三】《DeepSeek自监督学习：图像补全预训练方案》

根据，自监督学习通过设计巧妙的"预训练任务"（PretextTask），让模型在无标签数据中自动学习图像语义特征。而图像补全正是这类

再见孙悟空_·2025-02-20 21:24

国外7个最佳大语言模型 (LLM) API推荐

大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。

·2025-02-20 21:26

第26篇：pFedLoRA: Model-Heterogeneous Personalized Federated Learning with LoRA使用lora微调的模型异构个性化联邦学习

第一部分：解决的问题联邦学习（FederatedLearning,FL）是一种分布式机器学习方法，允许客户端在本地数据上训练模型，同时通过中心服务器共享学习成果。

还不秃顶的计科生·2025-02-20 20:10

GPT (Generative Pre-trained Transformer)

GPT模型通过大规模无监督预训练，使用大量的文本数据进行学习，然后再进行微调（fine-tuning）来适应具体的下游任务。

彬彬侠·2025-02-20 19:07

HarmonyOS Next数据处理与模型训练优化

本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）中数据处理与模型训练优化相关技术细节，基于实际开发实践进行总结。

·2025-02-20 17:51

深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系

想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。

时光旅人01号·2025-02-20 17:46

图论篇--代码随想录算法训练营第五十七天打卡| 最小生成树问题

题目链接：53.寻宝（第七期模拟笔试）题目描述：在世界的某个区域，有一些分散的神秘岛屿，每个岛屿上都有一种珍稀的资源或者宝藏。国王打算在这些岛屿上建公路，方便运输。不同岛屿之间，路途距离不同，国王希望你可以规划建公路的方案，如何可以以最短的总公路距离将所有岛屿联通起来（注意：这是一个无向图）。给定一张地图，其中包括了所有的岛屿，以及它们之间的距离。以最小化公路建设长度，确保可以链接到所有岛屿。解题

無量空所·2025-02-20 17:09

AI 大模型：Intelligent Agent—— 开启智能新纪元

在LLM语境下，Agent理解为在某种能自主理解、规划决策、执行复杂任务的智能体，LLM充当着智能体的“大脑”。

AI-入门·2025-02-20 16:36

DeepSeek-R1 技术全景解析：从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清...

合集-人工智能(5)1.如何改进AI模型在特定环境中的知识检索2024-09-242.深度学习与统计学中的时间序列预测2024-10-033.《使用coze搭建一个会搜索、写ppt、思维导图的Agent》2024-10-294.深入浅出：Agent如何调用工具——从OpenAIFunctionCall到CrewAI框架01-145.DeepSeek-R1技术全景解析：从原理到实践的“炼金术配方”—

雪停时偶遇一叶春·2025-02-20 16:02

YOLOv8 Pose使用RKNN进行推理

该模型在COCO关键点数据集上训练，适合多种姿势估计任务。二、ONNX推理1.首先需要先将Pytorch模型转换为Onnx模型，下载pt模型这里给出官方的权重下载地

い不靠譜︶朱Sir·2025-02-20 15:30

【自然语言处理|迁移学习-08】：中文语料完型填空

文章目录1中文语料完型填空任务介绍2数据集加载及处理3定义下游任务模型4模型训练5.模型测试1中文语料完型填空任务介绍任务介绍：完成中文语料完型填空完型填空是一个分类问题，[MASK]单词有21128种可能数据构建实现分析

爱学习不掉头发·2025-02-20 14:50

马斯克的Grok-3：技术突破与行业冲击的深度解析

一、技术架构与核心突破超大规模算力集群Grok-3基于xAI自研的Colossus超级计算机训练完成，搭载20万块英伟达H100GPU，累计消耗2亿GPU小时，算力投入是前代Grok-2的10倍48。

♢.＊·2025-02-20 14:15

BP 神经网络在考古数据分析中的应用

随后详细介绍了BP神经网络的结构、原理与训练算法。

fanxbl957·2025-02-20 13:42

动态蛇形卷积在YOLOv8中的探索与实践：提高目标识别与定位精度

的卷积改进2.1常规卷积与动态蛇形卷积的区别2.2动态蛇形卷积的实现原理2.3YOLOv8中集成动态蛇形卷积3.手把手实现动态蛇形卷积3.1安装依赖3.2设计动态蛇形卷积层3.3集成到YOLOv8中3.4训练与优化

向哆哆·2025-02-20 13:07

大模型（含deepseek r1）本地部署利器ollama的API操作指南

ollama介绍：Ollama是一个开源的大型语言模型（LLM）平台，旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。

·2025-02-20 13:41

LLM的分布式部署：AI的云端革命

《LLM的分布式部署：AI的云端革命》关键词分布式部署语言模型云端计算资源管理性能优化安全性摘要本文将深入探讨大型语言模型（LLM）的分布式部署，分析其技术背景、架构设计、资源管理、性能优化以及安全性等方面

AI天才研究院·2025-02-20 12:01

DeepSeek与ChatGPT：AI语言模型的全面对决

以下从六大维度展开全面对比，为不同需求场景提供选择参考：一、核心技术对比维度DeepSeekChatGPT架构设计混合专家系统（MoE）+自研深度优化架构Transformer架构（GPT-3.5/4系列）训练策略万亿

金枝玉叶9·2025-02-20 12:01

DeepSeek和ChatGPT的全面对比

优化版本参数量级开放7B/35B/120B闭源175B+位置编码RoPE+NTK扩展ALiBiAttention机制FlashAttention-3FlashAttention-2激活函数SwiGLUProGeGLU训练框架

陈皮话梅糖@·2025-02-20 12:00

auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式

它的主要目标是通过量化技术（Quantization）将大型语言模型（LLM）等深度学习模型的大小和计算复

IT修炼家·2025-02-20 12:00

线性回归理论

线性回归的核心思想是通过训练数据来学习参数，使得模型的预测值与真实值之间的差异最小化。在神经网络中，线性回归可以看作是一个单层神经网络。通过损失函数来衡量预测值与真实值之间的差异，常用的损失函数包

狂踹瘸子那条好脚·2025-02-20 11:21

muzero 算法原理

Muzero算法通过不断地训练模型和策略网络，来提高它们的准确性，从而使得机器学到了如何玩游

战神哥·2025-02-20 11:45

LLM与知识图谱融合:智能运维知识库构建

其中，大语言模型（LLM）和知识图谱是两个重要的技术方向。LLM能够理解和生成自然语言，可以用于构建智能

AI天才研究院·2025-02-20 11:45

知识图谱构建：LLM与知识工程的完美结合

1.背景介绍1.1知识爆炸与信息孤岛随着互联网和信息技术的飞速发展，我们正处于一个知识爆炸的时代。海量的数据和信息充斥着我们的生活，但同时也带来了信息过载和信息孤岛的问题。传统的信息检索方式难以有效地组织和利用这些知识，难以满足人们对知识获取和应用的需求。1.2知识图谱的兴起知识图谱作为一种语义网络，能够将实体、概念及其之间的关系以结构化的方式进行表达和存储，从而有效地组织和管理知识。近年来，知识

AI智能涌现深度研究·2025-02-20 10:10

SAT-3D饮食行为训练系统在营养教学中的应用心得体会

在营养学领域的探索之旅中，我有幸深入接触并实践了SAT-3D膳食诊断和饮食行为训练系统（以下简称SAT-3D系统，研制单位：上海共荣医学科技有限公司），这一经历不仅极大地拓宽了我的专业视野，也让我在营养实训教学上获得了前所未有的启示与感悟

上海GR·2025-02-20 10:08

Python中LLM的知识图谱构建：动态更新与推理

文章目录引言1.知识图谱的基本概念1.1知识图谱的定义1.2知识图谱的构建流程2.利用LLM进行知识抽取2.1实体识别2.2关系抽取2.3属性抽取3.知识融合3.1实体对齐3.2冲突消解4.知识存储5.

二进制独立开发·2025-02-20 09:35

基于Kitti数据集实现MMDetection3D点云物体检测训练

DataBall助力快速掌握数据集的信息和使用方式，会员享有百种数据集，持续增加中。需要更多数据资源和技术解决方案，知识星球：“DataBall-X数据球(free)”贵在坚持！-----------------------------------------------------------------------------------------------MMDetection3D环境安

Xian-HHappy·2025-02-20 09:02

Fastgpt接入Whisper本地模型实现语音识别输入

前言FastGPT默认使用了OpenAI的LLM模型和语音识别模型，如果想要私有化部署的话，可以使用openai开源模型Whisper。

泰山AI·2025-02-20 09:31

AI服务器散热黑科技：让芯片“冷静”提速

以GPT-4的训练为例，它需要大量的GPU

小深ai硬件分享·2025-02-20 09:29

如果MLlib 中没有所需要的模型，如何使用 Spark 进行分布式训练？

如果MLlib中没有你所需要的模型，并且不打算结合更强大的框架（如TensorFlowOnSpark或Horovod），仍然可以使用Spark进行分布式训练，但需要手动处理训练任务的分配、数据准备、模型训练

是纯一呀·2025-02-20 08:57

使用BLIP模型生成图像描述的可查询索引

在本篇文章中，我们将介绍如何使用预训练的SalesforceBLIP图像描述模型，生成一个可查询的图像描述索引。我们将使用ImageCaptionLoader来加载图像，并通过一系列步骤生成查询索引。

dgay_hua·2025-02-20 08:24

卷积神经网络之AlexNet经典神经网络，实现手写数字0~9识别

深度学习中较为常见的神经网络模型AlexNet，AlexNet是一个采用GPU训练的深层CNN，本质是种LeNet变体。由特征提取层的5个卷积层两个下采样层和分类器中的三个全连接层构成。

知识鱼丸·2025-02-20 08:24

DeepSeek掀起推理服务器新风暴，AI应用迎来变革转折点？

其发展分数据收集整理、模型训练、推理应用三个阶段，过去重模型训练，如今大量预训练模型出现，如何高效应用成新挑战，推理服务器应运而生。

小深ai硬件分享·2025-02-20 08:20

用 TensorFlow 搭建简单的手写数字识别模型

TensorFlow是一个强大的开源机器学习框架，由Google开发并维护，它提供了丰富的工具和接口，能帮助我们快速搭建和训练深度学习模型。

lozhyf·2025-02-20 07:48

LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers

Arxiv日期：2023.12.15机构：McGillUniversity/IBM/Facebook/ServiceNow关键词长度泛化位置编码CoT核心结论1.decoder-only中不显式使用位置编码（NoPE）可以提高长度泛化性能2.（证明了）decoder-onlytransformer如果NoPE同时具备绝对APE和RPE的能力3.暂存器（cot）对于长度泛化和任务相关，同时关注短期和

Zhouqi_Hua·2025-02-20 07:15

【拥抱AI】一文讲清楚MCP(Model Context Protocol)核心功能及应用

MCP（ModelContextProtocol）是Anthropic推出的一个开放协议，旨在统一LLM应用与外部数据源和工具之间的通信协议，为AI开发提供了标准化的上下文交互方式。

奔跑草-·2025-02-20 06:08

华为的云端训练算力与迭代效率

华为云、云端训练、算力、迭代效率、人工智能、深度学习、模型训练、分布式训练、优化算法1.背景介绍人工智能（AI）技术近年来发展迅速，深度学习作为其核心驱动力，在图像识别、自然语言处理、语音识别等领域取得了突破性进展

AI大模型应用之禅·2025-02-20 05:34

推荐频道

LLM训练