NLP预训练第6页

当大模型训练遇上“双向飙车”：DeepSeek开源周 DualPipe解析指南

前言在大模型训练中，传统流水线并行因单向数据流和通信延迟的限制，导致GPU利用率不足60%，成为算力瓶颈。

来自于狂人·2025-03-17 13:51

Ollama 基本概念

Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。

Mr_One_Zhang·2025-03-17 13:47

【go从入门到精通】探秘struct结构体转json为什么需要首字母大写？

并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业

前网易架构师-高司机·2025-03-17 13:47

AI 大模型应用数据中心建设：高性能计算与存储架构

AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI

AI智能涌现深度研究·2025-03-17 12:10

Python（1）Python全方位指南：定义、应用与零基础入门实战

跨领域通吃‌：从Web开发到AI训练，覆盖90%以上技术场景。‌企业级应用‌：YouTube用Python处理视频推荐，NAS

一个天蝎座白勺程序猿·2025-03-17 10:31

CSDN社区，到底该不该用DeepSeek AI生成文章？

作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。

Small踢倒coffee_氕氘氚·2025-03-17 10:30

AI大模型从入门到精通，2025终极指南！好卷啊，又不能躺平，只能悄悄卷你们了！

AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？

大模型教程·2025-03-17 10:30

AI大模型学习路线：从入门到精通的完整指南【2025最新】

它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。

AI大模型-大飞·2025-03-17 10:27

【sklearn 04】DNN、CNN、RNN

DNNDNN（DeepNeuralNetworks，深度神经网络）是一种相对浅层机器学习模型具有更多参数，需要更多数据进行训练的机器学习算法CNNCNN（convolutionalNeuralNetworks

@金色海岸·2025-03-17 09:24

【sklearn 02】监督学习、非监督下学习、强化学习

-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测

@金色海岸·2025-03-17 09:54

跨域视线估计的协同对比学习（重点针对局部对比学习解释）

跨域视线估计的协同对比学习1.问题表述在视线估计领域中，跨域问题是指当训练数据和测试数据来自不同的领域（如不同的个体、光照条件、拍摄设备等）时，模型性能会显著下降。

阳光明媚大男孩·2025-03-17 09:50

DeepSeek 在代码生成方面的优势解析

文章将详细解析DeepSeek在代码生成方面的优势，包括模型架构、数据训练、优化策略、编程语言支持、推理效率等核心技术点。1.DeepSeek-Coder的模型架构优化DeepSeek-Code

草莓屁屁我不吃·2025-03-17 08:15

深入解析两大AI模型的架构与功能

在人工智能（AI）领域，自然语言处理（NLP）一直是研究的热点之一。随着技术的不断进步，我们见证了从简单的聊天机器人到复杂语言模型的演变。

草莓屁屁我不吃·2025-03-17 08:12

DeepSeek-R1模型1.5b、7b、8b、14b、32b、70b和671b有啥区别？

码笔记mabiji.com分享：1.5B、7B、8B、14B、32B、70B是蒸馏后的小模型，671B是基础大模型，它们的区别主要体现在参数规模、模型容量、性能表现、准确性、训练成本、推理成本和不同使用场景

facaixxx2024·2025-03-17 06:01

从零开始大模型开发与微调：PyCharm的下载与安装

PyTorch和TensorFlow等深度学习框架为训练和微调大型语言模型提供了强大的支持。PyCharm

AI天才研究院·2025-03-17 06:55

新手村：数据预处理-特征缩放

特征缩放可以使不同尺度的特征具有相同的量级，从而提高模型训练的效率和性能。常见的特征缩放方法包括标准化（Standardization）和归一化（Normalization）。

嘉羽很烦·2025-03-17 05:20

MindSpore：华为全场景AI框架的技术全景与生态实践

作为华为昇腾AI生态的基石，MindSpore支持端、边、云全场景覆盖，并深度融合昇腾处理器的算力特性，提供从模型开发、训练到推理部署的端到端能力。

彩旗工作室·2025-03-17 05:44

过拟合：机器学习中的“死记硬背”陷阱

它像一把双刃剑：当模型过于“聪明”时，可能会陷入对训练数据的过度依赖，从而失去处理新问题的能力。本文将从原理到实践，深入探讨过拟合的本质及应对策略。1.什么是过拟合？

彩旗工作室·2025-03-17 05:44

Python—JSON格式标签转换为TXT格式标签详细教程2（附完整代码）

这个代码主要是解析一个json文件转换成多个txt文件使用的，尤其是便于yolo训练decode_json函数中的convert函数确实是用于将坐标缩放到0-1之间的。

资源补给站·2025-03-17 01:16

AI技术学习笔记系列001：FastLanguageModel.get_peft_model 函数各参数的详细解释

FastLanguageModel.get_peft_model函数各参数的详细解释，以及企业实际微调时的选择考量：参数详解及对微调的影响1.r=32（秩）作用：控制LoRA适配器的低秩矩阵的维度（秩），直接影响可训练参数数量

新说一二·2025-03-17 00:43

PyTorch 实现 Conditional DCGAN（条件深度卷积生成对抗网络）进行图像到图像转换的示例代码

该代码包含训练和可视化部分，假设输入为图片和4个工艺参数，根据这些输入生成相应的图片。

max500600·2025-03-16 23:04

【人工智能基础2】机器学习、深度学习总结

人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一

roman_日积跬步-终至千里·2025-03-16 23:02

一文搞懂 AI Agent 与 AI 大模型的区别

Manus：Manus定义与核心能力AI大模型AI大模型是基于深度学习架构，通过海量数据训练得到的复杂模型，像GPT-4、文心一言等。它们具备强大的知识储备和语言理解生成能力，

a小胡哦·2025-03-16 23:02

代码随想录算法训练营第 20 天 | LeetCode235. 二叉搜索树的最近公共祖先 LeetCode701.二叉搜索树中的插入操作 LeetCode 450.删除二叉搜索树中的节点

代码随想录算法训练营Day20代码随想录算法训练营第20天|LeetCode235.二叉搜索树的最近公共祖先LeetCode701.二叉搜索树中的插入操作LeetCode450.删除二叉搜索树中的节点目录代码随想录算法训练营前言

HIT最菜电控·2025-03-16 23:01

linux系统安全

1:1:bin:/bin:/sbin/nologindaemon：x:2:2:daemon:/sbin:/sbin/nologinadm：x:3:4:adm:/var/adm:/sbin/nologinlp

IT小饕餮·2025-03-16 23:00

一周热点：微软攻克语音输入、文本输出难题-Phi-4-multimodal

它通过创新的架构和训练方法，实现了在不同模态之间的无缝交互，为用户提供更自然、更智能的交互体验。模型架构该模型采用多模态Transformer架构，通过LoRA（

数据分析能量站·2025-03-16 22:57

Adobe Firefly 技术浅析（三）：GANs 的改进

生成式对抗网络（GANs）在图像生成领域取得了显著的进展，但原始的GANs在训练稳定性、生成质量以及多样性方面存在一些挑战。

爱研究的小牛·2025-03-16 21:50

关于stable diffusion的lora训练在linux远程工作站的部署

在学校Arc中部署loratraining，一大问题就是依赖缺失和冲突。可以利用miniconda或者anaconda建立虚拟环境来解决。安装anaconda或者miniconda（官网上也有教程）：wgethttps://repo.anaconda.com/archive/Anaconda3-5.3.0-Linux-x86_64.shchmod+xAnaconda3-5.3.0-Linux-x8

回天一梦·2025-03-16 19:02

新手村：混淆矩阵

《PythonCrashCourse》或在线教程（如Codecademy）scikit-learn基础掌握模型训练、预测、评估的基

嘉羽很烦·2025-03-16 18:28

【NLP】 3. Distributional Similarity in NLP（分布式相似性）

DistributionalSimilarityinNLP（分布式相似性）分布式相似性（DistributionalSimilarity）是自然语言处理（NLP）中的核心概念，基于“相似的单词出现在相似的上下文中

pen-ai·2025-03-16 18:25

即插即用模块--KANLinear

在相同迭代次数下超越传统MLP，不仅训练速度更快，收敛性更好，而且在拟合复杂函数时的精度也明显提高。

苏格拉没有鞋底·2025-03-16 17:51

机器学习——正则化、欠拟合、过拟合、学习曲线

过拟合（overfitting）:模型只能拟合训练数据的状态。即过度训练。

代码的建筑师·2025-03-16 17:51

IMWeb提升营Day4 | 训练题19：顺时针打印矩阵

题目描述输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字，例如，如果输入如下矩阵：12345678910111213141516则依次打印出数字1,2,3,4,8,12,16,15,14,13,9,5,6,7,11,10.12345678910111213141516123456789101112131415161718192021222324252627282930313233343

rical730·2025-03-16 17:19

基于DeepSeek R1构建下一代Manus通用型AI智能体的技术实践

目录一、技术背景与目标定位1.1大模型推理能力演进趋势1.2DeepSeekR1核心特性解析-混合专家架构(MoE)优化-组相对策略优化(GRPO)原理-多阶段强化学习训练范式1.3Manus智能体框架设计理念

zhangjiaofa·2025-03-16 15:08

【NLP】 9. 处理创造性词汇 & 词组特征（Creative Words & Features Model），词袋模型处理未知词，模型得分

这里写目录标题处理创造性词汇&词组特征（CreativeWords&FeaturesModel）1.处理否定（NegationHandling）2.词组特征（Bigrams&N-grams）3.结合否定传播与n-grams进行优化词袋模型（Bag-of-Words,BoW）1.BoW示例2.处理未知词3.为什么忽略未知词？4.处理未知词的方法计算模型得分（ScoreCalculation）处理创造

pen-ai·2025-03-16 15:37

大语言模型微调和大语言模型应用区别

大语言模型微调和大语言模型应用区别微调与应用LLM的区别微调大语言模型（LLM）是指取一个已经预训练好的模型，进一步用特定数据集训练，使其更好地适应某个任务或领域，比如为医疗聊天机器人优化医疗术语理解。

AI Echoes·2025-03-16 15:34

呵护斜颈老人：解锁护理关键，重塑健康生活

康复训练是护理的关键环节。鼓

全力以赴66·2025-03-16 15:31

PHP与MySQL的高效数据交互：最佳实践与优化技巧

1.使用预

奥顺互联V·2025-03-16 15:31

【NLP】 5. Word Analogy Task（词类比任务）与 Intrinsic Metric（内在度量）

WordAnalogyTask（词类比任务）定义：WordAnalogyTask是用于评估词向量质量的内在指标（IntrinsicMetric）。该任务基于这样的假设：如果词向量能够捕捉单词之间的语义关系，那么这些关系应该能够在向量空间中保持一定的结构。示例：在一个理想的词向量空间中，单词之间的关系应该满足如下等式：king−man+woman≈queenking−man+woman≈queenk

pen-ai·2025-03-16 15:01

大规模语言模型从理论到实践开源指令数据集

大规模语言模型从理论到实践开源指令数据集1.背景介绍大规模语言模型（LargeLanguageModels,LLMs）近年来在自然语言处理（NLP）领域取得了显著的进展。

AI天才研究院·2025-03-16 13:17

使用Python和LangChain创建可调用工具的智能对话机器人：全面指南

使用Python和LangChain创建可调用工具的智能对话机器人：全面指南在当今技术迅猛发展的时代，人工智能（AI）和自然语言处理（NLP）技术的应用范围越来越广。

m0_57781768·2025-03-16 13:46

CNBr活化琼脂糖凝胶4B，CNBr-Activated Sepharose 4B

CNBr活化琼脂糖凝胶4B是一种用于固定含伯胺配基的预活化填料，以下是其详细介绍：基本信息中文名称：溴化氰活化琼脂糖凝胶4B英文名称：CNBr-ActivatedSepharose4B外观：白色浆状物，

陕西星贝爱科·2025-03-16 12:12

Python3 【项目实战】深度解析：赛跑成绩统计分析工具

本工具通过程序化处理赛跑数据，自动计算各选手成绩及整体统计指标，主要应用于：学校运动会成绩实时统计田径锦标赛的自动化成绩公示运动员训练数据分析2.技术定位：时间数据处理与统计计算的典型案例字典数据结构的实践应用面向过程编程的教学范例二

李智 - 重庆·2025-03-16 12:11

主流开源大模型能力对比矩阵

模型名称核心优势主要局限Llama2/3✅多语言生态完善✅Rotary位置编码✅GQA推理加速⚠️数据时效性差⚠️隐私保护不足Qwen✅千亿参数规模✅中文语境优化✅复杂文本生成⚠️需高性能硬件⚠️领域知识需二次训练

时光旅人01号·2025-03-16 12:09

如何用deepseek炒股

新闻与舆情：使用DeepSeek的NLP能力分析新闻、社交媒体和公告，提取市场情绪和事件影响。宏观经济数据：收集GDP、利率、通胀等数据，分析其对股市的影响

Real Man★·2025-03-16 10:29

基于 svm 的金融咨询情感分析

金融咨询处理1.利用7万多条利好/利空语料（已经标注好的，分为1正性，-1负性两类），首先采用B-gram卡方差提取特征词汇2.使用卡方提取的特征词为每一篇咨询建立向量表示模型3.使用向量进行svm分割，训练语料

ouprince·2025-03-16 10:28

KNN算法性能优化技巧与实战案例

一、核心性能瓶颈维度挑战描述计算复杂度单次预测需计算全部训练样本距离，时间复杂度为（n=样本数，d=特征维度）内存占用需全量存储训练数据，大规模数据集难以加载高维灾难高维数据中距离计算失去

可问可问春风·2025-03-16 09:22

你的AI客服为何总抓不住客户核心诉求？（附特征优化方案）

1特征工程的意义nlp任务中，原始文本经数值映射后形成的词向量序列，难充分表达语言深层语义特征。

·2025-03-16 08:23

LLaMA-Factory 训练数据默认使用 instruction、input、output 三个 key

在LLaMA-Factory进行SFT（Directivesupervisionfine-tuning指令监督微调）时，训练数据的格式非常重要，因为大模型依赖标准化的数据结构来学习指令-响应模式。

背太阳的牧羊人·2025-03-16 08:43

NLP复习3，手撕多头attention

importmathimporttorchimportcollectionsimportnumpyasnpimporttorch.nnasnnclassMultiHeadAttention(nn.Module):def__init__(self,heads,d_model,dropout=0.1):super().__init__()#输入的特征维度self.d_model=d_model#每个头

地大停车第二帅·2025-03-16 07:08

推荐频道

NLP预训练