nlp预训练第12页

【AI论文】SEAP: 无训练稀疏专家激活修剪，解锁大型语言模型的潜力

本文介绍了稀疏专家激活修剪（SEAP）方法，这是一种无需训练的修剪方法，通过选择性地保留与任务相关的参数来降低推理开销。

东临碣石82·2025-03-12 19:53

在本地部署DeepSeek等大模型时，需警惕的潜在安全风险

在本地部署DeepSeek等大模型时，尽管数据存储在本地环境（而非云端），但仍需警惕以下潜在安全风险：1.模型与数据存储风险未加密的存储介质：若训练数据、模型权重或日志以明文形式存储，可能被物理窃取（如硬盘丢失

安当加密·2025-03-12 18:19

51-52 CVPR 2024 | Generalized Predictive Model for Autonomous Driving，自动驾驶通用预测模型

作者提出了通用的大规模自动驾驶视频预测模型GenAD，在实现过程中，进一步提出了迄今为止最大的自动驾驶场景训练数据集OpenDV-2K。

深圳季连AIgraphX·2025-03-12 18:18

算力服务器主要是指什么？

算力服务器对于人工智能领域来说，在深度学习模型的训练和推理过程中扮演着非常重要的角色，算力服务器可以执行大规模的矩阵计算，加速神经网络的训练和推理过程，帮助企业使得模型训练的时间大幅度缩短。

wanhengidc·2025-03-12 16:38

大模型问答机器人如何实现自然交互

大模型问答机器人如何实现自然交互关键词：大模型问答机器人,自然语言处理(NLP),深度学习,深度对话,多轮对话,意图理解,信息检索,逻辑推理1.背景介绍1.1问题由来近年来，随着人工智能技术的飞速发展，

杭州大厂Java程序媛·2025-03-12 16:02

【模型调优的深入分析与Python实践】

其核心目标是在以下两者间找到平衡：泛化能力∝1过拟合风险\text{泛化能力}\propto\frac{1}{\text{过拟合风险}}泛化能力∝过拟合风险1二、调优注意事项1.数据层面确保训练集/验证集

蝉叫醒了夏天·2025-03-12 15:30

DeepSeek开源周：面向大模型训练的三个工具包

在2025年的开源周中，DeepSeek推出了一系列旨在优化大规模模型训练效率的工具。

花生糖@·2025-03-12 15:28

神经网络探秘：原理、架构与实战案例

本文旨在深入剖析神经网络的原理、常见架构，并通过一个实际的代码案例，带领读者亲手实践神经网络的构建与训练过程。无论你是机器学习初学者，还

二川bro·2025-03-12 14:56

各大AI平台优缺点分析：选对工具，让AI更高效

1.OpenAI(ChatGPT、DALL·E、Codex)优点：自然语言处理（NLP）能力强：ChatGPT在对话、文本生成、翻译等方面表现优异，

JXY_AI·2025-03-12 14:23

为什么VAE效果不好，但VAE+diffusion效果就好了？

它结合了自编码器（Autoencoder）的结构和变分推断（VariationalInference）的思想，能够从数据中学习有意义的潜在表示，并生成与训练数据相似的新样本。

AndrewHZ·2025-03-12 12:43

基础算法训练2

基础算法1链接目录最长公共前缀两数之和删除字符串中所有相邻重复项n叉树的层序遍历最后一块石头的重量第N个泰波那契数图像渲染迷宫中离入口最近的出口矩阵课程表最长公共前缀14.最长公共前缀-力扣（LeetCode）在解决这道题时，巧妙运用String类的两个方法，能让解题过程变得十分轻松。首先，我们需要确定一个查找公共前缀的标准。这里，我们选择数组中的第一个字符串作为标准。不过，在此之前，必须对边界情

祁小白2024·2025-03-12 12:42

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

训练过程包括多阶段优化，确保在不同模式和任务上的性能，数据来源多样，覆盖高质量网络和合成数据。

余俊晖·2025-03-12 12:40

在整个大模型LoRA微调中，哪些方法可以提升和优化模型训练后推理效果？

环境：LoRA微调问题描述：在整个大模型LoRA微调中，哪些方法可以提升和优化模型训练后推理效果？

玩人工智能的辣条哥·2025-03-12 11:38

Transformer 的原理是什么？

它在自然语言处理（NLP）领域取得了巨大成功，并逐渐扩展到计算机视觉（CV）和其他领域。Transforme

玩人工智能的辣条哥·2025-03-12 11:08

weka 决策树

-synopsisor-infoOutputsynopsisforclassifier(useinconjunctionwith-h)-t（trainfile，训练文件，通常训练时只需要此文件即可，会进行

marui1982·2025-03-12 11:03

大模型微调：定义、方法、应用与未来展望

一、定义与意义（一）微调的定义大模型微调是指在预训练模型的基础上，通过特定领域的数据集对模型进行进一步训练的过程。

软件职业规划·2025-03-12 11:33

扩散 Transformer 策略：用于通才视觉-语言-动作学习的规模化扩散 Transformer

最近，在多样化的机器人数据集上进行预训练的大型视觉-语言-动作模型，已展示出利用少量域内数据泛化到

三谷秋水·2025-03-12 10:27

计算机视觉深度学习入门（4）

在小型数据集上从头开始训练一个卷积神经网络利用少量数据来训练图像分类模型，这是一种很常见的情况。如果你从事与计算机视觉相关的职业，那么很可能会在实践中遇到这种情况。

yyc_audio·2025-03-12 10:26

Python训练的机器学习模型【保存】和【加载】的方法？

一.为什么要保存训练好的模型由于传统训练机器学习模型，需要耗费大量的人力和资源。因此，将训练好的模型保存成为一件特别重要的事情。

福葫芦·2025-03-12 09:22

深入解析模型蒸馏（Knowledge Distillation）：原理、方法与优化策略

深入解析模型蒸馏（KnowledgeDistillation）：原理、方法与优化策略1.引言随着深度学习模型规模的不断增长，训练和部署大模型的计算成本也越来越高。

赵大仁·2025-03-12 09:48

LLM大模型技术实战4：热门开源LLMs对比和选型

在自然语言处理（NLP）领域有着广泛的应用，因其强大的语言理解和生成能力，能够处理各种复杂的文本任务。

大模型学习教程·2025-03-12 08:44

51-53 CVPR 2024 | DriveWorld：通过自动驾驶世界模型进行 4D 预训练场景理解（含模型数据流梳理）

24年5月，北京大学、国防创新研究院无人系统技术研究中心、中国电信人工智能研究院联合发布了DriveWorld:4DPre-trainedSceneUnderstandingviaWorldModelsforAutonomousDriving。DriveWorld在UniAD的基础上又有所成长，提升了自动驾驶目标检测、目标追踪、3D占用、运动预测及规划的性能，后期扩大数据集和调整骨干网络大小应该会

深圳季连AIgraphX·2025-03-12 08:43

大模型面试--大模型（LLMs）基础面

目前主流的开源大模型体系有以下几种：1.Transformer系列Transformer模型是深度学习中的一类重要模型，尤其在自然语言处理（NLP）领域。

TAICHIFEI·2025-03-12 08:13

AIGC是怎么为拥有5000家门店的行业头部企业做内容分发？

最初，我们都沉浸在通过海量数据训练出超级智能的幻想中，但随着时间的推移，我们逐渐意识到，在商业应用中，技术的稳定性和可靠性远比单纯的先进性更为重要。

Tezign_space·2025-03-12 07:06

N1学习打卡笔记

本文为365天深度学习训练营中的学习记录博客原作者：K同学啊Onhot编码one-hot编码的基本思想是将每个类别映射到一个向量，其中只有一个元素的值为1，其余元素的值为0。

无涯学徒1998·2025-03-12 07:06

ES6新增的变量

1.预解析var会进行预解析let/const没有预解析，必须先声明后使用2.重复变量名var定义的变量可以重名，let/const不允许定义重名变量3.块级作用域var没有块级作用域，只有函数能限制变量的使用范围

CspecialJ·2025-03-12 06:29

ES6新增语法

1.2.1预解析var会进行与解析let/const没有与解析，必须先声明后使用1.2.2重复变量名var定义的变量可以崇明let/const不允许定义重名变量1.2.3块级作用域var没有块级作用域，

CspecialJ·2025-03-12 06:29

机器学习入门指南：从 TensorFlow 到 PyTorch

机器学习是一种通过数据训练模型，使计算机能够自动学习和改进的技术。它主要分

6v6-博客·2025-03-12 06:23

Faster R-CNN原理详解以及Pytorch实现模型训练与推理

阿_旭·2025-03-12 05:51

cornell grasp data 康奈尔大学抓取数据集百度云

目前先进的基于视觉和机器人抓取方法都是在该数据集上训练过。该数据集共十组，每组100个物体，共计1000个物体，不仅包含物体的图像，还包含物体的抓取位姿。

工科pai·2025-03-12 05:20

RK3568笔记五十六：yolov8_obb旋转框训练部署

本文基于rknn_model_zoo和山水无移大佬的博客和代码训练模型并部署到正点原子的ATK-DLRK3568板子测试。

殷忆枫·2025-03-12 04:07

RK3568笔记六十八：Yolov11目标检测部署测试

这里不训练自己的模型了，使用官方模型测试。

殷忆枫·2025-03-12 04:07

【大数据】大数据处理-Lambda架构-Kappa架构

大数据处理-Lambda架构-Kappa架构elasticsearch-headElasticsearch-sqlclientNLPchina/elasticsearch-sql:UseSQLtoqueryElasticsearch360

weixin_33884611·2025-03-12 04:37

对开源VLA sota π0的微调——如何基于各种开源数据集、以及你自己的私有数据集微调π0(含我司的微调实践)

前言25年2.4日，几个月前推出π0的公司PhysicalIntelligence(π)宣布正式开源π0及π0-FAST，如之前所介绍的，他们对用超过10,000小时的机器人数据进行了预训练该GitHub

v_JULY_v·2025-03-12 04:07

使用OpenAI API实现自然语言处理应用

使用OpenAIAPI实现自然语言处理应用技术背景介绍随着人工智能技术的不断发展，自然语言处理（NLP）在各种应用中的地位越来越重要。

shuoac·2025-03-12 04:06

《自然语言处理实战入门》深度学习 ---- 预训练模型初探

文章大纲前言预训练模型简介语言表示学习神经上下文编码器为何需要预训练模型发展历史主流预训练模型预训练模型与分类将PTMs应用至下游任务微调策略未来研究方向参考文献前言随着深度学习的发展，各种神经网络被广泛用于解决自然语言处理

shiter·2025-03-12 02:21

DeepSeek发展背景和前景

2.技术演进：2024年1月：发布首个大模型DeepSeekLLM，包含670亿参数，在2万亿token的数据集上训练，性能超越Llama270BBase。202

爱吃苹果的日记本·2025-03-12 02:18

第20周：Pytorch文本分类入门

目录前言一、前期准备1.1环境安装导入包1.2加载数据1.3构建词典1.4生成数据批次和迭代器二、准备模型2.1定义模型2.2定义示例2.3定义训练函数与评估函数三、训练模型3.1拆分数据集并运行模型3.2

weixin_46620278·2025-03-12 01:44

第N3周：NLP中的数据集构建

本人往期文章可查阅：深度学习总结对于初学者，NLP中最烦人的问题之一就是数据集的构建问题，处理不好就会引起shape问题（各种由于shape错乱导致的问题）。

OreoCC·2025-03-12 01:43

NLP新手入门-第N1周：Pytorch文本分类入门

本文为365天深度学习训练营中的学习记录博客原作者：K同学啊|接辅导、项目定制目录一、课题背景和开发环境二、环境安装三、文本分类1.加载数据2.构建词典3.生成数据批次和迭代器4.定义模型5.定义实例6

Oaix Nay·2025-03-12 01:42

28.代码随想录算法训练营第二十八天|122. 买卖股票的最佳时机 II，55. 跳跃游戏，45. 跳跃游戏 II，1005. K 次取反后最大化的数组和

28.代码随想录算法训练营第二十八天|122.买卖股票的最佳时机II，55.跳跃游戏，45.跳跃游戏II，1005.K次取反后最大化的数组和122.买卖股票的最佳时机II-力扣（LeetCode）给你一个整数数组

白鹭鸣鸣！·2025-03-12 00:08

Python 在深度学习中的应用

深度学习是机器学习的一个分支，它通过构建和训练深层神经网络来实现对数据的学习和理解。Python作为一种简洁、易读、功能强大的编程语言，在深度学习领域得到了广泛的应用。

2501_90435375·2025-03-12 00:38

Bert的使用

dataloaderfromtorch.utils.dataimportDataLoader,Datasetfromsklearn.model_selectionimporttrain_test_split#给X,Y和分割比例，分割出来一个训练集和验证机的

巨鹿..·2025-03-12 00:31

PyTorch 中的混合精度训练方法，从 autocast 到 GradScalar

PyTorch的混合精度训练主要由两个方法实现：amp.autocast和amp.GradScalar。在这两个工具的帮助下，可以实现以torch.float16的混合精度训练。

Syntax_CD·2025-03-12 00:01

第6篇：Transformer架构详解（下）：多头注意力机制与位置编码

Transformer模型自提出以来，已经在自然语言处理（NLP）领域取得了巨大的成功。其核心创新包括多头注意力机制和位置编码，这些技术使得Transformer能够高效处理长序列数据。

Gemini技术窝·2025-03-12 00:00

考研复习时间规划：从迷茫到高效备考的进阶之路

基础阶段需要全面梳理知识体系，强化阶段着重攻克重点难点，冲刺阶段则要进行查漏补缺和模拟训练。每个阶段都有其特定的任务和目标，考生需要根据这些特征合理安排时间。考研复习的时

闲虎考研·2025-03-11 22:16

模型优化前沿趋势与行业应用实战

以联邦学习为代表的数据隐私保护技术，正在重构跨机构协作的模型训练范式，而量子计算与神经架构搜索（NAS）的结合，为超参数优化开辟了新维度。

智能计算研究中心·2025-03-11 22:12

算力安全创新驱动未来趋势endofsentence

例如，异构计算通过CPU、GPU、FPGA的协同加速，使复杂模型训练效率提升40%以上。关键数据：根据IDC预测，到2025年全球智能算力需求将增长30倍，

智能计算研究中心·2025-03-11 22:42

H800实战应用深度解析endofsentence

下表展示了H800在不同场景下的性能表现对比：场景类型训练速度提升推理延迟降低能效比提升自然语言处理35%22%40%计算机视觉28%18%33%推荐系统41%29%37%资深系统架构师指出："H800

智能计算研究中心·2025-03-11 22:12

DeepSeek高效AI创作成本革新endofsentence

该系统通过多任务联合训练框架，在自然语言理解、代码生成和跨模态处理方面展现出显著优势。其混合专家架构采用动态路由机制，实现参数利用率提升40%以上，在保持模型容量的同时将推理成本降低68%。

智能计算研究中心·2025-03-11 22:12

推荐频道

nlp预训练

【AI论文】SEAP: 无训练稀疏专家激活修剪，解锁大型语言模型的潜力

在本地部署DeepSeek等大模型时，需警惕的潜在安全风险

51-52 CVPR 2024 | Generalized Predictive Model for Autonomous Driving，自动驾驶通用预测模型

算力服务器主要是指什么？

大模型问答机器人如何实现自然交互

【模型调优的深入分析与Python实践】

DeepSeek开源周：面向大模型训练的三个工具包

神经网络探秘：原理、架构与实战案例

各大AI平台优缺点分析：选对工具，让AI更高效

为什么VAE效果不好，但VAE+diffusion效果就好了？

基础算法训练2

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

在整个大模型LoRA微调中，哪些方法可以提升和优化模型训练后推理效果？

Transformer 的原理是什么？

weka 决策树

大模型微调：定义、方法、应用与未来展望

扩散 Transformer 策略：用于通才视觉-语言-动作学习的规模化扩散 Transformer

计算机视觉深度学习入门（4）

Python训练的机器学习模型【保存】 和【加载】的方法？

深入解析模型蒸馏（Knowledge Distillation）：原理、方法与优化策略

LLM大模型技术实战4：热门开源LLMs对比和选型

51-53 CVPR 2024 | DriveWorld：通过自动驾驶世界模型进行 4D 预训练场景理解 （含模型数据流梳理）

大模型面试--大模型（LLMs）基础面

AIGC是怎么为拥有5000家门店的行业头部企业做内容分发？

N1学习打卡笔记

ES6新增的变量

ES6新增语法

机器学习入门指南：从 TensorFlow 到 PyTorch

Faster R-CNN原理详解以及Pytorch实现模型训练与推理

cornell grasp data 康奈尔大学抓取数据集 百度云

RK3568笔记五十六：yolov8_obb旋转框训练部署

RK3568笔记六十八：Yolov11目标检测部署测试

【大数据】大数据处理-Lambda架构-Kappa架构

对开源VLA sota π0的微调——如何基于各种开源数据集、以及你自己的私有数据集微调π0(含我司的微调实践)

使用OpenAI API实现自然语言处理应用

《自然语言处理实战入门》深度学习 ---- 预训练模型初探

DeepSeek发展背景和前景

第20周：Pytorch文本分类入门

第N3周：NLP中的数据集构建

NLP新手入门-第N1周：Pytorch文本分类入门

28.代码随想录算法训练营第二十八天|122. 买卖股票的最佳时机 II，55. 跳跃游戏，45. 跳跃游戏 II，1005. K 次取反后最大化的数组和

Python 在深度学习中的应用

Bert的使用

PyTorch 中的混合精度训练方法，从 autocast 到 GradScalar

第6篇：Transformer架构详解（下）：多头注意力机制与位置编码

考研复习时间规划：从迷茫到高效备考的进阶之路

模型优化前沿趋势与行业应用实战

算力安全创新驱动未来趋势endofsentence

H800实战应用深度解析endofsentence

DeepSeek高效AI创作成本革新endofsentence

Python训练的机器学习模型【保存】和【加载】的方法？

51-53 CVPR 2024 | DriveWorld：通过自动驾驶世界模型进行 4D 预训练场景理解（含模型数据流梳理）

cornell grasp data 康奈尔大学抓取数据集百度云