深度学习这么调参训练第17页

InternVL：论文阅读 -- 多模态大模型(视觉语言模型)

3）训练策略（1）第一阶段：视觉-语言对比训练（2）第二阶段：视觉语言生成训练（3）第三阶段：监督微调（SFT）3.InternVL应用1）对于视觉感知任务2）对于对比任务3）对于生成任务4）对于

XiaoJ1234567·2025-03-12 23:20

LLM大模型技术实战6：一文总结大模型微调方法

作为像水、电一样的基础设施，预训练大模型这样的艰巨任务，只会有少数技术实力强、财力雄厚的公司去做。绝大多数人，是水、电的应用者。对这部分人来说，掌握如何用好大模型的技术，更加重要。

AIG暴躁猫叔·2025-03-12 22:16

Adapter-Tuning：高效适配预训练模型的新任务

1.引言近年来，预训练语言模型（PLM）如BERT、GPT和T5在自然语言处理（NLP）任务中取得了巨大成功。

花千树-010·2025-03-12 22:15

2024-05-21 问AI: 介绍一下大语言模型的推理过程。

文心一言大语言模型的推理过程是一个复杂而精细的序列，它结合了深度学习和自然语言处理的技术，旨在理解和生成人类可以理解的自然语言文本。

BigSharkTech 必杀技·2025-03-12 22:14

基于hf的trl框架的deepseek-r1-zero实现与训练

导入模块和promt格式"""Reference:"""importreimporttorchfromdatasetsimportload_dataset,DatasetfromtransformersimportAutoTokenizer,AutoModelForCausalLMfromtrlimportGRPOConfig,GRPOTrainer#LoadandprepdatasetSYSTE

喂喂喂喂位·2025-03-12 20:00

如何增强机器学习基础，提升大模型面试通过概率

面试官不仅要求候选人熟练使用深度学习框架（如PyTorch、TensorFlow），还希望他们具备扎实的机器学习理论基础、算法实现能力和实际问题解决经验。本文将从机器学习基础入手

weixin_40941102·2025-03-12 19:55

【AI论文】SEAP: 无训练稀疏专家激活修剪，解锁大型语言模型的潜力

本文介绍了稀疏专家激活修剪（SEAP）方法，这是一种无需训练的修剪方法，通过选择性地保留与任务相关的参数来降低推理开销。

东临碣石82·2025-03-12 19:53

在本地部署DeepSeek等大模型时，需警惕的潜在安全风险

在本地部署DeepSeek等大模型时，尽管数据存储在本地环境（而非云端），但仍需警惕以下潜在安全风险：1.模型与数据存储风险未加密的存储介质：若训练数据、模型权重或日志以明文形式存储，可能被物理窃取（如硬盘丢失

安当加密·2025-03-12 18:19

51-52 CVPR 2024 | Generalized Predictive Model for Autonomous Driving，自动驾驶通用预测模型

作者提出了通用的大规模自动驾驶视频预测模型GenAD，在实现过程中，进一步提出了迄今为止最大的自动驾驶场景训练数据集OpenDV-2K。

深圳季连AIgraphX·2025-03-12 18:18

嵌入式开发用这3种软件架构，直接无敌。

为啥搞这么麻烦？后面独立开发比较复杂项目时，才搞懂他们的精髓所在，像搭积木一样，整齐有序，

无际单片机编程·2025-03-12 18:48

低成本·无任何依赖·实现大文件pdf预览功能-带下载进度

好了，为了不用任何库，就可以预览pdf，你可以如下操作：1.新窗口打开或将pdf地址放在iframe的src里预览写法如下：这么做有一个问题，如果pdf的地址请求头是a

·2025-03-12 17:08

算力服务器主要是指什么？

算力服务器对于人工智能领域来说，在深度学习模型的训练和推理过程中扮演着非常重要的角色，算力服务器可以执行大规模的矩阵计算，加速神经网络的训练和推理过程，帮助企业使得模型训练的时间大幅度缩短。

wanhengidc·2025-03-12 16:38

大模型问答机器人如何实现自然交互

大模型问答机器人如何实现自然交互关键词：大模型问答机器人,自然语言处理(NLP),深度学习,深度对话,多轮对话,意图理解,信息检索,逻辑推理1.背景介绍1.1问题由来近年来，随着人工智能技术的飞速发展，

杭州大厂Java程序媛·2025-03-12 16:02

【模型调优的深入分析与Python实践】

其核心目标是在以下两者间找到平衡：泛化能力∝1过拟合风险\text{泛化能力}\propto\frac{1}{\text{过拟合风险}}泛化能力∝过拟合风险1二、调优注意事项1.数据层面确保训练集/验证集

蝉叫醒了夏天·2025-03-12 15:30

DeepSeek开源周：面向大模型训练的三个工具包

在2025年的开源周中，DeepSeek推出了一系列旨在优化大规模模型训练效率的工具。

花生糖@·2025-03-12 15:28

接上一篇：Java实现导出Excel并附带水印

上篇这么优秀的Excel工具类，你难道不用？

沉默木头人·2025-03-12 15:57

神经网络探秘：原理、架构与实战案例

本文旨在深入剖析神经网络的原理、常见架构，并通过一个实际的代码案例，带领读者亲手实践神经网络的构建与训练过程。无论你是机器学习初学者，还

二川bro·2025-03-12 14:56

用物理信息神经网络（PINN）解决实际优化问题：全面解析与实践

关键词：物理信息神经网络；优化任务；深度学习；强化学习；航天器轨道一、

青橘MATLAB学习·2025-03-12 14:23

为什么VAE效果不好，但VAE+diffusion效果就好了？

VAE（VariationalAutoencoder，变分自编码器）是一种基于概率生成模型的深度学习框架，主要用于数据生成和潜在空间建模。

AndrewHZ·2025-03-12 12:43

基础算法训练2

基础算法1链接目录最长公共前缀两数之和删除字符串中所有相邻重复项n叉树的层序遍历最后一块石头的重量第N个泰波那契数图像渲染迷宫中离入口最近的出口矩阵课程表最长公共前缀14.最长公共前缀-力扣（LeetCode）在解决这道题时，巧妙运用String类的两个方法，能让解题过程变得十分轻松。首先，我们需要确定一个查找公共前缀的标准。这里，我们选择数组中的第一个字符串作为标准。不过，在此之前，必须对边界情

祁小白2024·2025-03-12 12:42

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

训练过程包括多阶段优化，确保在不同模式和任务上的性能，数据来源多样，覆盖高质量网络和合成数据。

余俊晖·2025-03-12 12:40

【笔试面试】秒懂深度学习模型小型化：蒸馏法、剪枝…

蒸馏：主要思想是，通过大模型指导小模型学习。剪枝：网络剪枝的主要思想就是将权重矩阵中相对“不重要”的权值剔除，然后再重新finetune网络进行微调。紧凑模型设计：MobileNet的深度可分离卷积shufflenet的逐点群卷积(pointwisegroupconvolution)和通道混洗(channelshuffle)，前者通过分组卷积降低计算量，后者促进信息在不同组之间流转

聊北辰同学·2025-03-12 11:08

在整个大模型LoRA微调中，哪些方法可以提升和优化模型训练后推理效果？

环境：LoRA微调问题描述：在整个大模型LoRA微调中，哪些方法可以提升和优化模型训练后推理效果？

玩人工智能的辣条哥·2025-03-12 11:38

Transformer 的原理是什么？

解决方案：Transformer是一种基于注意力机制（AttentionMechanism）的深度学习架构，最初由Vaswani等人在2017年的论文《AttentionisAllYouNeed》中提出

玩人工智能的辣条哥·2025-03-12 11:08

weka 决策树

-synopsisor-infoOutputsynopsisforclassifier(useinconjunctionwith-h)-t（trainfile，训练文件，通常训练时只需要此文件即可，会进行

marui1982·2025-03-12 11:03

大模型微调：定义、方法、应用与未来展望

一、定义与意义（一）微调的定义大模型微调是指在预训练模型的基础上，通过特定领域的数据集对模型进行进一步训练的过程。

软件职业规划·2025-03-12 11:33

扩散 Transformer 策略：用于通才视觉-语言-动作学习的规模化扩散 Transformer

最近，在多样化的机器人数据集上进行预训练的大型视觉-语言-动作模型，已展示出利用少量域内数据泛化到

三谷秋水·2025-03-12 10:27

计算机视觉深度学习入门（4）

在小型数据集上从头开始训练一个卷积神经网络利用少量数据来训练图像分类模型，这是一种很常见的情况。如果你从事与计算机视觉相关的职业，那么很可能会在实践中遇到这种情况。

yyc_audio·2025-03-12 10:26

Python训练的机器学习模型【保存】和【加载】的方法？

一.为什么要保存训练好的模型由于传统训练机器学习模型，需要耗费大量的人力和资源。因此，将训练好的模型保存成为一件特别重要的事情。

福葫芦·2025-03-12 09:22

深入解析模型蒸馏（Knowledge Distillation）：原理、方法与优化策略

深入解析模型蒸馏（KnowledgeDistillation）：原理、方法与优化策略1.引言随着深度学习模型规模的不断增长，训练和部署大模型的计算成本也越来越高。

赵大仁·2025-03-12 09:48

51-53 CVPR 2024 | DriveWorld：通过自动驾驶世界模型进行 4D 预训练场景理解（含模型数据流梳理）

24年5月，北京大学、国防创新研究院无人系统技术研究中心、中国电信人工智能研究院联合发布了DriveWorld:4DPre-trainedSceneUnderstandingviaWorldModelsforAutonomousDriving。DriveWorld在UniAD的基础上又有所成长，提升了自动驾驶目标检测、目标追踪、3D占用、运动预测及规划的性能，后期扩大数据集和调整骨干网络大小应该会

深圳季连AIgraphX·2025-03-12 08:43

大模型面试--大模型（LLMs）基础面

目前主流的开源大模型体系有以下几种：1.Transformer系列Transformer模型是深度学习中的一类重要模型，尤其在自然语言处理（NLP）领域。

TAICHIFEI·2025-03-12 08:13

智能制造中的工业大数据分析实践

智能制造中的工业大数据分析实践关键词:智能制造，工业大数据，数据分析，机器学习，深度学习，预测性维护，质量控制，生产优化文章目录智能制造中的工业大数据分析实践1.背景介绍1.1问题的由来1.2研究现状1.3

AI天才研究院·2025-03-12 08:12

情感识别（Emotion Recognition）

深度学习方法：使用卷积神经网络（CN

路野yue·2025-03-12 08:10

AIGC是怎么为拥有5000家门店的行业头部企业做内容分发？

最初，我们都沉浸在通过海量数据训练出超级智能的幻想中，但随着时间的推移，我们逐渐意识到，在商业应用中，技术的稳定性和可靠性远比单纯的先进性更为重要。

Tezign_space·2025-03-12 07:06

深度学习赋能中文情感分析：让机器读懂中国人的喜怒哀乐

在表情包与网络黑话齐飞的数字时代，中文情感分析技术正经历一场由深度学习驱动的认知革命。本文将深度解析这场让机器理解东方语境下复杂情感的科技进化史。

芯作者·2025-03-12 07:06

N1学习打卡笔记

本文为365天深度学习训练营中的学习记录博客原作者：K同学啊Onhot编码one-hot编码的基本思想是将每个类别映射到一个向量，其中只有一个元素的值为1，其余元素的值为0。

无涯学徒1998·2025-03-12 07:06

机器学习入门指南：从 TensorFlow 到 PyTorch

机器学习是一种通过数据训练模型，使计算机能够自动学习和改进的技术。它主要分

6v6-博客·2025-03-12 06:23

Faster R-CNN原理详解以及Pytorch实现模型训练与推理

【基于深度学习的行人跌倒检测系统】9.【基于深度学习的PCB板缺陷检测系统

阿_旭·2025-03-12 05:51

cornell grasp data 康奈尔大学抓取数据集百度云

康奈尔大学抓取数据集是基于深度学习方法实现机器人自主抓取的必备数据集，直接推动了机器人自主抓取的发展。目前先进的基于视觉和机器人抓取方法都是在该数据集上训练过。

工科pai·2025-03-12 05:20

笔记本电脑外接固态移动硬盘可以用于深度学习吗

笔记本电脑外接固态移动硬盘可以用于深度学习‌。虽然外接固态移动硬盘的传输速度和内置固态硬盘相比有一定差距，但在现代技术下，外接固态移动硬盘的传输速度已经非常快，能够满足深度学习的需求。

Vertira·2025-03-12 04:38

RK3568笔记五十六：yolov8_obb旋转框训练部署

本文基于rknn_model_zoo和山水无移大佬的博客和代码训练模型并部署到正点原子的ATK-DLRK3568板子测试。

殷忆枫·2025-03-12 04:07

RK3568笔记六十八：Yolov11目标检测部署测试

这里不训练自己的模型了，使用官方模型测试。

殷忆枫·2025-03-12 04:07

对开源VLA sota π0的微调——如何基于各种开源数据集、以及你自己的私有数据集微调π0(含我司的微调实践)

前言25年2.4日，几个月前推出π0的公司PhysicalIntelligence(π)宣布正式开源π0及π0-FAST，如之前所介绍的，他们对用超过10,000小时的机器人数据进行了预训练该GitHub

v_JULY_v·2025-03-12 04:07

人工智能学习

//-----初探-----//人工智能三大核心要素数据/算法/算力人工智能是通过机器来模拟人类认知能力的技术机器学习/神经网络/深度学习(多层隐藏层神经网络)tf1.14python3.5keras2.1.5

星月IWJ·2025-03-12 03:59

深度学习复习笔记（6）线性回归——新冠预测项目

importmatplotlib.pyplotaspltimporttorch#框架importnumpyasnp#矩阵处理importcsv#读excel文件fromtorch.utils.dataimportDataLoader,Dataset#两个与数据处理相关的包，类Datasetimporttorch.nnasnn#类nn.Module需要用，损失函数需要用fromtorchimport

Kriol·2025-03-12 03:27

向量空间与范数

本专栏目录结构和参考文献请见《机器学习数学通关指南》ima知识库知识库广场搜索：知识库创建人机器学习@Shockang机器学习数学基础@Shockang深度学习@Shockang正文一、向量空间：机器学习的舞台

Shockang·2025-03-12 03:56

互信息详解

本专栏目录结构和参考文献请见《机器学习数学通关指南》ima知识库知识库广场搜索：知识库创建人机器学习@Shockang机器学习数学基础@Shockang深度学习@Shockang正文互信息：变量间关联性的量化利器互信息