自训练第15页

【LLM】预训练的具体流程

分词器训练预训练模型：就像你已经学会了一些基础知识的“大脑”，我们可以在这个基础上继续学习新东西。比如，有些模型已经学会了英语，但中文学得不够好。

FOUR_A·2025-03-11 17:05

YOLO训练指南（以V3为例）

YOLO训练指南（以V3为例）前言了解yolo3https://cloud.tencent.com/developer/news/76803https://www.bilibili.com/video/

niuTaylor·2025-03-11 16:28

深度学习：偏差和方差

高偏差模型的训练误差和测试误差可能都较高。解决方法：增加模型复杂度：例如增加多项式的阶数、增加神经网络的层数等。使用更多的

壹十壹·2025-03-11 16:25

《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》

走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空

空云风语·2025-03-11 15:51

Python字符串操作

转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1

weixin_30871905·2025-03-11 15:17

基于transformer实现机器翻译(日译中)

文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三

小白_laughter·2025-03-11 15:46

SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language

本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。

UnknownBody·2025-03-11 12:29

【每日一题 | 2025】3.3 ~ 3.9

个人主页：Guiat归属专栏：每日一题文章目录1.【3.3】10387[蓝桥杯2024省A]训练士兵2.【3.4】P8601[蓝桥杯2013省A]剪格子3.【3.5】P9241[蓝桥杯2023省B]飞机降落

Guiat·2025-03-11 12:58

【Hugging Face】transformers 库中 model 的常用方法和属性

HuggingFacetransformers库中model的常用方法和属性在transformers库中，model代表预训练的Transformer模型，可用于文本分类、问答、文本生成等任务。

彬彬侠·2025-03-11 11:53

【Hugging Face】transformers 库中 model.generate() 方法：自回归模型的文本生成方法

HuggingFacemodel.generate方法model.generate是transformers库中的文本生成（TextGeneration）方法，适用于自回归模型（如GPT-2、T5、BART

彬彬侠·2025-03-11 11:52

知识蒸馏论文精选——《Graph-Free Knowledge Distillation for Graph Neural Networks 》

Graph-FreeKnowledgeDistillationforGraphNeuralNetworks》2021作者是XiangDeng和ZhongfeiZhang，来自纽约州立大学宾汉姆顿分校论文地址见文末摘要知识蒸馏（KnowledgeDistillation,KD）通过强制学生网络模仿在训练数据上预训练老师网络的输出

宇直不会放弃·2025-03-11 11:20

HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发

通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。

·2025-03-11 11:52

本地部署AI大模型之并行计算：什么是可重入互斥锁/递归锁

若线程尝试重复获取已持有的锁，会导致自死锁（线程无限等待自己释放锁）。2.可重入

杰瑞学AI·2025-03-11 11:47

成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？

在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A

Altair澳汰尔·2025-03-11 11:45

改变仿真游戏规则，Altair的AI与HPC技术创新仿真之路

原文转自：技术邻CAE学习作者：技术邻CEO虞伦有幸在今年的Altair技术大会作为行业媒体记者，采访了Altair的首席产品和战略官RaviKunju先生以下简称（Ravi），和Ravi的对话让我更全面地了解了

Altair澳汰尔·2025-03-11 11:15

关于两次项目的学习感悟

经过这两次项目，我学到了以下几点：1.模块化与结构化思维：代码展示了如何将深度学习任务分解为多个模块（如数据加载、模型定义、训练循环、评估等）。

罗婕斯特·2025-03-11 10:43

QPython双核攻略：从零基础到AI开发，你的手机就是全栈训练营

主题一：《编程小白必看！在手机上种下你的第一行代码》✨北京优趣天下信息技术有限公司重磅出品我们比谁都清楚：✔️86%的初学者因环境配置放弃编程✔️72%的上班族只有碎片化学习时间✔️95%的自学者需要即时答疑支持为什么QPython成为2025现象级学习工具？▸全栈开发环境：解释器+编辑器+控制台三合一▸AI导师常驻：集成DeepSeek代码助手（支持中英双语提问）▸极速学习路径：Q派课程7天完成

程之编·2025-03-11 09:39

“大语言模型微调”（Fine-tuning）与“大语言模型应用”（LLM Applications）之间的区别

1.概念与定义大语言模型微调微调指的是在一个经过大规模预训练的通用语言模型基础上，利用针对性较强的小规模数据集对模型进行进一步训练，从而使模型在特定领域或任务上表现得更优秀。

AI Echoes·2025-03-11 09:06

《C#多播委托：深入解析核心机制与实战应用指南》

以下从底层机制到实际应用详细解析：一、委托基础委托的本质委托是类型安全的函数指针，继承自System.MulticastDelegate类。

Ro小陌·2025-03-11 09:35

Python第十六课：深度学习入门 | 神经网络解密

本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和

程之编·2025-03-11 09:03

【大模型开发】Megatron-LM 深度解析：原理、应用与代码实现

所有内容基于Megatron-LM官方实现（GitHub:NVIDIA/Megatron-LM），并结合大规模模型训练的关键理念进行介绍。

云博士的AI课堂·2025-03-11 08:27

【大模型开发】深入解析 DeepSpeed：原理、核心技术与示例代码

深入解析DeepSpeed：原理、核心技术与示例代码DeepSpeed是由微软开源的高性能深度学习训练优化引擎，专注于帮助研究人员和工程团队在分布式环境中高效地训练超大规模模型。

云博士的AI课堂·2025-03-11 08:57

【大模型开发】大模型背后的基础组件与生态概览

本文将介绍其中几大核心组件和框架，包括HuggingFaceTransformers、DeepSpeed、Megatron-LM，以及其他相关工具和方法，展示它们在训练效率

云博士的AI课堂·2025-03-11 08:56

一学就会的深度学习基础指令及操作步骤（6）迁移学习

文章目录迁移学习模型准备数据增强模型训练模型微调和预测检查预测结果迁移学习迁移学习是将一个任务中学到的知识应用到另一个相关任务上，以提高新任务的学习效率和性能。

小圆圆666·2025-03-11 07:49

领域大模型之微调技术和最佳实践

BERT和GPT-3等语言模型针对语言任务进行了预训练。微调使它们适应特定领域，如营销、医疗保健、金融。在本指南中，您将了解LLM架构、微调过程以及如何为NLP任务微调自己的预训练模型。

程序员莫玛·2025-03-11 07:17

React,antd实现自动滚动Table封装组件

这一版在使用过程中会出现一个页面引用多个该组件,获取dom出错的问题,加强版自滚动table已上传点击跳转加强版自滚动组件只是根据工作需要,简单写了这种方如有不妥,你就当看不见…如有好的建议,私我/评论即可

前端CV攻城狮·2025-03-11 07:16

学睿德毅育贤才，AI 剪辑绽华彩

“小白AI短视频训练营”,恰似一把钥匙,为零基础学员开启AI短视频创作的大门。在这里,学员能够借助AI技术,探索记录生活的全新视角,以独特的剪辑手法展现生活的精彩

互联网之声·2025-03-11 06:13

AI 技术引入 RTK（实时动态定位）系统，可以实现智能化管理和自动化运行

通过历史数据训练模型，实现快速解算。实例：某无人机公司使用A

小赖同学啊·2025-03-11 06:39

如何对大模型进行微调？从原理到实战全解析

微调指在预训练大模型（如GPT-3.5、LLaMA）的基础上，使用特定领域的数据进行二次训练，使模型适应新任务或领域需求。

挣扎与觉醒中的技术人·2025-03-11 05:32

在LangChain中运行Replicate模型的实用指南

##技术背景介绍Replicate是一个平台，可以轻松调用各种预训练的AI模型。与传统的模型托管和调用相比，Replicate提供了简单的API接口，使开发者能够快速集成和使用强大的AI模型。

fgayif·2025-03-11 04:50

Java-Define and throw a dedicated exception instead of using a generic one

以下是定义和抛出自定义异常的步骤：定义自定义异常类：创建一个新的类，继承自Exception或RuntimeException类。

ZHOU_VIP·2025-03-11 04:18

《围城》：初读不接书中意，再读已是书中人

abstract]围城书名：围城作者：钱钟书简介：钱钟书先生最经典的作品，也是仅有的一部长篇小说，堪称中国现代文学史上风格独特的讽刺经典，被誉为“新儒林外史”，自上世纪八十年代以来一直横贯常销、畅销小说之首

细节处有神明·2025-03-11 03:14

Ubuntu 上设置 iptables 规则开机自启

在Ubuntu上设置iptables规则开机自启，可以通过以下方法实现：方法1：使用iptables-persistent（推荐）Ubuntu服务器上iptables规则不会自动保存，因此需要iptables-persistent

思静鱼·2025-03-11 02:08

3.10 项目总结

今天的项目是一个使用PyTorch框架构建和训练神经网络的实例，旨在实现手写数字识别。以下是项目的总结、内容分析以及优化建议：项目总结1.目标：使用神经网络对MNIST数据集中的手写数字进行分类。

不要不开心了·2025-03-11 01:58

点云语义分割：PointNet++在S3DIS数据集上的训练

点云语义分割：PointNet++在S3DIS数据集上的训练点云语义分割是计算机视觉领域的一个重要任务，旨在将点云数据中的每个点分配给其对应的语义类别。

完美代码·2025-03-11 00:25

windows11家庭版安装ubuntu子系统训练深度模型

文章目录环境准备前提条件安装环境安装Hyper-V安装Linux分发版升级WSL内核启用虚拟机功能安装ubuntu24.04安装桌面环境安装远程控制软件xrdp从Windows启动桌面版Ubuntu环境准备前提条件windows机器需要支持虚拟化，并且需要在BIOS中开启虚拟化技术，因为WSL2基于hyper-V，查看是否开启虚拟化：按住Windows+R输入cmd打开命令行，输入systemin

吃水果不削皮·2025-03-10 23:16

华为昇腾适配阶跃星辰多模态开源模型，上线魔乐社区

今日，魔乐社区（Modelers）宣布已上架由阶跃星辰自研的Step-Video视频生成和Step-Audio语音模型两款开源多模态大模型，并基于华为昇腾CANN异构计算架构和昇腾服务器，完成了对模型的适配

·2025-03-10 22:05

在Ubuntu系统下部署大语言模型

前言在Ubuntu系统下部署大语言模型，可以使用HuggingFace的Transformers库来加载和使用预训练的模型。

脱泥不tony·2025-03-10 22:39

机器学习算法（2）—— 线性回归算法

82,80],[85,78],[90,90],[86,82],[82,90],[78,80],[92,94]]y=[84.2,80.6,80.1,90,83.2,87.6,79.4,93.4]‘’‘模型训练

疯狂的石头。·2025-03-10 21:35

Compressed Channel Estimation for Intelligent Reflecting Surface-Assisted Millimeter Wave Systems

为了减少训练开销，利用了毫米波信

No_one-_-2022·2025-03-10 20:21

AI产品大模型学习指南：清晰路线，AI产品经理必备知识点一网打尽！_AI产品经理

实际上AI只是一种对传统产品或服务赋能的手段而已，将各种“中间件”（通常是一种训练好的模型，当输入一定数据后自动返回一定的输出值）、传感器等不同形式的软件、硬件融入传统产品或服务的使用或体验流程中。

AGI大模型学习·2025-03-10 18:38

Training-Free Transformer Architecture Search WithZero-Cost Proxy Guided Evolution（预览版本）

为了提高搜索效率，基于无训练代理的方法已在神经架构搜索(NAS)中得到广泛采用。然而，这些代理被发现不足以很好地推广到Transformer搜索空间，这一点已被多项研究和我们自己的实

境心镜·2025-03-10 18:05

用双色球数据集微调后的大模型

最近用Qwen/Qwen1.5-1.8B-Chat大模型来微调训练双色球2003001-2025011的数据集，实验测一下大模型出球的预测情况。

qq_29790801·2025-03-10 17:33

深度学习项目十一：mmdetection训练自己的数据集

mmdetection训练自己的数据集这里写目录标题mmdetection训练自己的数据集一：环境搭建二：数据集格式转换(yolo转coco格式)yolo数据集格式coco数据集格式yolo转coco数据集格式

小啊磊_Vv·2025-03-10 17:02

opencv cuda例程 OpenCV和Cuda结合编程

本文转载自：https://www.fuwuqizhijia.com/linux/201704/70863.html此网页，仅保存下来供随时查看一、利用OpenCV中提供的GPU模块目前，OpenCV中已提供了许多

weixin_44602056·2025-03-10 16:27

深度学习 PyTorch 中 18 种数据增强策略与实现

深度学习pytorch之简单方法自定义9类卷积即插即用数据增强通过对训练数据进行多种变换，增加数据的多样性，它帮助我们提高模型的鲁棒性，并减少过拟合的风险。

@Mr_LiuYang·2025-03-10 16:25

从前端程序员到大模型工程师的转型攻略

在科技日新月异的今天，人工智能（AI）特别是大规模预训练模型（大模型）的发展正引领着新一轮的技术革命。

七七Seven～·2025-03-10 15:19

深度学习笔记——Resnet和迁移学习

这使得深层网络难以训练。梯度消失：梯度消失是指在训练深度神经网络时，通过多层传递的梯度(误差)变得非常小，接近于零。这导致网络中较早层的权重更新非常缓慢，甚至几乎不更新。

肆——·2025-03-10 15:17

MMDetection实用工具详解（上）：日志分析、结果分析、混淆矩阵

实用工具目录一、日志分析使用方法实际案例二、结果分析pkl结果文件生成使用方法实际案例三、混淆矩阵使用方法实际案例遇到的UserWarning解决方案MMDetection官方除了训练和测试脚本，他们还在

MickeyCV·2025-03-10 15:46

解决电脑能连接正常WiFi，却无法上网的问题

首先尝试第一个办法：确认网络设置中的IP和DNS是否为自动获取：【此电脑】→右键【网络】打开【属性】→【更改适配器设置】→右键【WLAN】打开【属性】→选择【Internet协议版本4】→打开【属性】→设置为【自

dayang9605·2025-03-10 14:39

推荐频道

自训练