预训练语言模型第16页

动手学深度学习笔记|3.2线性回归的从零开始实现（附课后习题答案）

动手学深度学习笔记|3.2线性回归的从零开始实现（附课后习题答案）线性回归的从零开始实现生成数据集读取数据集初始化模型参数定义模型定义损失函数定义优化算法训练练习1.如果我们将权重初始化为零，会发生什么

lusterku·2025-02-15 04:57

Bengio新作Aaren：探索Transformer性能与RNN效率的融合

Aaren不仅能够并行训练，而且能够在推理时高效地更新新令牌，仅需要常数内存。实验表明，Aaren在四个流行的序列问题设置（强化学习、事件预测、时间序列分类和时间序列预测）的38个数据

AI记忆·2025-02-15 03:17

利用Infinity Embeddings创建文本嵌入

核心原理解析InfinityEmbeddings利用强大的预训练模型，通过对输入的文本数据进行编码，生成具有语义意义的高维向量。这个过程不仅仅是简

qahaj·2025-02-15 03:16

仅用10张图片，AI就能学会识别万物？多模态小样本学习颠覆传统！

例如，ZS-DeconvNet方法在Nature上发表，展示了其在极低训练数据需求下，将图像分辨率提升超过1.5倍衍射极限的能力。

沃恩智慧·2025-02-15 03:15

AI大模型DeepSeek本地部署及使用

二：认识Ollama1.什么是OllamaOllama是一个开源的LLM（大型语言模型）服务工具&#

zy_xingdian·2025-02-15 02:41

基于华为自研NPU Ascend 910的TensorFlow 1.x训练脚本迁移和使能混合精度记录

当前业界大多数训练脚本基于Ten

Tianyi Li 1997·2025-02-15 02:07

ChatGPT、DeepSeek等大语言模型助力科研应用

●成本优势‌：DeepSeek的参数规模虽然庞大，但训练和使用费用却低至一个数量级，大大降低了用户的经济负担‌。

小艳加油·2025-02-15 00:24

PyTorch Lightning LightningDataModule 介绍

✅统一数据加载流程：确保训练、

qq_27390023·2025-02-14 23:21

DeepSeek掀起AI风暴：中国科技被重新定义，一条“鲶鱼”撼动全球格局

在此之前，全球大语言模型几乎都走闭源路线，动辄耗资几十亿，难以被普通团队或个人复制。DeepSeek却以“低算力、高效率、主动拥抱开源”理念实现了弯道超车，让所有人重新审视中国AI的潜

Coder_Kevin_Vans·2025-02-14 23:51

代码随想录算法训练营第三天 | 链表理论基础，203.移除链表元素，707.设计链表，206.反转链表

代码随想录算法训练营第三天|链表理论基础，203.移除链表元素，707.设计链表，206.反转链表203.移除链表元素给你一个链表的头节点head和一个整数val，请你删除链表中所有满足Node.val

白鹭鸣鸣！·2025-02-14 23:49

【笔记】使用 Pytorch 进行分布式训练

本文原文以CCBY-NC-SA4.0许可协议发布于技术相关｜使用Pytorch进行分布式训练，转载请注明出处。

LittleNyima·2025-02-14 23:49

实验随记2-Pytorch Lightning多机多卡训练

本文章主要收录笔者在阅读时发现的一些比较优质的多机多卡训练教程~~，由于pytorchLightning多机多卡示例很少，因此需要等笔者最近做完实验验证后才能更新示例。

晓岚和雪·2025-02-14 23:48

PyTorch Lightning多GPU分布式日志介绍

在多GPU/分布式训练环境下，多个进程会同时运行，普通的print()或logging可能会在所有GPU上重复输出，导致日志混乱。

qq_27390023·2025-02-14 23:48

ACM训练系统 1003 [编程入门]密码破译 C

代码思路：利用srcii对每个字符进行加四处理一使用四个变量和getchar();对每个字符加密；。//baizhen#includeintmain(void){chara,b,c,d,e;a=getchar();b=getchar();c=getchar();d=getchar();e=getchar();printf("%c%c%c%c%c",a+4,b+4,c+4,d+4,e+4);//字符

眉间白·2025-02-14 23:16

利用Blackbox AI让编程更轻松

由于训练集、调教等方面的差别，不同的AI适用的工作也不尽相同。在编程辅助方面，已经有一系列比较成熟的平台，但它们一方面价格昂贵，另一方面功能比较单一。

·2025-02-14 22:03

数字孪生遭遇 “DeepSeek 之问”：谁在批量制造昂贵玩具？

“如果数字孪生不能预判设备故障，和3D动画有什么区别？”DeepSeek技术总监的犀利发问，揭开了行业的遮羞布。

wlsjdszls·2025-02-14 22:09

拉普拉斯平滑（Laplacian smoothing）

概念零概率问题：在计算事件的概率时，如果某个事件在观察样本库（训练集）中没有出现过，会导致该事件的概率结果是0。

潜心学习的渣渣·2025-02-14 22:07

【人工智能】临时抱佛脚准备明天的人工智能考试，试题与答案汇总

过拟合‌：指模型在训练数据上表现非常好，但在未见过的测试数据上表现很差，即模型学习到了训练数据中的噪声或偶然特征。‌

奋力向前123·2025-02-14 21:31

Pytorch学习之路（3）

一.机器学习任务的整体流程1.数据预处理：数据格式统一、异常数据消除、必要数据转换，划分训练集、验证集、测试集2.选择模型3.设定损失函数、优化方法、对应的超参数4.用模型拟合训练集数据，在验证集/测试集上计算模型表现二

AAAx1anyu·2025-02-14 21:28

微信AI客服：34.4K Star的 chatgpt-on-wechat 开源工具

chatgpt-on-wechat是一款开源的智能对话机器人框架，基于ChatGPT大语言模型深度定制，可无缝接入微信（个人号/公众号）、企业微信、飞书等主流社交平台，实现自动回复、多轮对话、插件扩展等功能

码农在失业·2025-02-14 21:56

DeepSeek系列模型大比拼：谁是你的最佳选择？

一、DeepSeek-V3（一）模型概述DeepSeek-V3是一款大语言模型，旨在为内容创作者、企业客服团队以及需要进行知识库信息检索和问答的用户提供强大易用的文本生成解决方案。（二）

BuluAI·2025-02-14 19:10

【深入探讨 ResNet：解决深度神经网络训练问题的革命性架构】

深入探讨ResNet：解决深度神经网络训练问题的革命性架构随着深度学习的快速发展，卷积神经网络（CNN）已经成为图像识别、目标检测等计算机视觉任务的主力军。

机器学习司猫白·2025-02-14 16:26

LowCode 低代码平台集成 AI 大模型会产生怎样的化学反应？

而AI大模型（AIBigModel）则是一种利用深度学习技术构建的大规模神经网络，它可以对海量数据进行训练和预测，从而实现各种智能化的应用。本文将探讨低代码平台集成AI大模型

AI天才研究院·2025-02-14 15:43

使⽤MATLAB进⾏⽬标检测

目录数据准备定义模型并训练用测试集评估性能推理过程⼀⾏代码查看⽹络结构⼀⾏代码转onnx结语⼈⽣苦短，我⽤MATLAB。

唐BiuBiu·2025-02-14 15:13

格拉姆角场（GAF）将一维序列转化为图像

二、步骤数据预处

开发小途·2025-02-14 14:09

警告accumulate and all-reduce gradients in fp32 for bfloat16 data type

这条警告信息是关于分布式训练中的通信优化策略的，具体涉及流水线并行（PipelineParallelism）和点对点通信（P2PCommunication）。

NLstudy33·2025-02-14 14:36

DexVLA：通用机器人控制中具有插件式扩散专家的视觉语言模型

虽然视觉-语言-动作(VLA)模型已显示出可泛化机器人技能的前景，但要充分发挥其潜力，需要解决动作表示和有效训练方面的限制。当前的VLA模型通

硅谷秋水·2025-02-14 13:03

大语言模型(LLM)快速理解

自2022年，ChatGPT发布之后，大语言模型（LargeLanguageModel），简称LLM掀起了一波狂潮。作为学习理解LLM的开始，先来整体理解一下大语言模型。

大模型猫叔·2025-02-14 13:59

大语言模型原理基础与前沿通过稀疏MoE扩展视觉语言模型

大语言模型原理基础与前沿通过稀疏MoE扩展视觉语言模型1.背景介绍在人工智能领域，语言模型和视觉模型的结合已经成为一个重要的研究方向。

AI天才研究院·2025-02-14 12:52

9、深度学习-自学之路-损失函数、梯度下降、学习率、权重更新的理解

我们先来讲一下损失函数，e_dn=(p_dn-ture)**2#损失值的计算p_dn：预测值ture：真实值e_dn：损失值我们在第7章说了，我们的预测值和真实值相差越小（也就是损失值越小），说明我们模型训练的越好

小宇爱·2025-02-14 11:16

27、深度学习-自学之路-NLP自然语言处理-做一个简单的项目识别一组电影评论，来判断电影评论是积极的，还是消极的。

一、如果我们要做这个项目，第一步我们要做的就是需要有对应的训练数据集。

小宇爱·2025-02-14 10:39

DeepSeek正重构人形机器人和具身大模型赛道！

2024年1月20日，公司发布全球首个完全通过强化学习训练的专注于推理任务的高性能语言模型DeepSeek-R1

Robot251·2025-02-14 10:38

分布式训练三大并行策略：数据、模型与流水线并行的本质解析

截至2023年，大型语言模型的参数量已突破万亿级别（如GooglePaLM2达到3400亿参数），单卡显存容量（NVIDIAA10080GB）与计算能力（312TFLOPS）面临严峻挑战。

WHCIS·2025-02-14 10:07

大数据、云计算、人工智能等技术深度融合的智慧快消开源了。

基于多年的深度学习技术研究和业务应用为基础，集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体，是中国首个自主研发、功能完备、开源开放的产业级深度学习平台。基

AI服务老曹·2025-02-14 10:37

LLM大语言模型书籍教程推荐：《大模型时代》+《开源大模型食用指南》！附文档

哈喽大家好！很久都没有更新大模型这块的书了，今天给大家说一下这本：《大模型时代》，本书对大模型时代的技术、应用和产业变化进行了深入的分析和阐述。《本书》深入探讨了大型模型时代的技术演进、应用场景和产业变革。生动地阐释了ChatGPT背后的工作原理，深入解析了这一推动技术和产业变革的关键力量书中对国内外大型模型产业的布局和发展趋势进行了剖析，并对潜在的风险和泡沫进行了预警。作者简介龙志勇：曾任阿里巴

Langchain·2025-02-14 09:32

《深度解析：批量、随机和小批量梯度下降的区别与应用》

原理与计算方式批量梯度下降（BGD）：BGD在每次迭代时，都会使用整个训练数据集来计算损失函数的梯度，然后根据梯度更新模型参数。例如，若训练集中有1000个样本，那么每次迭代

·2025-02-14 09:40

【深度学习入门实战】基于Keras的手写数字识别实战（附完整可视化分析）

文章将包含：关键概念图解完整实现代码训练过程可视化模型效果深度分析环境准备importnumpyasnpimportmatplotlib.pyplotaspltfromtensorflowimportkerasfromtensorflo

机器学习司猫白·2025-02-14 09:01

探索DeepSeek：开源大模型领域的中国力量

在人工智能技术迅猛发展的今天，大语言模型（LLM）已成为全球科技竞争的焦点。来自中国的深度求索（DeepSeek）团队凭借其开源模型系列，正在为这一领域注入新的活力。

机器学习司猫白·2025-02-14 09:29

模型实战（19）之从头搭建yolov9环境+tensorrt部署+CUDA前处理 -＞实现目标检测

从头搭建yolov9环境+tensorrt部署实现目标检测yolov9虚拟环境搭建实现训练、推理与导出导出onnx并转为tensorrt模型Python\C++-trt实现推理，CUDA实现图像前处理文中将给出详细实现源码

明月醉窗台·2025-02-14 09:59

云原生AI Agent应用安全防护方案最佳实践（上）

当下，AIAgent代理是一种全新的构建动态和复杂业务场景工作流的方式，利用大语言模型（LLM）作为推理引擎。

佛州小李哥·2025-02-14 08:56

基于PyTorch的生成对抗网络入门（5）——利用PyTorch搭建条件生成对抗网络（CGAN）超详解

案例描述二、代码详解2.1构建真实数据集2.2创建生成虚假数据2.3构建判别器2.3.1创建生成虚假标签2.3.2判别器类2.3.3测试判别器2.4构建生成器2.4.1生成器类2.4.2测试生成器2.5训练

wendy_ya·2025-02-14 08:56

Ollama与Vllm使用对比与优劣

Ollama和vLLM是两个用于优化大型语言模型（LLM）推理的框架，它们在性能、资源利用率、部署复杂性等方面各有优劣。

魔王阿卡纳兹·2025-02-14 08:55

视觉中的transformer：ViT

但是在cv领域用的很少，视觉里一般是和cnn一起用或者把某些conv替换成transformer（整体还是CNN）本篇文章证明纯的transformer直接在图片分类上也做得很好：在大量数据集上进行预训练的前提上

ch隔壁老张·2025-02-14 06:12

AI 写作（三）文本生成算法：创新与突破

在训练复杂度方面，生成式模型通常较为复杂，因为它需要学习更多的参数来模拟数据的生成过程。例如，常

sdgfsdfxcg·2025-02-14 06:11

使用LangChain与OpenAI API进行向量嵌入和搜索的实战教程

技术背景介绍LangChain是一个用于构建大型语言模型(LLM)应用的强大工具集，能够帮助开发者快速构建智能应用。结合Ope

bBADAS·2025-02-14 06:06

第二章：9.5 多个输出的分类

构建多标签分类神经网络的方法方法一：独立训练多个神经网络一种方法是将多标签分类问题分解为多个独立的二分类问题。具体来说，

望云山190·2025-02-14 05:33

ALBERT：轻量级的BERT，用于语言表征的自监督学习

全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】ALBERT提出了特定的参数缩减技术，以降低内存消耗并提高BERT的训练速度

·2025-02-14 05:05

rk3588部署yolov8视频目标检测教程

目录1.环境配置1.1训练和导出onnx环境（电脑端执行）1.2导出rknn环境（电脑端执行）2.训练部分（电脑端执行）2.1训练脚本（电脑端执行）3.onnx转rknn（电脑端执行）1.环境配置1.1

今夕是何年，·2025-02-14 05:58

DeepSeek与Web3：科技融合的新纪元

作为新一代LLM（大型语言模型），DeepSeek不仅在推理质量和成本上展现出优势，还重新定义了去中心化智能代理（AIAgent）的发展方向。

TechubNews·2025-02-14 04:25

【Transformer】小白入门指南

Multi-HeadAttention）前馈神经网络（Feed-ForwardNeuralNetwork）位置编码（PositionalEncoding）残差连接与标准化框架认识1.输入输出2.Encoder3.Decoder4.训练过程

静静喜欢大白·2025-02-14 04:18

推荐频道

预训练语言模型