权重调配第5页

23. AI-大语言模型

文章目录前言一、LLM1.简介2.工作原理和结构3.应用场景4.最新研究进展5.比较二、Transformer架构1.简介2.基本原理和结构3.应用场景4.最新进展三、开源1.开源概念2.开源模式3.模型权重四

真上帝的左手·2025-02-15 12:34

deepseek本地部署需要多少显卡资源

华为昇腾环境（MindIE）参考资料：https://modelers.cn/models/MindIE/deepseekv3部署DeepSeek-V3、R1模型浮点权重至少需要4台Atlas800IA2

yuanlulu·2025-02-15 06:45

华为昇腾部署 DeepSeek-R1 (671B) 大模型实战指南

通过本教程，您将掌握：模型权重转换与量化方法昇腾专用镜像的使用技巧多机分布式推理配置生产级服务化部署方案一、部署前准备1.1硬件要求部署类型服务器配置显存要求BF16推理4台Atlas800IA28*64GBW8A8

歌刎·2025-02-15 05:35

动手学深度学习笔记|3.2线性回归的从零开始实现（附课后习题答案）

动手学深度学习笔记|3.2线性回归的从零开始实现（附课后习题答案）线性回归的从零开始实现生成数据集读取数据集初始化模型参数定义模型定义损失函数定义优化算法训练练习1.如果我们将权重初始化为零，会发生什么

lusterku·2025-02-15 04:57

9、深度学习-自学之路-损失函数、梯度下降、学习率、权重更新的理解

由《8、深度学习-自学之路-损失函数和梯度下降程序展示》我们看到我们设计了一个程序，这个程序里面由学习率，有损失函数，有梯度下降，权重更新。

小宇爱·2025-02-14 11:16

大模型参数规模解析：32B中的“B“代表什么？如何影响AI性能？

一、参数单位解读B=Billion（十亿）：在AI模型领域，"B"特指模型参数量的十亿级单位参数定义：神经网络中可调节的权重数值，决定模型的信息处理能力计算示例：32B=32×10⁹=320亿参数GPT

燃灯工作室·2025-02-14 10:35

云管平台的建设要点

一、云管平台：运维的"中枢神经系统"云管平台（CloudManagementPlatform，CMP）是运维工程师的"登云梯"，它统一管理多云环境，提供资源调配、成本优化、安全管控等核心功能。

·2025-02-14 05:34

【AI系列】从零开始学习大模型GPT (2)- Build a Large Language Model (From Scratch)

简单注意力机制带训练权重的注意力机

Tasfa·2025-02-13 23:33

云管平台的建设要点

一、云管平台：运维的"中枢神经系统"云管平台（CloudManagementPlatform，CMP）是运维工程师的"登云梯"，它统一管理多云环境，提供资源调配、成本优化、安全管控等核心功能。

·2025-02-13 21:23

Redis教程(八)：Redis中zSet类型的常用命令

传送门：Redis教程汇总篇，让你从入门到精通zSet操作：往zSet有序集合中添加数据，1，2，3代表权重，one，two，three代表数据zaddmyzset1one2two3three查询zSet

ThatMonth·2025-02-13 06:00

学习系列二：常用目标检测的格式转换脚本文件txt,json等

labelme打的标签json格式转可训练的txt格式三、yolo的目标检测txt格式转coco数据集标签的json格式四、xml格式转yolo数据集标签的txt格式五、根据yolo的目标检测训练的最好权重推理图片六

小啊磊_Vv·2025-02-12 21:23

k8s第一章：kubeadm集群搭建

开源容器应用自动化部署技术KubernetesKubernetes这个单词来自于希腊语，含义是舵手或领航员；生产环境级别的容器编排编排是什么意思:1.按照一定的目的依次排列；2.调配、安排；Kubernetes

琴剑诗酒·2025-02-12 13:27

【权重小技巧(2)】模型权重文件总结: .bin、.safetensors、.pt的保存、加载方法一览

这是因为.bin文件存储的是模型权重的state_dict（即参数的字典），而不是完整的模型对象。你需要先加载state_dict，然后将其加载到模型中，类似于.pt或.pth文件。

多恩Stone·2025-02-12 11:14

DeepSeek-V3：模型与权重全面解析

本文将详细解析其模型架构、权重结构和量化技术，并结合其在实际应用中的表现，带您全面了解DeepSeek-V3的技术亮点。

步子哥·2025-02-12 11:13

一文带大家了解DeepSeek不同版本 1.5B、7B、14B、32B、70B的含义以及应用场景

1.参数量的意义参数量：指模型中可训练的参数总数，包括权重和偏置等。单位：-1B=10亿参数-7B=70亿参数-70B=700亿参数2.不同版本的特点版本参数

测试开发Kevin·2025-02-12 10:10

Lua语言的云计算

云计算通过互联网将计算资源（如服务器、存储、数据库、网络等）进行动态调配和高效利用，极大地提高了资源利用率与开发效率。

梅清瑶·2025-02-12 05:27

开源模型应用落地-qwen2-7b-instruct-LoRA微调&合并-ms-swift-单机多卡-RTX 4090双卡（十五）

一、前言本篇文章将使用ms-swift去合并微调后的模型权重，通过阅读本文，您将能够更好地掌握这些关键技术，理解其中的关键技术要点，并应用于自己的项目中。

开源技术探险家·2025-02-12 04:50

一步步：在 VSCode 中本地运行 DeepSeek，打造强大的私人 AI 副驾驶

知识大胖·2025-02-11 22:06

缩放点积注意力（Scaled Dot-Product Attention）

它的核心思想是利用输入序列中各个位置的查询（Query）、键（Key）和值（Value）来计算注意力权重，并通过加权求和的方式生成上

彬彬侠·2025-02-11 20:53

Python 深度学习项目目录规范

工程数据或数据获取代码文件夹demos/examples工程demo或example文件夹layers自定义的层(如果有)self_loss.py比如自定义的loss层等logs日志文件夹weights/models模型权重文件夹

灰灰灰灰灰发·2025-02-11 19:15

[机缘参悟-233]：从人工智能的角度上看：神经网络模型确定的情况下，训练的数据决定了神经网络的权重，预测的准确性取决于训练的数据。这既称为经验，也称为成见，也称为认知。

前言：从人工智能的角度上看：神经网络模型确定的情况下，训练的数据决定了神经网络的权重，预测的准确性取决于训练的数据。

文火冰糖的硅基工坊·2025-02-11 09:31

深度学习｜表示学习｜Batch Normalization 详解：数学、代码与经验总结｜22

BN通过对mini-batch数据进行归一化，使每层的输入数据分布保持稳定，从而缓解梯度消失/爆炸问题，同时减少对权重初始化的敏感性。

漂亮_大男孩·2025-02-11 08:56

【Python】网格策略回测（日内高频数据）

策略思路：传统网格策略需要设定参数为网格间距、仓位权重。相当于把收盘价分成数个网格、价格移动到下个网格则成交。传统网格策略需提前设置格子数量、若价格走到无格子的位置时则不产生交易。

Yolimia·2025-02-11 06:38

面试官：如何在千万级数据中查询 10W 的数据，都有什么方案？

前言在开发中遇到一个业务诉求，需要在千万量级的底池数据中筛选出不超过10W的数据，并根据配置的权重规则进行排序、打散（如同一个类目下的商品数据不能连续出现3次）。

搬山道猿·2025-02-10 13:55

神经网络的训练过程详解

参数每个连接之间都有权重和偏置，用来调整信息传递强度和初始偏置值。二、训练过程概述初始化随机初始化权重和偏置，

西洲啊·2025-02-10 10:31

AI大模型：一文搞懂大模型文件存储格式新宠GGUF

在日常AI模型训练过程中，训练好的模型权重通常需要以一种格式存储在磁盘中。

Llama-Turbo·2025-02-10 01:37

CNN-day11-注意力机制

通过注意力机制，模型可以做到对图像中不同区域、句子中的不同部分给予不同的权重，从而增强感兴趣特征，并抑制不感兴趣区域。2注意力应用注意力机制最初应用于机器翻

谢眠·2025-02-09 19:26

深度学习-数学基础-01

学习神经网络需要以下数学基础：线性代数向量与矩阵神经网络中的数据通常以向量（如输入特征向量）和矩阵（如权重矩阵）的形式表示。理解向量的点积、加法、减法等运算，以及矩阵的乘法、转置等操作至关重要。

·2025-02-09 18:35

从零开始构建一个大语言模型-第六章第一节

第六章目录6.1不同类型的微调6.2准备数据集6.3创建数据加载器6.4用预训练权重初始化模型6.5添加分类头6.6计算分类损失和准确率6.7在有监督数据上微调模型6.8将大语言模型用作垃圾邮件分类器本章内容涵盖介绍不同的大语言模型微调方法为文本分类准备数据集修改预训练大语言模型以进行微调使用微调后的大语言模型对新数据进行分类到目前为止

释迦呼呼·2025-02-09 18:17

nginx常用负载均衡策略及使用场景

目录1.轮询（RoundRobin）2.权重（WeightedRoundRobin）3.最少连接（LeastConnections）4.IP哈希（IPHash）5.一致性哈希（Hash）1.轮询（RoundRobin

Biturd·2025-02-09 12:39

《探秘卷积神经网络的核心—卷积核》

卷积核中的每个元素都是一个权重参数，这些参数会在网络训练过程

·2025-02-08 19:57

【深度学习】L1损失、L2损失、L1正则化、L2正则化

（L1Loss）2.L2损失（L2Loss）3.L1正则化（L1Regularization）4.L2正则化（L2Regularization）5.总结5.1为什么L1正则化会产生稀疏解L2正则化会让权重变小

小小小小祥·2025-02-08 15:31

图论- DFS/BFS遍历

遍历深度优先搜素(DFS)Vertex模版-遍历所有节点为什么成环会导致死循环呢临接矩阵和临接表版-遍历所有节点遍历所有路径-临接矩阵和临接表版广度优先搜索(BFS)不记录遍历步数的需要记录遍历步数的需要适配不同权重边的深度优先搜素

左灯右行的爱情·2025-02-07 11:22

《集群、权重、时间戳回眸一识》

人物：王浩田时间：2016年9月11日地点：万达二楼玻璃屋主题：memcached分布式存储开篇之言通过演讲者王浩田在讲述的过程中，我发现有几个名词是之前听过但并未了解的新鲜事物，特写此篇来浅析集群、权重

杨晓风-linda·2025-02-07 09:08

在本地运行DeepSeek Janus 系列，DeepSeek Janus 系列用于图像理解和生成的统一多模态 AI

知识大胖·2025-02-07 02:54

空间注意力模块（SAM）和时间注意力模块（TAM）详解及代码复现

这种机制通过动态分配权重，突出重要特征，抑制无关信息，从而提高图像识别的准确性和效率。

清风AI·2025-02-06 21:47

“AI界拼多多”发布Deepseek R1，AI顿悟时刻出现

就在昨晚，距离DeepSeekAPP上线十天左右的时间，DeepSeek终于在官宣了DeepSeek-R1发布，并同步开源模型权重。

小敢摘葡萄·2025-02-06 16:14

从零开始构建一个大语言模型-第五章第五节

第五章目录5.1评估生成文本模型5.2训练一个LLM5.3控制随机性的解码策略5.4在PyTorch中加载和保存模型权重5.5从OpenAI加载预训练权重5.5从OpenAI加载预训练权重此前，我们使用一个由一本短篇小说集组成的有限数据集训练了一个小型

释迦呼呼·2025-02-06 15:41

Python-玩转数据-凸优化

一、说明最优化问题目前在机器学习，数据挖掘等领域应用非常广泛，因为机器学习简单来说，主要做的就是优化问题，先初始化一下权重参数，然后利用优化方法来优化这个权重，直到准确率不再是上升，迭代停止，那到底什么是最优化问题呢

人猿宇宙·2025-02-06 02:35

【深度学习】权重衰减

权重衰减前一节我们描述了过拟合的问题，本节我们将介绍一些正则化模型的技术。我们总是可以通过去收集更多的训练数据来缓解过拟合。但这可能成本很高，耗时颇多，或者完全超出我们的控制，因而在短期内不可能做到。

熙曦Sakura·2025-02-06 02:33

2024前端笔试题（vue2/vue3/react）

一、$HTML，HTTP，web综合问题1、前端需要注意哪些SEO（搜索引擎优化）合理的title、description、keywords：搜索对着三项的权重逐个减小，title值强调重点即可，重要关键词出现不要超过

字符敲击手·2025-02-06 00:16

昆仑万维官宣开源2000亿稀疏大模型Skywork-MoE

开源地址：Skywork-MoE的模型权重、技

TMT星球·2025-02-05 16:50

运行 Deepseek 视觉模型的方法

知识大胖·2025-02-05 13:30

DeepSeek 微调变得简单：使用 Python 创建自定义 AI 模型学习针对所有用例微调 DeepSeek R1 模型

知识大胖·2025-02-04 22:09

【漫话机器学习系列】079.超参数调优（Hyperparameter Tuning）

1.超参数的定义超参数是控制学习过程的外部参数，不同于模型参数（例如权重和偏置），超参数不通过训练过程自动优化。常见的超参数包括：学习

IT古董·2025-02-04 11:44

机器学习笔记20241017

文章目录torchvisiondataloadernn.module卷积非线性激活模型选择训练误差泛化误差正则化权重衰退的基本概念数学表示权重衰退的效果物理解释数值稳定性（GradientVanishing

tt555555555555·2025-02-04 03:11

Sklearn 中的线性回归模型

θ0+θ1x1h_\theta(x)=\theta^Tx=\theta_0+\theta_1x_1hθ(x)=θTx=θ0+θ1x1这里的θ0\theta_0θ0就是偏置，而θ1\theta_1θ1就是权重

Cacciatore->·2025-02-03 23:40

动态图最短路径的实时优化：应对边权重频繁更新的工程实践

在处理动态图中的最短路径问题时，尤其是面对边权重频繁更新的情况，传统的静态图算法如Dijkstra算法或Bellman-Ford算法可能不再适用或效率低下。

热爱分享的博士僧·2025-02-03 23:07

【机器学习BDT】python代码实现(下)

实现导入库分类树主体代码回归树主体代码输出函数完整代码后续可能添加的功能BDT(BootstrapDecisionTree)python实现代码仅供参考导入库importCART树_自己写importnumpy其中一个库之前写的分类树主体代码在原始数据权重基础上使用更新的数据权重以更新

mcoc132·2025-02-03 22:05

Floyd 算法

Floyd算法是一种在具有正或负边缘权重（但没有负周期）的

ん贤·2025-02-03 11:03

推荐频道

权重调配

23. AI-大语言模型

deepseek本地部署需要多少显卡资源

华为昇腾部署 DeepSeek-R1 (671B) 大模型实战指南

动手学深度学习笔记|3.2线性回归的从零开始实现（附课后习题答案）

9、深度学习-自学之路-损失函数、梯度下降、学习率、权重更新的理解

大模型参数规模解析：32B中的“B“代表什么？如何影响AI性能？

云管平台的建设要点

【AI系列】从零开始学习大模型GPT (2)- Build a Large Language Model (From Scratch)

云管平台的建设要点

Redis教程(八)：Redis中zSet类型的常用命令

学习系列二：常用目标检测的格式转换脚本文件txt,json等

k8s第一章：kubeadm集群搭建

【权重小技巧(2)】模型权重文件总结: .bin、.safetensors、.pt的保存、加载方法一览

DeepSeek-V3：模型与权重全面解析

一文带大家了解DeepSeek不同版本 1.5B、7B、14B、32B、70B的含义以及应用场景

Lua语言的云计算

开源模型应用落地-qwen2-7b-instruct-LoRA微调&合并-ms-swift-单机多卡-RTX 4090双卡（十五）

一步步：在 VSCode 中本地运行 DeepSeek，打造强大的私人 AI 副驾驶

缩放点积注意力（Scaled Dot-Product Attention）

Python 深度学习项目目录规范

[机缘参悟-233]：从人工智能的角度上看：神经网络模型确定的情况下，训练的数据决定了神经网络的权重，预测的准确性取决于训练的数据。这既称为经验，也称为成见，也称为认知。

深度学习｜表示学习｜Batch Normalization 详解：数学、代码与经验总结｜22

【Python】 网格策略回测（日内高频数据）

面试官：如何在千万级数据中查询 10W 的数据，都有什么方案？

神经网络的训练过程详解

AI大模型：一文搞懂大模型文件存储格式新宠GGUF

CNN-day11-注意力机制

深度学习-数学基础-01

从零开始构建一个大语言模型-第六章第一节

nginx常用负载均衡策略及使用场景

《探秘卷积神经网络的核心—卷积核》

【深度学习】L1损失、L2损失、L1正则化、L2正则化

图论- DFS/BFS遍历

《集群、权重、时间戳回眸一识》

在本地运行DeepSeek Janus 系列，DeepSeek Janus 系列用于图像理解和生成的统一多模态 AI

空间注意力模块（SAM）和时间注意力模块（TAM）详解及代码复现

“AI界拼多多”发布Deepseek R1，AI顿悟时刻出现

从零开始构建一个大语言模型-第五章第五节

Python-玩转数据-凸优化

【深度学习】权重衰减

2024前端笔试题（vue2/vue3/react）

昆仑万维官宣开源2000亿稀疏大模型Skywork-MoE

运行 Deepseek 视觉模型的方法

DeepSeek 微调变得简单：使用 Python 创建自定义 AI 模型 学习针对所有用例微调 DeepSeek R1 模型

【漫话机器学习系列】079.超参数调优（Hyperparameter Tuning）

机器学习笔记20241017

Sklearn 中的线性回归模型

动态图最短路径的实时优化：应对边权重频繁更新的工程实践

【机器学习BDT】python代码实现(下)

Floyd 算法

【Python】网格策略回测（日内高频数据）

DeepSeek 微调变得简单：使用 Python 创建自定义 AI 模型学习针对所有用例微调 DeepSeek R1 模型