E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
训练
深度解析:大模型开源的真与假
目录大模型企业开闭源策略各异开源大模型的定义与现状开源内容的局限性通常开放的内容实际未开放的关键内容法律与商业模式的约束开源许可证的重要性大模型的定制许可证及其限制性条款商业公司对开源大模型的策略和目的建立生态系统吸引开发者提升品牌形象保持竞争优势技术创新和改进技术与协助开发的挑战
训练
和推理过程的资源需求差异微调和衍生模型的技术实现及其局限性开源大模型在协作开发中的局限总结大模型的发展开启了
rs勿忘初心
·
2025-02-28 05:39
#
AI大模型
大模型
开源闭源对比
开源闭源区别
DeepSeek开源周第二弹:DeepEP如何用RDMA+FP8让MoE模型飞起来?
一、引言:MoE模型的通信瓶颈与DeepEP的诞生在混合专家(MoE)模型
训练
中,专家间的全对全(All-to-All)通信成为性能瓶颈。
曦紫沐
·
2025-02-28 04:03
大模型
deepseek
利用DSPy优化LangChain RAG系统的实战指南
具体来说,DSPy编译器会在内部追踪你的程序,然后为大型语言模型(LLMs)创建高质量的提示(或为小型LLMs
训练
自动微调),以教会它们任务的步骤。
scaFHIO
·
2025-02-28 04:01
langchain
python
使用LangChain与GPT4All模型进行交互
核心原理解析GPT4All是基于大型语言模型(LLMs)的开源项目,通过
训练
大量干净的数据,能够生成高质量的对话和回答。LangChain是一种用于简化与
bavDHAUO
·
2025-02-28 04:28
langchain
交互
python
前言:什么是大模型微调
大模型微调(Fine-tuning)是指在预
训练
模型的基础上,针对特定的任务或数据集进行进一步
训练
的过程。预
训练
模型通常在大规模的通用数据上
训练
,具备广泛的语言理解和生成能力。
伯牙碎琴
·
2025-02-28 04:26
大模型微调
深度学习
人工智能
机器学习
大模型
微调
训练
游戏语音趋势解析,社交互动有助于营造沉浸式体验
OpenAI的ChatGPT语音模式将语音转语音技术变成了现实,引入了基于音频和文本信息进行端到端预
训练
的模型,这些模型除了文本标记外,还能原生理解和生成音频。
网易数智
·
2025-02-28 03:22
IM即时通讯
游戏
人工智能
音视频
实时音视频
信息与通信
语音识别
深度学习模型优化与医疗诊断应用突破
当前研究聚焦于迁移学习与模型压缩算法的协同创新,通过复用预
训练
模型的泛化能力与降低计算负载,有效解决了医疗数据样本稀缺与硬件资源受限的痛点问题。
智能计算研究中心
·
2025-02-28 02:44
其他
ZeRO分布式
训练
策略
ZeRO分布式
训练
策略详解一、核心设计原理ZeRO(ZeroRedundancyOptimizer)是微软提出的分布式
训练
优化框架,与传统数据并行方法不同,ZeRO通过将模型的参数、梯度和优化器状态分散到多个设备上
AIGC_ZY
·
2025-02-28 02:13
大模型
分布式
《揭秘机器学习中的交叉验证:模型评估的基石》
交叉验证的核心意义抵御过拟合风险在机器学习的
训练
过程中,模型可能会过度适应
训练
数据的细节和噪声,从而在新数据上表现不佳,这就是过拟合现象。交叉验证通过将数据集划分为多个子集,模型在不同子集上
·
2025-02-28 01:03
人工智能机器学习
扩散模型基本概念
1.核心思想从最原始的DDPM来讲,扩散模型是用变分估计
训练
的马尔可夫链,相当于VAE+流模型。与标准化流相比,扩散模型的正向过程为预先定义的加噪过程,负责将图像x∼p(x)x\sim{p(x)}x∼
AndrewHZ
·
2025-02-28 00:57
深度学习新浪潮
扩散模型
计算机视觉
流形学习
生成式模型
深度学习次
深度学习
人工智能
利用GPT开发应用005:Codex、Turbo、ChatGPT、GPT-4
它们是通过截至2021年6月的数据进行
训练
的,并被描述为比之前版本更强大。到2022年11月底,OpenAI开始将这些模型称为GPT-3.5系列的一部分。 Codex系列模型
翰墨之道
·
2025-02-28 00:56
GPT开发
GPT应用专栏
GPT-1
GPT-3
GPT开发
Codex
Turbo
ChatGPT
ASFF算法
这种不一致性干扰了
训练
过程中的梯度计算,降低了特征金字塔的有效性。4.这个问题存在的原因:当一个对象在某一层特征图中被赋值并被视为正值时,其他层特征图
神笔馬良
·
2025-02-28 00:21
Python入门知识
深度学习
人工智能
最全中文对话数据集(不定期更新)
为了提升对话系统的性能,需要大量的高质量对话数据来
训练
和优化模型。然而,中文对话数据相对于英文来说较为稀缺,且质量参差不齐,这限制了中文对话系统的发展。
数据猎手小k
·
2025-02-27 22:06
人工智能
大数据
【保姆级视频教程(二)】YOLOv12
训练
数据集构建:标签格式转换-划分-YAML 配置 避坑指南 | 小白也能轻松玩转目标检测!
【2025全站首发】YOLOv12
训练
数据集构建:标签格式转换-划分-YAML配置避坑指南|小白也能轻松玩转目标检测!
一只云卷云舒
·
2025-02-27 21:03
YOLOv12保姆级通关教程
YOLO
目标检测
人工智能
Ultralytics
数据集
YOLOv12
小白教程
DeepSeek全栈接入指南:从零到生产环境的深度实践
第一章:DeepSeek技术体系全景解析1.1认知DeepSeek技术生态DeepSeek作为新一代人工智能技术平台,构建了覆盖算法开发、模型
训练
、服务部署的全链路技术栈。
量子纠缠BUG
·
2025-02-27 21:30
DeepSeek部署
AI
DeepSeek
人工智能
深度学习
机器学习
2025,AI变现有哪些机遇与挑战?
与此同时,我国大模型领域仍然存在多方面痛点,例如:云端
训练
成本高、高端算力存在“卡脖子”风险、优质数据匮乏、人才缺口、AI算法开源生态仍需强化、数据安全和隐私问题等等,仍是市场
Imagination官方博客
·
2025-02-27 19:41
人工智能
haclon模板匹配
*打开窗口dev_open_window(0,0,512,512,'black',WindowHandle)*显示图像(用于创建模板的图像)read_image(Image,'D:/
训练
照片/4.png
CallZhang210
·
2025-02-27 18:30
haclon
视觉检测
自编码器(Autoencoders)
通过
训练
,自编码器能够学习数据的有效表示,常用于降维和特征提取。相比于独立模型,它的输入输出更灵活,且可以在输入完成后在完成解码。
路野yue
·
2025-02-27 17:55
机器学习
人工智能
深度学习
深度学习重要论文阅读笔记 ResNet (2025.2.26)
文章目录问题背景数据预处理神经网络模型模型性能知识点积累英语单词积累问题背景随着神经网络变得更深(层数变多),模型的
训练
过程也会变得更加困难。
北岛寒沫
·
2025-02-27 16:50
逐界星辰2025
计算机科研
深度学习
论文阅读
笔记
大语言模型原理与工程实践:Transformer 大语言模型预
训练
大语言模型原理与工程实践:Transformer大语言模型预
训练
关键词:大语言模型、预
训练
、Transformer、自监督学习、计算资源、数据处理文章目录大语言模型原理与工程实践:Transformer
AI天才研究院
·
2025-02-27 16:18
计算
ChatGPT
transformer
大模型核心技术原理: Transformer架构详解!
严格意义上讲,GPT可能不算是一个模型,更像是一种预
训练
范式,它本身模型架构是基于Transformer,但GPT引入了“预测下一个词”的任务,即不断通过前文内容预测下一个词。
大模型猫叔
·
2025-02-27 16:13
transformer
架构
深度学习
人工智能
学习
机器学习
算法
大模型最新面试题系列:深度学习基础(二)
过拟合是指模型在
训练
数据上表现很好,但在未见过的测试数据上表现不佳。当模型容量较低时,模型可能无法学习到数据中的复杂模式,导致欠拟合,即在
训练
集和测试集上的表现都较差。
人肉推土机
·
2025-02-27 15:08
大模型最新面试题集锦大全
AI编程
人工智能
pytorch
python
面试
Shell Script 编程笔记
考虑下面两个场景:场景一:我们在
训练
深度网络模型过程中保存了10个不同epoch模型。我们希望通过测试集验证每个模型的性能。
huangpg丶
·
2025-02-27 14:04
Supporting
Technology
DeepSeek 高阶应用技术详解(4)
1.引言在前三篇中,我们探讨了DeepSeek的基础功能、分布式
训练
、模型优化、模型解释性、超参数优化以及AutoML的应用。
Evaporator Core
·
2025-02-27 14:33
#
DeepSeek快速入门
DeepSeek进阶开发与应用
deepseek
DeepSeek开源周合集
FlashMLA,核心成就:GPU带宽利用接近理论极限,算力利用效率翻倍;周二:DeepEP,一个高效的MOE架构专家并行通信库:支持高效且优化后的全对全通信使用NVlink和RDMA进行节点内和节点间通信用于
训练
和推理填充的高吞吐量内核用于推理解码的低延迟内核原生支持
Vip.Gong
·
2025-02-27 14:03
人工智能
transformer
chatgpt
文心一言
python
scikit-learn
深度学习
记一次pytorch
训练
loss异常的问题
记一次pytorch
训练
loss异常的问题问题描述使用mmdetection框架
训练
时,某项loss出现异常大的值,比如1781232349724294.000。这个问题只在多卡
训练
时才会出现。
lyyiangang
·
2025-02-27 14:29
pytorch
人工智能
python
机器学习中的过拟合、欠拟合与正则化
在机器学习的世界里,过拟合与欠拟合是模型
训练
过程中常常会遇到的两大问题,而正则化则是应对过拟合的重要手段。理解它们对于构建高性能的机器学习模型至关重要。
喜-喜
·
2025-02-27 14:28
人工智能
机器学习
人工智能
优秀源头定制线束源头供应商-力可欣: 新能源储能线束领域的先行者
公司拥有标准线束生产车间,拥有先进的自动化生产设备和
训练
有素的生产
港澳粤生活网
·
2025-02-27 13:54
人工智能
KNN 算法优化实战分享
其核心原理是:对于一个待预测样本,计算其与
训练
集中所有样本的距离,选取距离最近的K个样本,根据这K个样本的标签进行投票(分类)或均值计算(回归),从而得到待预测样本的标签。
轻口味
·
2025-02-27 09:55
算法与实践
算法
大模型成本优化实战:从分布式
训练
到量化剪枝,轻松降低AI计算开销
网罗开发(小红书、快手、视频号同名) 大家好,我是展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者:《ESP32-C3物联网工程开发实战》图书作者:《SwiftUI入门,进阶与实战》超级个体:CO
网罗开发
·
2025-02-27 08:54
AI
大模型
人工智能
机器学习
深度学习
基于大模型的肺纤维化预测及临床方案研究报告
大模型在医疗领域的应用现状三、肺纤维化相关知识3.1肺纤维化的病因与发病机制3.2肺纤维化的临床症状与诊断方法3.3肺纤维化的治疗现状与挑战四、大模型预测肺纤维化的方法4.1数据收集与预处理4.2模型选择与构建4.3模型
训练
与优化
LCG元
·
2025-02-27 08:52
围术期危险因子
预测模型研究
人工智能
KNN 算法性能跃升秘籍:优化实战,打造高效分类利器!
KNN算法以其原理简单、易于实现、无需显式
训练
等特点,在模式识别、分类、回归等领域得到了广泛应用。
清水白石008
·
2025-02-27 07:16
开发语言
学习笔记
人工智能
算法
分类
机器学习
代码随想录
训练
营DAY07
四数相加classSolution(object):deffourSumCount(self,nums1,nums2,nums3,nums4):""":typenums1:List[int]:typenums2:List[int]:typenums3:List[int]:typenums4:List[int]:rtype:int"""dict={}foriinnums1:forjinnums2:i
程序员正在诞生中
·
2025-02-27 07:15
代码随想录打卡
python
开发语言
算法
哈希算法
《李航 统计学习方法》学习笔记——第八章提升方法
提升方法8.1提升方法AdaBoost8.1.1提升方法的基本思路8.1.2AdaBoost算法8.1.3AdaBoost的例子(代码实现)8.2AdaBoost算法的
训练
误差分析定理8.1AdaBoost
eveiiii
·
2025-02-27 07:39
统计学习
python
机器学习
人工智能
算法
Cassini_Network-Aware Job Schedulingin Machine Learning Clusters
分布式机器学习
训练
工作负载的通信开销占据了
训练
迭代时间的很大一部分,而现有的ML调度器往往忽略了ML
训练
作业的通信模式。
一只积极向上的小咸鱼
·
2025-02-27 07:37
机器学习
人工智能
用于
训练
基于pytorch构建的小型字符级语言模型的数据集汇总
前文,我们从零开始基于transformer框架在pytorch上构建一个小型字符级语言模型,并编写了完整的python示例,模型是需要
训练
的,所以在原有代码的基础上,我们寻找一些公开的数据集对模型进行
训练
搏博
·
2025-02-27 06:03
大模型
pytorch
语言模型
人工智能
python
学习
机器学习
AI 平台技术架构设计方案
本方案旨在提供一个全面的AI平台技术架构设计,以满足不同场景下的AI开发、
训练
、部署和管理需求。
数研妙手
·
2025-02-27 03:11
AI技术实践
人工智能
多模态|开源多模态模型Emu3 & 多模态预
训练
模型CLIP对比
Emu3官方介绍我们推出了Emu3,这是一套新的最先进的多模态模型,仅使用next-token预测进行
训练
!通过将图像、文本和视频分词到一个离散空间中,我们在多模态序列的混合上从头开始
训练
单个转换器。
产品媛Gloria Deng
·
2025-02-27 03:08
AI之眼
人工智能
AI
多模态
预训练模型
CLIP
第十三站:卷积神经网络(CNN)的优化
通过对
训练
数据进行各种随机变换,可以生成更多的
训练
样本,帮助模型避免过拟合。常见的数据增强方法:旋转(Rotation):随机旋转图像,增强模型对旋转变换
武狐肆骸
·
2025-02-27 03:08
机器学习
cnn
人工智能
神经网络
智能算法的全面应用:量子计算与自动化学习在各行业的创新路径探索
自动化机器学习算法通过简化模型
训练
和调优的过程,为数据科学家节省了大量时间。可解释性算法则旨在让模型的决策过程更加透明,从而提高用户对算法决策的信任。
智能计算研究中心
·
2025-02-27 03:35
其他
大模型之二十七-语音识别Whisper实例浅析
Whisper简介Whisper是OpenAI于2022年9月开源的一个多语种识别模型,目前支持99种语言,是目前性能最好的开源多语种识别ASR大模型,第一版版使用了68万小时标注好的语料预
训练
模型,而
shichaog
·
2025-02-27 01:55
神经网络&人工智能
语音识别
whisper
人工智能
深入解析 DeepSeek R1:强化学习如何驱动大模型推理能力的进化
引言在AI竞赛日益激烈的时代,DeepSeek-AI推出了DeepSeekR1,试图以强化学习(RL)直接
训练
推理能力,而非仅依赖传统的监督微调(SFT)。
海棠AI实验室
·
2025-02-26 23:07
智元启示录
人工智能
deep
learning
DeepSeek-R1
深度学习批次数据处理的理解
基础介绍在计算机视觉深度学习网络中,在
训练
阶段数据输入通常是一个批次,即不是一次输入单张图片,而是一次性输入多张图片,而神经网络的结构内部一次只能处理一张图片,这时候很自然就会考虑为什么要这样的输入?
_DCG_
·
2025-02-26 22:28
计算机视觉
深度学习
人工智能
医院HIS接入大模型:算力基础设施与
训练
能力的深度剖析与测算
一、引言1.1研究背景与意义在数字化医疗快速发展的当下,医院信息系统(HospitalInformationSystem,HIS)作为医疗信息化的核心枢纽,承载着患者诊疗信息、医院运营管理等关键数据,对提升医疗服务质量、优化医院管理流程起着至关重要的作用。然而,传统HIS在面对日益增长的医疗数据量和复杂的临床需求时,逐渐显露出分析决策能力不足、智能化程度低等短板。随着人工智能技术的飞速发展,大模型
Allen_LVyingbo
·
2025-02-26 21:52
数智化医院2025
健康医疗
人工智能
动态规划
python
论文笔记:Enhancing Sentence Embeddings in Generative Language Models
——>需要较大的
训练
批次,这会消耗大量的计算资源一些前沿的工作将焦点转向了最近开发的生成模型,期望利用其先进的文本理解能力,直接对输入句子进行编码,而无需额外的反向传播由于句子表示和自回归语言建模
UQI-LIUWJ
·
2025-02-26 20:17
论文阅读
语言模型
人工智能
DeepSeek-V3:最强开源MoE模型的技术解析与使用指南
目录引言模型概览架构创新:负载均衡策略与
训练
目标预
训练
:追求极致的
训练
效率后
训练
:从DeepSeek-R1进行知识蒸馏模型下载评估结果基础模型标准基准测试上下文窗口聊天模型标准基准测试(大于67B的模型
认识祂
·
2025-02-26 19:10
deepseek
开源
deepseek
DeepSeep开源周,第三天:DeepGEMM是啥?
矩阵乘法(GEMM)是深度学习模型的核心运算(如全连接层、卷积层等),其性能直接影响
训练
和推理效率。
程序员差不多先生
·
2025-02-26 19:33
pytorch
从零开始:使用PyTorch构建DeepSeek R1模型及其
训练
详解
本文将引导你使用PyTorch从零开始构建DeepSeekR1模型,并详细解释模型架构和
训练
步骤。
陆鳐LuLu
·
2025-02-26 19:02
pytorch
人工智能
python
什么是RAG?RAG是如何解决问题的?RAG的未来发展趋势有哪些?
二、为什么会出现RAGRAG的出现,是因为在大模型的广泛应用中,伴随着出现的一些问题,比如:知识的局限性:模型自身的知识完全源于它的
训练
数据,而现有的主流大模
大模型综述
·
2025-02-26 18:31
人工智能
开发语言
大模型
AGI
ai
RAG
自然语言处理
DeepSeek 开源周:DeepEP 项目详解,GPU 压榨计划启动!
本文将详细介绍DeepEP的功能、应用场景以及如何使用它来提升AI
训练
和推理的效率。DeepEP概述功能与作用DeepEP是一个专门针对Mixture-of-Experts(
东方佑
·
2025-02-26 18:29
量子变法
开源
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他