E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
训练问题记录
DeepSeek动态增量学习技术详解与实战指南
一、主题背景1.Why:破解模型持续进化难题传统全量
训练
模式面临三大困境:金融风控场景中,每周新增百万级欺诈样本时,全量
训练
耗时从3小时增至8小时(数据量年增长300%)医疗影像诊断模型遇到新病症类型时
燃灯工作室
·
2025-02-26 02:09
Deepseek
人工智能
机器学习
数据挖掘
GLake:优化GPU内存管理与IO传输的开源项目
GLake:突破GPU内存和IO瓶颈的利器在人工智能快速发展的今天,大模型
训练
和推理正面临着严峻的挑战。
2401_87458718
·
2025-02-26 02:35
开源
DeepSeek技术解析:降本增效的“双刃剑”如何重塑AI产业?
正面影响分析算力需求与成本大幅降低DeepSeek通过算法优化(如稀疏计算、知识蒸馏)和模型压缩技术,将云端
训练
算力需求降至传统大模型的35%,车端推理芯片需求减少至65%。
爱吃青菜的大力水手
·
2025-02-26 01:29
人工智能
DeepSeek:突破闭源封锁,引领大模型新时代
然而,大模型的
训练
和部署往往面临着硬件依赖性强、成本高昂、效率低下等挑战。DeepSeek的出现,为解决这些问题提供了全新的思路和方案。
fanstinmsl
·
2025-02-26 01:59
算法
语言模型
Pytorch:以CIFAR-10分类为例,给出了神经网络的
训练
流程
下面给出了神经网络的
训练
流程,包括数据加载与预处理、网络定义、损失函数和优化器定义、网络
训练
和网络测试。
Xiao_Ya__
·
2025-02-25 23:49
深度学习
pytorch
pytorch
分类
神经网络
梯度累加(结合DDP)梯度检查点
梯度累加目的梯度累积是一种
训练
神经网络的技术,主要用于在内存有限的情况下处理较大的批量大小(batchsize)。
糖葫芦君
·
2025-02-25 23:16
LLM
算法
人工智能
大模型
深度学习
支持向量机(Support Vector Machine,SVM)
这个间隔被定义为支持向量到超平面的最短距离,而支持向量就是那些恰好位于间隔边缘上的
训练
样本点。
不易撞的网名
·
2025-02-25 23:15
支持向量机
算法
机器学习
Tensorflow2.x框架-神经网络八股扩展-acc曲线与loss曲线
目录摘要一、acc曲线与loss曲线二、完整代码摘要loss/loss可视化,可视化出准确率上升、损失函数下降的过程一、acc曲线与loss曲线history=model.fit(
训练
集数据,
训练
集标签
诗雨时
·
2025-02-25 23:15
DeepSeek强化学习(Reinforcement Learning)基础与实践
引言强化学习(ReinforcementLearning,RL)是机器学习的一个重要分支,专注于
训练
智能体(Agent)在环境中通过试错来学习最优策略。
Evaporator Core
·
2025-02-25 23:44
强化学习
#
DeepSeek快速入门
人工智能
python
数据库
tornado
强化学习
deepseek
第三讲-神经网络八股
一、搭建神经网络六部法tf.keras搭建神经网络六部法1、import相关模块 2、train,test #
训练
集、测试集3、model=tf.keras.models.Sequential #逐层搭建网络结构
loveysuxin
·
2025-02-25 22:38
Tensorflow
tensorflow
神经网络八股(3)
梯度爆炸是指梯度在方向传播过程中逐渐变大,权重参数更新变化较大,导致损失函数的上下跳动,导致
训练
不稳定可以使用一些合理的损失函数如relu,leakRelu,归一化处理,batchnorm,确保神经元的输出值在合理的范围内
SylviaW08
·
2025-02-25 22:37
神经网络
人工智能
深度学习
DeepSeek基础之机器学习
重点理解与思考(一)泛化能力的重要性(二)归纳偏好的影响(三)NFL定理的启示三、应用场景联想(一)电商推荐系统(二)医疗诊断四、机器学习的基本流程(一)问题定义(二)数据收集与预处理(三)模型选择与
训练
珠峰日记
·
2025-02-25 22:07
机器学习
ai
人工智能
【PyTorch项目实战】图像分割 —— U-Net:Semantic segmentation with PyTorch
文章目录一、项目介绍二、项目实战2.1、环境搭建2.1.1、下载源码2.1.2、下载预
训练
模型2.1.3、下载
训练
集2.2、环境配置2.3、代码优化+架构优化2.4、模型预测:predict.pyU-Net
胖墩会武术
·
2025-02-25 21:04
深度学习
PyTorch项目实战
python
unet
pytorch
YoloV8
训练
参数篇
这个参数用于标识当前
训练
任务所属的项目,方便管理和组织多个
训练
任务。name:实验名称。该参数为当前
训练
任务指定一个名称,以便于标识和区分不同的实验。exist_ok:是否覆盖现有的实验。
江木27
·
2025-02-25 21:03
YOLO
YOLO
人工智能
深度学习
Python微调DeepSeek-R1-Distill-Qwen-1.5B模型:使用Transformers和PyTorch进行
训练
前言近年来,基于Transformer架构的预
训练
语言模型如GPT、BERT等已经取得了显著的成果,广泛应用于自然语言处理(NLP)的各个领域。
煤炭里de黑猫
·
2025-02-25 21:02
pytorch
python
人工智能
机器学习
机器学习01
机器学习的基本过程如下:1.数据获取2.数据划分3.特征提取4.模型选择与
训练
5.模型评估6.模型调优一、特征工程(重点)0.特征工程步骤为:特征提取(如果不是像dataframe那样的数据,要进行特征提取
天行者@
·
2025-02-25 20:53
机器学习
人工智能
深度学习
机器学习02
HoldOutHoldOutCross-validation(Train-TestSplit)优点1.简单高效操作简便:这种方法的实现非常直接,只需要将原始数据集按照一定比例(常见的如70:30、80:20等)随机划分为
训练
集和测试集
天行者@
·
2025-02-25 20:53
机器学习
人工智能
深度学习
细说向量化知识库
大多数LLM依赖其
训练
数据来回答问题,但它们的知识是静态的,无法实时更新。
CCSBRIDGE
·
2025-02-25 18:41
人工智能
人工智能
AI安全全景解析:从数据到模型的全方位防护
一、AI安全核心风险矩阵风险类型典型场景技术影响数据投毒
训练
数据被恶意篡改模型准确性下降模型窃取黑盒攻击获取模型参数知识产权泄露对
金外飞176
·
2025-02-25 18:09
网络空间安全
人工智能
安全
Pytorch实现之混合成员GAN
训练
自己的数据集
简介简介:提出一种新的MMGAN架构,使用常见生成器分布的混合对每个数据分布进行建模。由于生成器在多个真实数据分布之间共享,高度共享的生成器(通过混合权重反映)捕获分布的公共方面,而非共享的生成器捕获独特方面。论文题目:MIXEDMEMBERSHIPGENERATIVEADVERSARIALNETWORKS(混合成员生成对抗网络)会议:IEEEInternationalConferenceonIm
这张生成的图像能检测吗
·
2025-02-25 15:18
优质GAN模型训练自己的数据集
pytorch
生成对抗网络
人工智能
python
深度学习
机器学习
计算机视觉
9、论文阅读:无监督的感知驱动深水下图像增强
Perception-DrivenDeepUnderwaterImageEnhancementWithoutPairedSupervision前言引言相关工作UIE模型基于非物理模型基于物理模型基于深度学习质量度量在图像增强中的应用方法论问题表述PQR模型PDD网络生成器损失函数实验A.数据集B.
训练
细节
Maker~
·
2025-02-25 15:18
图像增强
论文阅读
深度学习
计算机视觉
阅读笔记:ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Task
PretrainingTask-AgnosticVisiolinguisticRepresentationsforVision-and-LanguageTasksContribution提出ViLBERT模型(twostreamsmodel),由两个BERT结构分别对text和image进行学习,通过cross-attention进行信息交流,在两个预
训练
任务
Araloak
·
2025-02-25 14:44
论文阅读笔记
深度学习
自然语言处理
用于获得一个pb文件的所有节点名称
#-*-coding:utf-8-*-"""CreatedonTueDec1818:31:1320181、model_dir为模型路径文件夹,model_name为模型名称(自定义非如alexnet等
训练
实际名称
@Mr_LiuYang
·
2025-02-25 14:40
写过的小程序
DeepSeek预测2030年:全球 50% 的白领工作将由 AI Agent 辅助完成,金融、医疗等专业渗透率超 70%
对未来的发展进行多维度预测,涵盖人工智能、搜索行业、全球经济格局等领域:一、人工智能技术的革命性突破低成本高性能模型的普及DeepSeek-R1等国产大模型通过混合专家架构(MoE)和算法优化,以OpenAI1/70的
训练
成本实现同等性能
未来AI编程
·
2025-02-25 13:03
DeepSeek入门到精通
人工智能
金融
高压输电线故障检测数据集 YOLO 格式
数据集介绍高压输电线故障检测数据集是一个专为电力行业AI模型
训练
设计的高质量数据集,支持YOLO格式的方框标注,适用于目标检测任务。数据集特点图像数量:1912张高质量图像,涵盖多种场景和光照条件。
幽络源小助理
·
2025-02-25 12:27
幽络源资料分享
人工智能
机器学习
深度学习
YOLOv10(
训练
完全版更新)
YOLOv10目前还不支持项目上的硬件板使用,等待后续。requirements.txt中已更新(torch版本更新了,提高了些精度)(我新加入了其他库)torch==2.0.1torchvision==0.15.2onnx==1.14.0onnxruntime==1.15.1pycocotools==2.0.7PyYAML==6.0.1scipy==1.13.0onnxsim==0.4.36on
小远披荆斩棘
·
2025-02-25 07:56
YOLOv8
v9
v10等实验与论文总结
YOLO
Golang从入门到精通
课程概述Golang从入门到精通,本课程以学习Golang语言开发互联网产品为目标,从基础理论知识入手,详实地讲解Golang语言的开发方法与技巧,并通过大量的线上
训练
,带领同学们全面掌握服务端高并发、
Wxhzy930120
·
2025-02-25 06:13
为什么DeepSeek必须开源(以及它为何不会打败OpenAI)
这家中国AI实验室
训练
出了R1——一款开
新加坡内哥谈技术
·
2025-02-25 05:12
人工智能
深度学习
机器人
科技
语言模型
免费 MLOps 课程:学习机器学习运维的完整流程
掌握MLOps:
训练
和跟踪实验、构建ML流水线、模型部署、生产环境监控,并从DevOps采用最佳实践。
真智AI
·
2025-02-25 05:11
学习
机器学习
运维
免费教程
使用Diffusion Models进行图像超分辩重建
目录贡献概述动机方法详解模型
训练
论文贡献概述这项研究提出了一种基于扩散逆过程的新图像
沉迷单车的追风少年
·
2025-02-25 04:32
Diffusion
Models与深度学习
人工智能
计算机视觉
超分辨率重建
AIGC
深度学习
联邦学习与边缘模型优化赋能医疗诊断新路径
联邦学习框架通过分布式模型
训练
机制,有效破解医疗机构间的数据壁垒,使跨机构的医学影像、病理数据在不离开本地服务器的前提下完成知识共享。
智能计算研究中心
·
2025-02-25 03:26
其他
联邦学习优化驱动医疗诊断新突破
内容概要医疗人工智能的发展长期面临数据孤岛与隐私合规的双重挑战,传统集中式
训练
模式难以满足多机构协作需求。
智能计算研究中心
·
2025-02-25 03:26
其他
项目上传github步骤
例如:gitcommit-m"添加了新的
训练
模型"3.推送更改到远程仓库然后
虾饺爱下棋
·
2025-02-25 03:51
github
gitee
git
【AI-38】为什么开源的是预
训练
好的模型权重,而不是预
训练
模型呢?
开源预
训练
好的模型权重而不是整个预
训练
模型,主要有以下几方面原因:知识产权与商业考量保护核心技术与数据:模型开发者可能希望保护模型的某些核心技术细节、独特算法或私有数据,这些是模型的关键竞争力所在。
W Y
·
2025-02-25 01:38
人工智能
DeepSeek
用人类反馈微调大模型,InstructGPT 让 GPT-3 脱胎换骨
接着,我们收集模型输出的排名数据集,使用人类反馈强化学习对这个经过监督学习
训练
的模型进
·
2025-02-24 23:50
人工智能
探索Omniglot:一个无尽的手写字符集合
探索Omniglot:一个无尽的手写字符集合omniglotomniglot-一个包含大量不同语言手写字符图像的数据集,用于机器学习模型的
训练
和评估。
宋溪普Gale
·
2025-02-24 22:46
cap4:YoloV5的TensorRT部署指南(python版)
专栏文章目录:《TensorRT全流程部署指南》专栏主页cap1:TensorRT介绍及CUDA环境安装cap2:1000分类的ResNet的TensorRT部署指南(python版)cap3:自定义数据集
训练
我是一个对称矩阵
·
2025-02-24 21:14
TensorRT全流程部署指南
YOLO
python
人工智能
TensorRT
模型部署
基于Python开发的使用多个单视图特征融合的基于图卷积网络(GCN)的肺结节检测系统的示例
模型
训练
:使用
训练
数据对模型进行
训练
。模型评估:使
go5463158465
·
2025-02-24 20:06
python
深度学习
算法
python
迁移学习
开发语言
基于YOLOv5、FaceNet与KNN的人脸识别系统
步骤1:环境配置安装依赖库:安装Python3.x安装TensorFlow、Keras、OpenCV等深度学习库获取数据集:收集
训练
用的多个人脸图像(每个用户至少几十张)将图像按用户分类存放在data/
reset2021
·
2025-02-24 19:29
人脸识别系统
YOLO
facenet
knn
人脸检测
软考高项备考技巧
分阶段备考:将备考过程分为不同的阶段,如基础学习阶段、强化
训练
阶段和冲刺复习阶段。每个阶段都有明确的学习目标和任务,确保备考过程有条不紊。
chengxuyuan1213_
·
2025-02-24 19:26
职场和发展
Meta官宣Llama3:迄今为止最强大的开源大模型
此版本具有经过预
训练
和指令微调的语言模型,具有8B(80亿)和70B(700亿)参数,可以支持广泛的用例。Llama3在各种行业基准上展示了最先进的性能,并提供了新功能,包括改进的推理能力。
·
2025-02-24 19:09
人工智能开源
第G9周:ACGAN理论与实战
>-**本文为[365天深度学习
训练
营]中的学习记录博客**>-**原作者:[K同学啊]**本人往期文章可查阅:深度学习总结我的环境:语言环境:Python3.11编译器:PyCharm深度学习环境:Pytorchtorch
OreoCC
·
2025-02-24 18:50
GAN
【DeepSeek零基础入门】从零开始:如何
训练
自己的AI模型
从零开始:如何
训练
自己的AI模型在人工智能的世界里,
训练
一个属于自己的AI模型,就像是在培养一个新生儿。你需要耐心、技巧,以及对数据的深刻理解。
Evaporator Core
·
2025-02-24 18:20
DeepSeek进阶开发与应用
#
DeepSeek快速入门
deepseek应用开发实例
deepseek
DeepSeek 和 Qwen 模型快速部署指南
DeepSeek-V3DeepSeek-R1模型大小总参数量6710亿(671B),MoE架构,每个token激活370亿参数总参数量与V3相当,基于DeepSeek-V3-Base,采用类似的MoE架构
训练
方法包含预
训练
moton2017
·
2025-02-24 18:47
深度学习
运维
模型部署
DeepSeek
Qwen
大型语言模型
LLM
人工智能
AI
P3405 [USACO16DEC] Cities and States S题解
为了
训练
奶牛们的智力,FarmerJohn在谷仓的墙上放了一张美国地图。地图上表明了每个城市及其所在州的代码(前两位大写字母)。由于奶牛在谷仓里花了很多时间看这张地图,他们开始注意到一些奇怪的关系。
互联网的猫
·
2025-02-24 18:17
集合应用
算法
c++
DeepSeek混合精度
训练
核心技术解析与实践指南
1.主题背景1.1Why混合精度
训练
(价值)混合精度
训练
通过结合FP16和FP32数据格式,在保证模型精度的前提下实现:40-60%显存占用降低(ResNet50案例:从7.8GB降至4.2GB)1.5
燃灯工作室
·
2025-02-24 15:33
Deepseek
数据挖掘
语音识别
计算机视觉
目标检测
机器学习
人工智能
Qwen2.5-Coder Technical Report
Qwen2.5-Coder技术报告摘要1引言2模型架构3预
训练
3.1预
训练
数据3.1.1数据组成3.1.2数据混合3.2
训练
策略3.2.1文件级预
训练
3.2.2仓库级预
训练
4后
训练
4.1指令数据的配方4.2
UnknownBody
·
2025-02-24 13:16
LLM
Daily
LLM
for
code
Technical
Report
语言模型
人工智能
自然语言处理
什么是Grok-3?技术特点,场景,潜在问题与挑战
Grok-3的技术特点与优势1.超大算力与
训练
规模算力投入:Grok-3使用了20万块英伟达H100GPU,分两个阶段
训练
(第一阶段10万GPU
训练
144天,第二阶段20万GPU
训练
92天),总计算量是前代
AndrewHZ
·
2025-02-24 13:46
深度学习新浪潮
深度学习
transformer
人工智能
语言模型
LLM
Grok-3
ElonMusk
ChatGLM-6B中英双语对话大模型Windows本地部署实战
公司于2020年底研发GLM预
训练
架构,2021年
训练
完成百亿参数模型GLM-10B,利用MoE架构成功
训练
出收敛的万亿稀疏模型,2
ErbaoLiu
·
2025-02-24 13:45
数据分析&大模型
自然语言处理&大模型
机器学习&大模型
ChatGLM
ChatGLM-6B
中英双语对话语言模型
LLM
大模型
GPT
聊天机器人
模型算力需求估算
计算模型的算力需求,通常基于模型的参数量(BillionParameters,简称B)和
训练
/推理的计算任务复杂度,结合硬件计算能力(例如每秒浮点运算次数,FLOPS)来估算。
由数入道
·
2025-02-24 12:06
人工智能
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他