训练总结报告第4页

DeepSeek使用手册，其中一份是清华大学出品

DeepSeek（深度求索）是一款由杭州深度求索人工智能基础技术研究有限公司开发的人工智能平台，专注于提供高效易用的AI模型训练与推理能力。

cpa007·2025-02-13 20:45

conda 装tensorboardx_【工欲善其事】TensorboardX的使用

“我不喜欢Tensorflow，但这并不妨碍我使用tensorboard”上一篇文章(https://zhuanlan.zhihu.com/p/39849027)，和大家简单地聊了一下关于如何在训练过程中有序地组织

weixin_39719042·2025-02-13 19:08

具身智能训练新思路！将生成视频用于训练机器人

将生成视频用于训练具身智能（EmbodiedAI）确实是近年来备受关注的前沿方向，这一思路通过结合生成式AI（如扩散模型、神经辐射场等）与机器人学习，为解决真实世界数据稀缺、训练成本高等问题提供了新可能

天机️灵韵·2025-02-13 18:02

从零开始大模型开发与微调：Miniconda的下载与安装

这些模型通过在海量文本数据上进行预训练,能够捕捉到丰富的语义和上下文信息,从而在自然语言处理任务中表现出色。

AGI大模型与大数据研究院·2025-02-13 18:30

如何避免交叉验证中的数据泄露？

大家好，我是小青在机器学习中，交叉验证（Cross-Validation）是一种常用的模型评估技术，目的是通过将数据集分割为多个子集，反复训练和验证模型，以便更好地估计模型的性能。

奋进小青·2025-02-13 17:25

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。

·2025-02-13 16:39

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM

·2025-02-13 16:07

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

GPT（GenerativePre-trainedTransformer，生成式预训练Transformer）是由OpenAI开发的基于Transformer解码器（Decoder）的自回归（Autoregressive

IT古董·2025-02-13 16:15

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。

·2025-02-13 15:31

从零开始构建一个大语言模型-第七章第一节

第七章目录7.1指令微调简介7.2为有监督的指令微调准备数据集7.3将数据整理成训练批次7.4为指令数据集创建数据加载器7.5加载预训练的大语言模型7.6在指令数据上对大语言模型进行微调7.7提取并保存回复

释迦呼呼·2025-02-13 15:07

基于深度学习的半导体检测与预测算法研究(二)

本文详细探讨了深度学习在半导体缺陷检测、工艺参数预测等方面的应用原理和方法，介绍了常见的深度学习模型如卷积神经网络（CNN）、循环神经网络（RNN）及其变体在半导体数据处理中的应用，分析了模型训练与优化的关键技术

埃菲尔铁塔_CV算法·2025-02-13 12:45

基于深度学习的半导体算法原理及应用

埃菲尔铁塔_CV算法·2025-02-13 12:44

模型应用管理的成功之道：策略、工具与团队协作

●训练与验证：使用训练数据训练模型，并通过验证集评估模型性能。●超参数调优：通过交叉验证、网格搜索等方法优化模型超参数。2.模型部署●

·2025-02-13 11:28

DeepSeek-V2 论文解读：混合专家架构的新突破

Economical,andEfficientMixture-of-ExpertsLanguageModel目录一、引言二、模型架构（一）多头部潜在注意力（MLA）：重塑推理效率（二）DeepSeekMoE：经济高效的训练架构三

进一步有进一步的欢喜·2025-02-13 09:49

Kivy教程大全之使用 NumPy 和 Kivy 对 Android 设备进行图像分类

知识大胖·2025-02-13 08:48

【人工智能】Python中的深度学习优化器：从SGD到Adam

解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在深度学习模型的训练过程中，优化器起着至关重要的作用，它决定了模型的收敛速度以及最终的性能。

蒙娜丽宁·2025-02-13 08:13

线性回归、逻辑回归及SVM

可以简单的理解为：在给定训练样本点和已知的公式后，对于一个或多个未知参数，机器会自动枚举参数的所有可能取值（对于多个参数要枚举它们的不同组合），直到找到那个最符合样本点分布的参数（或参数组合）。

@迷途小书童·2025-02-13 07:38

【AI】人工智能没那么神秘！

AI系统通常由算法、数据、模型和代码组成，其中代码用于实现算法，数据用于训练模型，最终形成智能决策能力。AI可以嵌入到应用程序中，但其本身是一个复杂的技术体系。AI为什么这么聪明？

仇辉攻防·2025-02-13 07:04

大语言模型的分类及本地部署所需的硬件配置要求

简单来说，它就像一个“超级大脑”，能够处理各种语言任务，比如写文章、回答问题、翻译语言等；它通过训练大量的文本数据，学习语言的结构、语法、语义以及上下文关联，从而能够理解和生成与人类语言相似的文本。

Kelaru·2025-02-13 07:01

硅基流动多模型工作流应用平台，免费2000万Token来了

硅基流动是一家专注于大规模AI计算的技术公司,提供高性能LLM推理和训练解决方案,助力企业高效部署AI应用。目前注册可获的2000万Token，可以使用将近60种文字对话、语音、图像生成等主流大模型。

yuntianming3906·2025-02-13 05:53

AnyPlace：学习机器人操作的泛化目标放置

为了解决这个问题，AnyPlace，一种完全基于合成数据训练的两阶段方法，能够预测现实世界任务中各种可行的放置姿势。其

硅谷秋水·2025-02-13 04:15

算法训练Day7| LeetCode454. 四数相加II(Map作哈希表）；383.赎金信(数组作哈希表）；15.三数之和(双指针)；18.四数之和(双指针)

目录LeetCode454.四数相加1.思路2.代码实现3.复杂度分析4.思考Leetcode383.赎金信1.思路2.代码实现3.复杂度分析4.思考Leetcode15.三数之和方法一：双指针法1.思路2.代码实现3.复杂度分析4.思考Leetcode18.四数之和1.思路2.代码实现3.复杂度分析4.思考LeetCode454.四数相加链接：454.四数相加II-力扣（LeetCode）1.思

努力学习的牛宁西·2025-02-13 04:45

代码随想录算法训练营Day07 | LeetCode454.四数相加II、LeetCode383.赎金信、LeetCode15.三数之和、LeetCode18.四数之和

LeetCode454.四数相加II题目链接：https://leetcode.cn/problems/4sum-ii/思路：想法是使用哈希表。定义一个哈希表unordered_map，遍历a数组与b数组，key存放a数组与b数组的元素之和，value存放a数组与b数组的元素之和出现的次数；再遍历c数组与d数组，在unordered_map中找0-（c+d），因为此时unordered_map中存

SuperYue37·2025-02-13 04:44

【代码随想录训练营】Day7-哈希表

代码随想录Day7今日任务454.四数相加Ⅱ383.赎金信15.三数之和18.四数之和454.四数相加Ⅱ考点：哈希表链接：https://leetcode.cn/problems/4sum-ii/classSolution{publicintfourSumCount(int[]nums1,int[]nums2,int[]nums3,int[]nums4){HashMaprecord=newHash

Koffer-debug·2025-02-13 04:14

【python 机器学习】sklearn转换器与预估器

通俗介绍：学术解释：3.转换器与预估器的共同点4.转换器与预估器的区别5.使用`sklearn`中的转换器与预估器5.1示例：数据标准化（转换器）5.2示例：模型训练与预测（预估器）6.使用`Pipeline

人才程序员·2025-02-13 03:04

畅游Diffusion数字人(16)：由音乐驱动跳舞视频生成

目录贡献概述背景挑战贡献方法详解第一阶段：外观预训练第二阶段：动态触发视频生成训练细节贡献概述背景<

沉迷单车的追风少年·2025-02-13 02:59

深度学习练手小例子——cifar10数据集分类问题

数据集被分为50,000张训练图像和10,000张测试图像。

　☆cwlulu·2025-02-12 23:39

使用云计算开发AI项目，有哪些最佳实践？

使用云计算开发AI项目，可以让企业和开发者更高效地利用算力、存储和AI训练环境，避免高昂的硬件成本和运维压力。但如何高效、经济地利用云计算，打造一个稳定、安全、可扩展的AI项目呢？

云上的阿七·2025-02-12 22:01

学习系列二：常用目标检测的格式转换脚本文件txt,json等

常用目标检测的格式转换脚本文件txt,json等文章目录常用目标检测的格式转换脚本文件txt,json等前言一、json格式转yolo的txt格式二、yolov8的关键点labelme打的标签json格式转可训练的

小啊磊_Vv·2025-02-12 21:23

Laplace(拉普拉斯)平滑

平滑技术平滑技术是为了解决训练集的数据稀松问题。零概率问题，就是在计算实例的概率时，如果某个量x，在观察样本库（训练集）中没有出现过，会导致整个实例的概率结果是0。

郑万通·2025-02-12 20:45

17.推荐系统的在线学习与实时更新

郑万通·2025-02-12 20:15

Python中LSTM算法的实现与应用

接着，教程以Keras库为例，逐步演示了安装库、数据预处理、模型构建、编译、训练、评估和预测等步骤。深入讲解了在序列数据处理如自然语言和时间序列预测任务中的实际应用，并提供了实践案例，强

昊叔Crescdim·2025-02-12 19:01

100.16 AI量化面试题：监督学习技术在量化金融中的应用方案

目录0.承前1.解题思路1.1应用场景维度1.2技术实现维度1.3实践应用维度2.市场预测模型2.1趋势预测2.2模型训练与评估3.风险评估模型3.1信用风险评估4.投资组合优化4.1资产配置模型5.回答话术

AI量金术师·2025-02-12 18:28

DeepSeek计算机视觉（Computer Vision）基础与实践

DeepSeek提供了强大的工具和API，帮助我们高效地构建和训练计算机视觉模型。本文将详细介绍如何使用DeepSeek进行计算机视觉的基础与实践，并通过代码示例帮助你掌握这些技巧。

Evaporator Core·2025-02-12 18:27

上海站 | 2025 Seeed x LeRobot 具身智能黑客松报名开启！

SeeedxLeRobot具身智能黑客松现邀请所有对在机器人领域训练模仿学习策略，并实时进行推理部署感兴趣的人，共同创造具有影响力的创新解决方案。

·2025-02-12 18:01

提升语言模型性能的关键策略

标题：提升语言模型性能的关键策略文章信息摘要：提升语言模型性能的关键在于预训练数据的规模和质量、模型架构的优化以及模型与数据的平衡。单纯增加模型参数规模并不能持续带来性能提升，性能提升会逐渐趋于平缓。

XianxinMao·2025-02-12 18:25

云原生周刊：DeepSeek 颠覆人工智能

它支持直接在本地计算机上运行多个预训练的语言模型，能够提供与云端类似的体验，但无需依赖外部服务器或网络连接。

KubeSphere 云原生·2025-02-12 18:54

AI应用完整加载数据集配置神经网络配置训练信息训练模型与保存模型到本地------AI

packagecom.alatus.djl.web;importai.djl.Application;importai.djl.MalformedModelException;importai.djl.Model;importai.djl.basicdataset.cv.classification.ImageFolder;importai.djl.basicdataset.cv.classifi

旧约Alatus·2025-02-12 18:54

普惠AI 如何在 Anolis OS 8 上部署生产可用的 DeepSeek 推理服务

背景介绍DeepSeek-R1DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。

·2025-02-12 17:52

JavaCV进阶opencv图像处理：扫描并识别视频中的二维码

识别系列目录人脸检测识别JavaCV进阶opencv图像处理：摄像头图像人脸检测JavaCV进阶opencv图像处理：ffmpeg视频图像画面人脸检测JavaCV进阶opencv图像处理：批量人脸图像分类训练

eguid_1·2025-02-12 17:50

嵌入式AI革命：DeepSeek开源如何终结GPU霸权，开启单片机智能新时代？

相对于当人们还在讨论千亿参数模型的训练成本被压缩到600万美金而言，被称作“核弹级别”的操作，是DeepSeek的完全开源。

老六哥_AI助理指南·2025-02-12 16:09

llama3简介与国内最快体验方式

Meta公司研发并推出了MetaLlama3系列大型语言模型（LLMs），该系列包括8B和70B参数量的预训练及指令调优生成文本模型。

weixin_40941102·2025-02-12 15:08

深入解析ReLU激活函数的优缺点及其平衡策略

影响：这有助于模型更快地收敛，因为梯度不会因为负值而减小，从而避免负向因素对模型训练的不良影响。结论：这使得

weixin_40941102·2025-02-12 15:08

深度学习语义分割实战：ResNet 与 ViT 结合的模型解析

本文将详细解析该模型的架构、训练流程及其应用。2.语义分割模型解析本项目采用ResNet和ViT结合的方式进行语义分割，并使用CBAM注意力机制增强特征提取能力。涉及的核心文件

高山仰星·2025-02-12 15:06

亚马逊云科技Bedrock知识库自定义语义搜索配置教程

给知识库挂载额外的数据有助于模型生成更相关、基于上下文的准确响应，而无需重新训练AI模型。

佛州小李哥·2025-02-12 13:57

DeepSeek-V3：模型与权重全面解析

DeepSeek-V3是一款开创性的混合专家（Mixture-of-Experts,MoE）语言模型，以其创新的架构设计、高效的训练方法和卓越的性能，成为开源大语言模型领域的标杆。

步子哥·2025-02-12 11:13

DeepSeek V3 两周使用总结

官方宣称：（1）基于自研的MoE模型和671B参数，在14.8Ttoken上进行了预训练；（2）多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405

AI生成曾小健·2025-02-12 11:12

一文带大家了解DeepSeek不同版本 1.5B、7B、14B、32B、70B的含义以及应用场景

1.参数量的意义参数量：指模型中可训练的参数总数，包括权重和偏置等。单位：-1B=10亿参数-7B=70亿参数-70B=700亿参数2.不同版本的特点版本参数

测试开发Kevin·2025-02-12 10:10

pytorch深度学习模型推理和部署、pytorch&ONNX&tensorRT模型转换以及python和C++版本部署

engine文件3.2tensorrt推理4.采用tensorrt进行推理（c++环境）5.采用torch2trt进行推理（python环境）在pytorch框架下，可以很方便进行深度学习模型的搭建、训练和保存

机械心·2025-02-12 10:40

如何从零开始，训练AI大模型？零基础入门到精通，收藏这一篇就够了

导读大模型作为目前最前沿的技术，是如何开发或者训练出来的呢。本文就为大家总结了大模型训练各阶段的最新技术方法，希望对大家有所帮助。1背景根据scalinglaw，模型越大，高质量数据越多，效果越好。

网络安全大白·2025-02-12 10:09

推荐频道

训练总结报告

DeepSeek使用手册，其中一份是清华大学出品

conda 装tensorboardx_【工欲善其事】TensorboardX的使用

具身智能训练新思路！将生成视频用于训练机器人

从零开始大模型开发与微调：Miniconda的下载与安装

如何避免交叉验证中的数据泄露？

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

从零开始构建一个大语言模型-第七章第一节

基于深度学习的半导体检测与预测算法研究(二)

基于深度学习的半导体算法原理及应用

模型应用管理的成功之道：策略、工具与团队协作

DeepSeek-V2 论文解读：混合专家架构的新突破

Kivy教程大全之 使用 NumPy 和 Kivy 对 Android 设备进行图像分类

【人工智能】Python中的深度学习优化器：从SGD到Adam

线性回归、逻辑回归及SVM

【AI】人工智能没那么神秘！

大语言模型的分类及本地部署所需的硬件配置要求

硅基流动多模型工作流应用平台，免费2000万Token来了

AnyPlace：学习机器人操作的泛化目标放置

算法训练Day7| LeetCode454. 四数相加II(Map作哈希表）；383.赎金信(数组作哈希表）；15.三数之和(双指针)；18.四数之和(双指针)

代码随想录算法训练营Day07 | LeetCode454.四数相加II、LeetCode383.赎金信、LeetCode15.三数之和、LeetCode18.四数之和

【代码随想录训练营】Day7-哈希表

【python 机器学习】sklearn转换器与预估器

畅游Diffusion数字人(16)：由音乐驱动跳舞视频生成

深度学习练手小例子——cifar10数据集分类问题

使用云计算开发AI项目，有哪些最佳实践？

学习系列二：常用目标检测的格式转换脚本文件txt,json等

Laplace(拉普拉斯)平滑

17.推荐系统的在线学习与实时更新

Python中LSTM算法的实现与应用

100.16 AI量化面试题：监督学习技术在量化金融中的应用方案

DeepSeek计算机视觉（Computer Vision）基础与实践

上海站 | 2025 Seeed x LeRobot 具身智能黑客松报名开启！

提升语言模型性能的关键策略

云原生周刊：DeepSeek 颠覆人工智能

AI应用完整加载数据集配置神经网络配置训练信息训练模型与保存模型到本地------AI

普惠AI 如何在 Anolis OS 8 上部署生产可用的 DeepSeek 推理服务

JavaCV进阶opencv图像处理：扫描并识别视频中的二维码

嵌入式AI革命：DeepSeek开源如何终结GPU霸权，开启单片机智能新时代？

llama3简介与国内最快体验方式

深入解析ReLU激活函数的优缺点及其平衡策略

深度学习语义分割实战：ResNet 与 ViT 结合的模型解析

亚马逊云科技Bedrock知识库自定义语义搜索配置教程

DeepSeek-V3：模型与权重全面解析

DeepSeek V3 两周使用总结

一文带大家了解DeepSeek不同版本 1.5B、7B、14B、32B、70B的含义以及应用场景

pytorch深度学习模型推理和部署、pytorch&ONNX&tensorRT模型转换以及python和C++版本部署

如何从零开始，训练AI大模型？零基础入门到精通，收藏这一篇就够了

Kivy教程大全之使用 NumPy 和 Kivy 对 Android 设备进行图像分类