暑期训练第5页

DeepSeek Coder 填空任务在代码生成和补全中具体是如何实现的？

DeepSeekCoder在代码生成和补全中的实现主要依赖于其强大的预训练机制和特定的训练任务设计。

百态老人·2025-02-11 10:09

DeepSeek-v3笔记(1)

它主要解决不同routeexpert训练不平衡问题，思路就是谁训得少了就把谁被选中的概率抬高。至于MLA

蒸土豆的技术细节·2025-02-11 09:06

算法训练day51Leetcode139.单词拆分多重背包了解背包问题总结

139.单词拆分.-力扣（LeetCode）题目分析初始化：初始化一个布尔型向量dp，大小为s.size()+1，所有值初始化为false，除了dp[0]被设置为true。这个布尔数组代表字符串s[0..i]能否通过拼接字典中的单词来形成。dp[0]=true的原因是一个空字符串总是可以被形成。转换wordDict：输入的wordDict被转换成一个无序集合wordset，以便高效查找单词。动态规

dc爱傲雪和技术·2025-02-11 09:36

人工智能在制造业的具体应用案例-总纲

模型训练：使用ML.NET或TensorFlow.NET训练回归模型，预测设备剩余寿命。实时预测：将模型部署到C

局外人_Jia·2025-02-11 09:05

【代码随想录训练营】【Day05休息】【Day06】第三章｜哈希表｜哈希表理论基础｜242.有效的字母异位词｜349. 两个数组的交集｜202. 快乐数｜1. 两数之和

哈希表理论基础总结：当我们遇到了要快速判断一个元素是否出现在集合里或者重复出现时，就要考虑哈希法。哈希法是用空间换时间的方法，因为我们要使用额外的数组，set或者是map来存放数据，才能实现快速的查找。更多有关哈希表的理论基础可查阅：《代码随想录》哈希表理论基础242.有效的字母异位词题目详细：LeetCode.242当两个字符串具有以下特点时，则称它们互为字母异位词：字符串的长度相等字符串中的每

蚝油菜花·2025-02-11 09:35

『大模型笔记』国外大神对DeepSeek R1的科普！

时间线推理与Agent推理模型≠Agent推理为什么重要推理需要变得廉价R1的重要意义AI的发展走势预训练规模扩张的路走不通了推理阶段的规模定律缩小模型体量（新的规模定律？）强化学习（新的规模定律？）

AI大模型前沿研究·2025-02-11 09:02

[机缘参悟-233]：从人工智能的角度上看：神经网络模型确定的情况下，训练的数据决定了神经网络的权重，预测的准确性取决于训练的数据。这既称为经验，也称为成见，也称为认知。

前言：从人工智能的角度上看：神经网络模型确定的情况下，训练的数据决定了神经网络的权重，预测的准确性取决于训练的数据。

文火冰糖的硅基工坊·2025-02-11 09:31

深度学习｜表示学习｜Batch Normalization 详解：数学、代码与经验总结｜22

如是我闻：在深度学习模型中，BatchNormalization（简称BN）是一种常用的技术，能有效加速训练并提高模型的稳定性。

漂亮_大男孩·2025-02-11 08:56

TensorFlow 学习笔记--基础文本分类

这笔记里代码里都改过来了文章目录电影评论文本分类导入库下载IMDB数据集加载数据集对训练数据进行预处理创建神经网络模型编译模型训练模型评估模型导出模型对新数据进行预测参考：[基本文本分类](htt

小陈加油中····2025-02-11 08:55

Transformer 的辉煌与大模型方向确立，点燃AGI之火把

DeepSeek-V3，指明下一个阶段大模型发张方向，破壁：资金壁垒：训练成本降低，适配丰富硬件，总过进一步降低资金需求。

dingcb168·2025-02-11 07:47

AI知识库和全文检索的区别

1.2知识推理逻辑推理：通过知识图谱或预训练模型，AI知识库可以进行逻辑推理，回答复杂问题。多跳推理：能够从多个数据源中提取信息，综合生成答案。1.

xixingzhe2·2025-02-11 07:44

如何通过腾讯 ima.copilot 训练自己的知识库

如何通过腾讯ima.copilot训练自己的知识库在信息爆炸的时代，拥有一个专属的知识库，能让我们在学习、工作中快速获取所需信息，极大地提升效率。

老黄浅谈质量·2025-02-11 07:13

增强具身基础模型的通用动作

在多样化的互联网规模数据上进行训练是近期大型基础模型成功的关键因素。然而，使用相同的方法构建具身智体面临着明显的困难。

硅谷秋水·2025-02-11 04:25

一文搞定多种Deepseek R1 部署方法，总有一款适合你

它不仅在数学、编程、自然语言推理等任务上全面对标甚至超越了OpenAI的o1，而且训练成本仅

sznormal·2025-02-11 04:21

DeepSeek R1为什么能

DeepSeekR1模仿人类思考方式的核心在于其纯强化学习训练方式，这种方式更接近人类通过试错和反馈来学习的过程。与GPT等传统模型依赖大量标注数据进行监督学习不同，Dee

森焱森·2025-02-11 03:48

【AI学习】LLM的发展方向

Scalinglaw，以前主要集中在LLM的预训练方面。一段时间有个说法，

bylander·2025-02-11 03:47

【AI学习】DeepSeek为什么强？

四个方面：模型的智能水平、训练成本、推理成本和用户体验。一、DeepSeek的智能水平DeepSeekV3的智能水平，技术报告展现的性能对比图：是什么导致了DeepSeek的模型性能，是模型架构吗？

bylander·2025-02-11 03:17

k折交叉验证（k-fold Cross-validation）

交叉验证，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。

向大厂出发·2025-02-11 03:43

Kfold交叉验证心得

因为k越大我们验证的次数就越多，最后取出来的平均数越能代表训练模型的准确度。但是k是需要在一个限度之内的。k太大有两个坏处。1.容易给机器造成过重负担，花费大量时间。

野营者007·2025-02-11 02:41

GEE训练教程——基于sentinel-1数据的筛选和可视化操作

rightValue,rightField,leftValue)Arguments:Returns:FilterupdateMask(mask)Arguments:Returns:Image代码解释代码结果简介GEE训练教程

此星光明·2025-02-11 02:11

GEE 训练教程——基于全球人口数据、夜间灯光数据和sentinel-2数据的可视化

VCMCFG函数ee.Filter.inList(leftField,rightValue,rightField,leftValue)Arguments:Returns:Filter代码解释代码结果简介GEE训练教程

此星光明·2025-02-11 02:41

GEE 训练教程——基于Sentinel-2数据的SAVI 和 NDVI 图层添加到地图上的可视化分析

目录简介指数函数expression(expression,map)Arguments:Returns:Image代码解释代码结果简介GEE训练教程——基于Sentinel-2数据的SAVI和NDVI图层添加到地图上的可视化分析指数

此星光明·2025-02-11 02:40

RLHF代码解读

参考资料参考资料代码RLHF训练流程SFT 将人类打好标签的数据输入到一个预训练的模型，进行languagemodeling。

木木木马马·2025-02-11 00:25

大模型入门（六）—— RLHF微调大模型

2）训练奖励模型奖励模型是输入一个文本序列，模型给出符合人类偏好的奖励数值，这个奖励数值对于后面的强化学习训练非常重要。构建奖励模型的训练数据一般是同一个数据用不同的语言模型生成结果，然后人工打分。

LLM.·2025-02-10 23:17

DeepSeek联邦学习（Federated Learning）基础与实践

联邦学习（FederatedLearning,FL）是一种在分布式环境中训练模型的技术，允许多个设备或节点在不共享原始数据的情况下协同训练模型。

Evaporator Core·2025-02-10 23:44

DeepSeek自监督学习基础与实践

自监督学习（Self-SupervisedLearning,SSL）是一种利用未标注数据进行模型训练的技术。

Evaporator Core·2025-02-10 23:43

AI 场景下，函数计算 GPU 实例模型存储最佳实践

作者：有松当前，函数计算FC已被广泛应用在各种AI场景下，函数计算支持通过使用容器镜像部署AI推理应用，并且提供多种选项来访问训练好的模型。

·2025-02-10 23:53

使用U-Net处理Postdam数据集进行语义分割任务如何从准备数据到训练和评估一个基于U-Net的模型。训练使用遥感影像分析研究语义分割数据集

使用U-Net处理Postdam数据集进行语义分割任务如何从准备数据到训练和评估一个基于U-Net的模型。

计算机C9硕士_算法工程师·2025-02-10 22:07

Neural Radiance Fields (NeRF) 和 3D Gaussian Splatting区别

它通过训练一个神经网络来预测给定3D位置和观察

鬼马行天·2025-02-10 19:44

“轻松上手！5分钟学会用京东云打造你自己的专属DeepSeek”

\#从第⼀步骤到第四步骤是完成DeepSeek本地部署和使⽤,可以满⾜中⼩企业环境的稳定使⽤,第五步骤为基于AnythingLLM和本地数据进⾏训练(基于本地数据搭建本地知识库):⼀：京东云GPU云主机环境准备

·2025-02-10 18:11

深度学习-医学影像诊断

我们将构建一个简单的卷积神经网络（CNN）模型，使用公开的肺炎X光影像数据集进行训练和评估。

小赖同学啊·2025-02-10 18:37

【AI论文】LIMO：推理中少即是多

传统观点认为，复杂的推理任务需要大量的训练数据（超过10万例）。然而，我们证明，令人惊讶的是，仅需极少的示例就能有效激发复杂的数学推理能力。

东临碣石82·2025-02-10 16:55

2025最新ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研应用

这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。

梦想的初衷~·2025-02-10 16:53

【资料分享】清华大学《DeepSeek：从入门到精通》官方指南：解锁AI时代的核心生产力工具

这份104页的指南不仅是一本工具手册，更是一部AI思维训练指南，涵盖从基础操作到高阶提示语设计

灵犀拾荒者·2025-02-10 16:22

【果树农药喷洒机器人】Part5：实例分割模型训练与试验分析

原创文，转载请注明出处文章目录一、试验环境二、模型训练三、试验结果与分析3.1模型结构优化的有效性分析3.2与其他实例分割模型的比较分析总结一、试验环境本章试验在Wind

嵌小超·2025-02-10 14:37

DeepSpeed 在三台T4卡上部署deepseek-r1:32b

如果你只需要使用DeepSpeed在三台T4卡上部署deepseek-r1:32b模型进行推理，而不进行训练，可以按照以下步骤进行部署。推理部署的重点是利用多台机器和多块GPU来加速模型的推理过程。

MonkeyKing.sun·2025-02-10 14:33

ProtoBuf 官方文档（二）- 语法指引（proto2）

翻译查阅外网资料过程中遇到的比较优秀的文章和资料，一是作为技术参考以便日后查阅，二是训练英文能力。

n大橘为重n·2025-02-10 13:27

《具身智能时代：机器人具身抓取技术的前沿探索与应用综述》

自2022年GPT等大模型的爆发以来，人工智能领域以语言模型为代表的预训练模型在多个领域掀起了创新浪潮。

笑傲江湖2023·2025-02-10 13:53

openssl源码编译输出库-guidance-傻瓜式教程

快速链接:.个人博客笔记导读目录(全部)付费专栏-付费课程【购买须知】:密码学实践强化训练–【目录】目标：下载openssl源码编译输出目标版本，例如使用AndroidNDK编译输出Android使用的

代码改变世界ctw·2025-02-10 13:53

deepseek和chatgpt能力对比

如果你是对比DeepSeek与OpenAI（如GPT-4）、Claude、Gemini之类的模型，以下是一些可能的优劣点：优点：中文优化较好：相比一些主要基于英文训练

分享是一种传递，一种快乐·2025-02-10 12:51

DeepSeek和ChatGPT的优劣或者区别（答案来DeepSeek和ChatGPT）

DeepSeek的答案DeepSeek与ChatGPT作为当前两大主流AI模型，在架构设计、性能表现、应用场景等方面存在显著差异，以下从多个维度进行对比分析：一、架构与训练效率架构设计DeepSeek：

笑傲江湖2023·2025-02-10 12:45

一切皆是映射：量子机器学习与传统元学习的融合

然而，AI仍然面临着一些瓶颈，例如：数据依赖性:AI模型通常需要大量的训练数据才能达到良好的性能，而获取和标注这些数据往往成本高昂。

AI天才研究院·2025-02-10 11:41

做了一款学英语的插件，解锁了学英语的新姿势：边刷网页边学单词

2301_78234743·2025-02-10 10:04

神经网络的训练过程详解

在深度学习领域中，训练一个神经网络是一项复杂但系统的工作过程。下面将从基本概念到具体步骤逐步阐述神经网络的训练方法一、神经网络的基本概念神经网络的结构输入层：接收外部数据，通常为多维向量。

西洲啊·2025-02-10 10:31

使用accumulate step节省显卡内存

使用前提：单卡，模型+batch=1的数据能跑起来使用accumulatestep的意思就是，每次forward较小的batch，如batch=4，每4steps再更新一次参数，训练结果等效于batch

前程似锦蝈蝈·2025-02-10 09:57

ai大模型学习和实践

1.3以下方法被用于处理序列数据的是1.4注意力机制是什么2、变革里程碑：transformer的崛起2.1Transformer模型和注意力机制的关系2.2Transformer模型和注意力机制在数据训练上有差异

编程ID·2025-02-10 07:26

基于yolo的自定义模型训练

YOLOv8自定义模型训练全流程指南，包含数据准备、标注、训练的详细步骤和可视化说明一、数据准备流程图graphTDA[拍摄商品照片]-->B[数据标注]B-->C[划分数据集]C-->D[配置YAML

阿拉斯攀登·2025-02-10 06:18

打造智能体育赛事分析：YOLO目标检测系统详解

2.项目目标构建一个能够自动检测体育赛事中的目标的系统实现一个用户友好的UI界面使用YOLOv8/v7/v6/v5模型进行检测提供完整的训练数据集二、环境准备

A等天晴·2025-02-10 06:17

人工智能应用-智能驾驶精确的目标检测和更高级的路径规划

1.环境准备首先，确保安装了以下库：pipinstalltensorflowopencv-pythonnumpymatplotlib2.目标检测（使用预训练的深度学习模型）目标检测可以使用预训练的深度学习模

小赖同学啊·2025-02-10 05:41

【论文精读】《Towards Deep Learning Models Resistant to Adversarial Attacks》

本文的核心贡献包括：1）定义攻击模型和扰动集以优化模型参数；2）强调网络容量对对抗鲁棒性的影响；3）提出对抗训练作为提升模型鲁棒性的关键方法。本文为深度学习模型的对抗鲁

智算菩萨·2025-02-10 03:25

推荐频道

暑期训练