程序员思维训练第5页

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化

一个处女座的程序猿·2025-03-22 14:43

windows使用ssh-copy-id命令的解决方案

双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。

爱编程的喵喵·2025-03-22 14:40

DeepSpeed-Chat：Reward Model【奖励模型】

但是，RM和SFT微调之间存在几个关键差异：训练数据差异：对于SFT微调，数据是查询（query）和答案（answer）拼接在一起。

u013250861·2025-03-22 13:31

【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践

本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解

蒙娜丽宁·2025-03-22 13:29

思维导图代码示例（java 架构)

CALL_FORM,NEW_FORM和OPEN_FORM之间的区别在OracleForms中，CALL_FORM、NEW_FORM和OPEN_FORM是用于管理和启动表单的不同命令。每个命令的行为和用途都有所不同，理解它们的区别对于正确构建和管理Forms应用程序非常重要。1.CALL_FORM定义：调用并运行另一个表单，但不会关闭当前表单。被调用的表单以模式对话框的形式显示，即用户必须完成或取消

用心去追梦·2025-03-22 12:24

从零搭建Pytorch模型教程（七）单机多卡和多机多卡训练

前言本文主要介绍单机多卡训练和多机多卡训练的实现方法和一些注意事项。其中单机多卡训练介绍两种实现方式，一种是DP方式，一种是DDP方式。

AI大模型探索者·2025-03-22 12:50

PyTorch基础知识讲解（一）完整训练流程示例

文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型

苏雨流丰·2025-03-22 12:20

【机会约束、鲁棒优化】机会约束和鲁棒优化研究优化【ccDCOPF】研究（Matlab代码实现）

‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。

科研_G.E.M.·2025-03-22 11:48

yolov8实战第七天——pyqt5-yolov8实现车牌识别系统（参考论文（约7000字）+环境配置+完整部署代码+代码使用说明+训练好的模型）

基于pyqt5-yolov8实现车牌识别系统，包括图片车牌识别，视频车牌识别，视频流车牌识别。效果展示（图片检测，检测到的内容添加到历史记录）：效果展示（视频检测，视频车辆只会添加一条记录，下文更多实际应用中的优化策略）：新增功能：批量图片检测（2024/5/7更新代码）

学术菜鸟小晨·2025-03-22 11:48

基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Matlab代码实现）

欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。

创新优化代码学习·2025-03-22 11:47

TensorFlow和Pytorch在功能上的区别以及优势

优点是性能优化更高效，适合大规模分布式训练和生产环境部署。缺点是调试相对复杂，因为计算图的构建和运行是分离的。PyTorch：使用动态计算图（DynamicGraph）。

Honeysea_70·2025-03-22 10:09

Java复习路线

Java复习1、Java基础2、Java多线程3、Javaweb的复习4、MySql复习数据库常用的代码：思维导图：5、计算机组成原理6、网络编程7、Java注解和反射8、计算机网络9、html/css

Code good g·2025-03-22 10:31

2025年零基础入门学网络安全（详细），看这篇就够了

基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员（以编程为基础的学习）再开始学习我在之前的回答中，我都一再强调不要以编程为基础再开始学习网络安全

网安大师兄·2025-03-22 10:00

美团-测开

而且思维要活跃，能够构建一些测试体系。分析产品需求，参考技术方案，指定合理高效的测试方案，编写清晰的测试用例发现、定位、跟踪产品缺陷，协同开发解决问题开发高效的自动化测试工具

陈陈爱java·2025-03-22 09:29

【C++】C++类

文章目录面向对象程序设计思想类概述类的声明与定义类的实现对象的声明面向对象程序设计思想面向对象是一种符合人类思维习惯的程序设计思想。现实生活中存在各种形态不同的事物，这些事物之间存在着各种各样的联系。

梵刹古音·2025-03-22 09:55

Pytorch使用手册-DCGAN 指南（专题十四）

我们将训练一个生成对抗网络（GAN），在给它展示大量真实名人照片后，它能够生成新的“名人”图片。

AI专题精讲·2025-03-22 08:43

用故事与视觉化打造“高光“统计报告：5个实战技巧

本文将带你用叙事经济学+视觉设计思维，把冷冰冰的数据变成让人欲罢不能的"数据故事会"，掌握让数据开口说话的秘密。

梦想画家·2025-03-22 07:03

蓝桥杯动态规划实战：从数字三角形到砝码称重

适合人群：蓝桥杯备考生|算法竞赛入门者|DP学习实践者目录一、我的动态规划入门之路1.数字三角形：经典DP首战告捷2.砝码称重：背包问题的变形二、蓝桥杯高频算法考点三、蓝桥杯DP专项训练题四、备考建议一

藍海琴泉·2025-03-22 06:22

【AI大模型应用开发】【RAG评估】0. 综述：一文了解RAG评估方法、工具与指标

微信公众号也可搜【同学小张】本站文章一览：前面我们学习了RAG的基本框架并进行了实践，我们也知道使用它的目的是为了改善大模型在一些方面的不足：如训练数据不全、无垂直领域数据、容易出现幻觉等。

同学小张·2025-03-22 05:43

【论文阅读】PERSONALIZE SEGMENT ANYTHING MODEL WITH ONE SHOT

PERSONALIZESEGMENTANYTHINGMODELWITHONESHOT原文摘要研究背景与问题：SAM是一个基于大规模数据预训练的强大提示框架，推动了分割领域的发展。

s1ckrain·2025-03-22 04:42

DeepSeek-R1核心技术深度解密：动态专家网络与多维注意力融合的智能架构实现全解析

DeepSeek-R1智能架构核心技术揭秘：从动态路由到分布式训练的完整实现指南一、DeepSeek-R1架构设计原理1.1动态专家混合系统DeepSeek-R1采用改进型MoE（MixtureofExperts

Coderabo·2025-03-22 04:41

代码随想录算法训练营第八天| 344 反转字符串、541 反转字符串II

这两天开的是字符串专题，我准备在做题的时候用C++做一遍，再用C做一遍，因为一直刷leetcode用的都是C++，导致C的基础太薄弱了，之后工作中有可能用到C，相当于再复习复习一、Leetcode344反转字符串题目链接：Leetcode344反转字符串这道题很简单，这才是真正的简单题voidreverseString(char*s,intsSize){intleft=0,right=sSize-

Anjoubecoding·2025-03-22 04:33

大神之路

首先申明，文章是我在码农网摘过来的，那里没有分享，我感觉程序员也需要鸡汤，或者说这篇文章更应该是一篇一个过来人的经验，以及对我们这些想学计算机或者其他各行各业的人的一个简单的阐述。

安卓工匠·2025-03-22 04:33

利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析

随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。

快撑死的鱼·2025-03-22 02:45

【Java学习日记6】：字面量的分类与使用

字面量就是告诉程序员:数据在程序中的书写格式.---二、字面量的分类Java中的字面量按数据类型可分为以下六类：类型说明示例整数类型不带小数点的数字123,-456小数类型带小数点的数字3.1

小蛋6g·2025-03-22 01:42

【致100位技术同路人：代码无边界，GIS×编程的双向奔赴！】

✨破百节点亮起的不只是GISer，还有无数程序员伙伴的坐标！感谢你们的关注，是你们的每一次的让这些文章有了生命力，每一次的都化作我深夜调试的动力。

喆星时瑜·2025-03-22 00:31

深度优先搜索（DFS）完全解析：从原理到 Java 实战

深度优先搜索（DFS）完全解析：从原理到Java实战@TOC作为一名程序员，你是否遇到过需要在复杂的图结构中寻找路径、检测环，或者进行树遍历的问题？

my_realmy·2025-03-21 23:26

《今日AI-人工智能-编程日报》-源自2025年3月21日

小亦编辑部·2025-03-21 22:16

不会用AI大模型的程序员，5年后必将被淘汰？真相远比你想的更残酷！

前言在技术飞速发展的今天，AI大模型已经成为程序员技能库中的“标配”。如果你还认为AI只是“锦上添花”的工具，那么5年后，你可能真的会被时代无情淘汰。这不是危言耸听，而是技术变革的必然趋势。

小城哇哇·2025-03-21 22:15

【AI 天才研究院】从 MoE 架构到 AGI：DeepSeek 将给未来带来哪些影响？

FP8低精度训练：DeepSeek采用了FP8

AI天才研究院·2025-03-21 22:40

凌晨三点的代码和引擎轰鸣声

直到阿杰甩来一张海报——黑底荧光绿字刺破视网膜："CISHOWGTSHOW，程序员特别通道，票免费送。"01被编译器耽误

·2025-03-21 21:56

解析稳定率达99.99%！合合信息“大模型加速器2.0”助力AI打破“幻觉”

训练数据是影响大模型“认知能力”的关键要素，近期，上海合合信息科技股份有限公司（简称“合合信息”）TextIn“大模型加速器2.0”版本正式上线，基于领先的智能文档处理技术，对复杂文档的版式、布局和元素进行精准解析及结构化处理

·2025-03-21 21:56

AlphaFolding填补蛋白质动态结构预测空白！复旦大学等提出4D扩散模型，成果入选AAAI 2025

然而，当DanielKoshland提出酶与底物结合时会发生构象变化的观点后，传统思维开始受到挑战。1980年代，分子动力学模拟(MolecularDynamics,MD)兴起，首次从计算角度揭示了

HyperAI超神经·2025-03-21 19:16

【深度学习】DeepSeek模型介绍与部署

为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。

Nerous_·2025-03-21 19:15

低代码+AI竟让程序员摸鱼接私单月入5W！

目录一、引言：开启低代码+AI新时代二、DeepSeek与低代码、AI的关联（一）DeepSeek简介（二）低代码开发概述（三）AI赋能低代码三、低代码+AI开启私单赚钱大门（一）成功案例剖析（二）私单项目类型（三）赚钱模式解析四、实战：利用DeepSeek接私单（一）工具准备与环境搭建（二）需求分析与项目规划（三）低代码开发实战（四）AI技术融合应用（五）项目测试与交付五、挑战与应对策略（一）技

工业甲酰苯胺·2025-03-21 18:07

【nnUnetv2】Code复现

相反的，把重心放在：预处理（resampling和normalization）、训练（loss，optimizer设置、数据增广）、推理（patch-based策略、test-time-augmentations

是Winky啊·2025-03-21 18:35

决策树算法及其python实例

每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),

m0_74831463·2025-03-21 17:57

大模型在冠心病风险预测及临床方案制定中的应用研究

国内外研究现状1.3研究方法与创新点二、大模型预测冠心病风险原理与方法2.1数据收集与预处理2.1.1数据来源2.1.2数据清洗与整理2.2特征工程2.2.1特征提取2.2.2特征选择与优化2.3模型选择与训练

LCG元·2025-03-21 17:27

目标检测中归一化的目的？

这使得模型在训练和推理时能够处理任意尺寸的图像，而不需要关心图像的具体像素尺寸。2.位置和尺寸的相对性归一化后的坐标和尺寸是相对于图像尺寸的，而不是绝对像素值。这种相对性使得

林语微光·2025-03-21 14:37

关于神经网络中的正则化

神经网络训练中的正则化正则化（Regularization）是神经网络训练中的一个关键技术，主要用于防止模型过拟合（overfitting），提高泛化能力。1.为什么需要正则化？

文弱_书生·2025-03-21 14:07

【布鲁姆6大认知层级】

认知思维目标层次由低到高、由简到繁分为六个层次，层层递进，这6个层级分别是：记忆——理解——应用——分析——评价——创新。

搞技术的季·2025-03-21 14:02

yum install locate出现Error: Unable to find match: locate解决方案

双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。

爱编程的喵喵·2025-03-21 13:28

一、大语言模型微调 vs. 大语言模型应用

一、大语言模型微调vs.大语言模型应用1.微调（Fine-Tuning）的含义与特点定义与作用微调指在预训练好（通用）的基础模型上，通过在特定领域或任务的数据集上进一步训练来调整模型参数，使其在该领域任务中获得更优表现

AI Echoes·2025-03-21 13:54

ollama 基本使用教程

目录1.安装OllamamacOS或LinuxWindows(WSL2)2.基础命令启动与停止更新Ollama3.模型管理下载预训练模型运行模型查看已安装模型删除模型从Modelfile创建自定义模型4

海上彼尚·2025-03-21 12:17

办公提效高阶 DeepSeek 提示词，适用于多种 AI 工具

1、高效会议管理请根据[会议主题]和[参会人角色]生成会议议程框架，包含会前准备清单（背景材料/数据需求）、会中讨论要点（需决策事项+时间分配）、会后跟进任务表（责任人/DDL），最后用思维导图形式输出

东锋17·2025-03-21 12:14

【C++】C++从入门到精通教程（持续更新...）

以下是更新的文章目录，文章之后整理了一个知识思维导图，看起来比较清楚点。

废人一枚·2025-03-21 11:34

Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！）

HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。

y江江江江·2025-03-21 10:31

Open-Sora - 为所有人实现高效的视频制作大众化

小众AI·2025-03-21 10:57

2025年零基础入门学网络安全（详细），看这篇就够了

基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员（以编程为基础的学习）再开始学习我在之前的回答中，我都一再强调不要以编程为基础再开始学习网络安全

网安大师兄·2025-03-21 10:50

机器学习课堂4线性回归模型+特征缩放

一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt

木尘152132·2025-03-21 09:17

推荐频道

程序员思维训练

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混

windows使用ssh-copy-id命令的解决方案

DeepSpeed-Chat：Reward Model【奖励模型】

【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践

思维导图 代码示例（java 架构)

从零搭建Pytorch模型教程（七）单机多卡和多机多卡训练

PyTorch基础知识讲解（一）完整训练流程示例

【机会约束、鲁棒优化】机会约束和鲁棒优化研究优化【ccDCOPF】研究（Matlab代码实现）

yolov8实战第七天——pyqt5-yolov8实现车牌识别系统（参考论文（约7000字）+环境配置+完整部署代码+代码使用说明+训练好的模型）

基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Matlab代码实现）

TensorFlow和Pytorch在功能上的区别以及优势

Java复习路线

2025年零基础入门学网络安全（详细），看这篇就够了

美团-测开

【C++】C++类

Pytorch使用手册-DCGAN 指南（专题十四）

用故事与视觉化打造“高光“统计报告：5个实战技巧

蓝桥杯动态规划实战：从数字三角形到砝码称重

【AI大模型应用开发】【RAG评估】0. 综述：一文了解RAG评估方法、工具与指标

【论文阅读】PERSONALIZE SEGMENT ANYTHING MODEL WITH ONE SHOT

DeepSeek-R1核心技术深度解密：动态专家网络与多维注意力融合的智能架构实现全解析

代码随想录算法训练营第八天| 344 反转字符串、541 反转字符串II

大神之路

利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析

【Java学习日记6】：字面量的分类与使用

【致100位技术同路人：代码无边界，GIS×编程的双向奔赴！】

深度优先搜索（DFS）完全解析：从原理到 Java 实战

《今日AI-人工智能-编程日报》-源自2025年3月21日

不会用AI大模型的程序员，5年后必将被淘汰？真相远比你想的更残酷！

【AI 天才研究院】从 MoE 架构到 AGI：DeepSeek 将给未来带来哪些影响？

凌晨三点的代码和引擎轰鸣声

解析稳定率达99.99%！合合信息“大模型加速器2.0”助力AI打破“幻觉”

AlphaFolding填补蛋白质动态结构预测空白！复旦大学等提出4D扩散模型，成果入选AAAI 2025

【深度学习】DeepSeek模型介绍与部署

低代码+AI竟让程序员摸鱼接私单月入5W！

【nnUnetv2】Code复现

决策树算法及其python实例

大模型在冠心病风险预测及临床方案制定中的应用研究

目标检测中归一化的目的？

关于神经网络中的正则化

【布鲁姆6大认知层级】

yum install locate出现Error: Unable to find match: locate解决方案

一、大语言模型微调 vs. 大语言模型应用

ollama 基本使用教程

办公提效高阶 DeepSeek 提示词，适用于多种 AI 工具

【C++】C++从入门到精通教程（持续更新...）

Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！）

Open-Sora - 为所有人实现高效的视频制作大众化

2025年零基础入门学网络安全（详细），看这篇就够了

机器学习课堂4线性回归模型+特征缩放

思维导图代码示例（java 架构)