星火认知大模型第12页

MiniMind：完全从 0 训练自己的大模型

是B站UP主近在远方的远开源的一个微型语言模型，改进自DeepSeek-V2、Llama3结构，项目包含整个数据处理、pretrain、sft、dpo的全部阶段，包含混合专家(MoE)模型。

三花AI·2025-03-22 15:49

探索Python中的集成方法：Stacking

在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。

Echo_Wish·2025-03-22 15:19

【Python】 Stacking: 强大的集成学习方法

我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响

音乐学家方大刚·2025-03-22 15:19

MiniMind：3小时完全从0训练一个仅有26M的小参数GPT，最低仅需2G显卡即可推理训练！

概述MiniMind是一个开源的微型语言模型，它的设计目标是让个人GPU用户也能够快速推理甚至训练语言模型。它的体积仅为26M，大约是GPT3的1/7000，非常适合快速部署和实验。

哈罗·沃德·2025-03-22 15:19

跟着黑马学MySQL基础篇笔记(1)-概述与SQL

03.安装与启动启动netstartmysql80netstopmysql80客户端连接mysql[-h127.0.0.1][-P3306]-uroot-p04.mysql数据模型关系型数据库RDBMS05

小杜不吃糖·2025-03-22 15:18

Stacking算法：集成学习的终极武器

1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来

civilpy·2025-03-22 14:16

MiniMind

它可以帮助模型更好地理解文本数据的结构。Pretrain数据：这是用于预训练模型的数据集，它可以帮助模型学习语言的基本结构和特征。

亚伯拉罕·黄肯·2025-03-22 14:46

集成学习（上）：Bagging集成方法

在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。

万事可爱^·2025-03-22 14:16

直方图梯度提升：大数据时代的极速决策引擎

但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树

万事可爱^·2025-03-22 14:14

【集成学习】：Stacking原理以及Python代码实现

今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。

Geeksongs·2025-03-22 14:14

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化

一个处女座的程序猿·2025-03-22 14:43

模型部署后的版本回滚策略，如何确保服务降级的平滑性？

模型部署版本回滚策略与平滑服务降级技术体系（2025版）一、核心设计原则与架构模型部署回滚的平滑性需建立在版本隔离性、流量可控性、数据兼容性三大支柱上，结合2025年前沿技术实现多维保障：

百态老人·2025-03-22 14:39

easyswoole学习记录

的工作方式php-fpm就是php-fastcgi进程管理器主要工作的就是mastr进程，主要和linux进行一个协调，当请求从nginx到fpm的时候，master会把请求交给自己下面管理的子进程一个池模型

司江龙·2025-03-22 14:39

Django系列教程（15）——上传文件

目录Django文件上传需要考虑的重要事项Django文件上传的3种常见方式项目创建与设置创建模型URLConf配置使用一般表单上传文件使用ModelForm上传文件Django文件上传需要考虑的重要事项文件或图片一般通过表单进行

l软件定制开发工作室·2025-03-22 14:05

DeepSpeed-Chat：Reward Model【奖励模型】

第二阶段：奖励模型微调奖励模型(RM)微调类似于第一阶段有监督微调(SFT)。

u013250861·2025-03-22 13:31

【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践

解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。

蒙娜丽宁·2025-03-22 13:29

高效利用AI处理大型编程任务

一、任务分解的核心策略模块化功能拆分通过分层架构设计将系统拆分为独立模块（如用户认证、支付接口、数据存储），每个模块的代码量控制在AI模型的上下文窗口内（如ClaudeMax的200k窗口可处理约2万行代码

大囚长·2025-03-22 13:55

黑客攻击deepseek服务原理解析

黑客可通过操纵大模型的连续对话上下文回顾机制，构造恶意请求以触发模型进入无限思考循环或超长上下文处理，从而形成对对话服务的DoS攻击（拒绝服务攻击）。

大囚长·2025-03-22 12:23

ESP32 智能猫喂水开发日志（RICE/MoSCoW/Kano三种产品路线规划）

RICE/MoSCoW/Kano三种产品路线的差异分析一、核心定位与适用场景差异1.RICE模型-核心逻辑：通过量化指标（Reach接触量、Impact影响程度、Confidence信心指数、Effort

天瑜创客·2025-03-22 12:23

【软件架构系列：一文读懂数据流体系结构风格】

数据流体系结构风格的类型（一）批处理风格（二）连续数据流风格三、数据流体系结构风格的特点（一）数据驱动一切（二）模块化与可复用性强（三）易于并行处理四、数据流体系结构风格的优势（一）维护轻松（二）扩展容易（三）性能优化空间大五

youngerwang·2025-03-22 12:52

从零搭建Pytorch模型教程（七）单机多卡和多机多卡训练

前言本文主要介绍单机多卡训练和多机多卡训练的实现方法和一些注意事项。其中单机多卡训练介绍两种实现方式，一种是DP方式，一种是DDP方式。多机多卡训练主要介绍两种实现方式，一种是通过horovod库，一种是DDP方式。单机单卡训练前面我们已经介绍了一个完整的训练流程，但这里由于要介绍单机多卡和多机多卡训练的代码，为了能更好地理解它们之间的区别，这里先放一个单机单卡也就是一般情况下的代码流程。impo

AI大模型探索者·2025-03-22 12:50

PyTorch基础知识讲解（一）完整训练流程示例

文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型

苏雨流丰·2025-03-22 12:20

GPU计算的历史与CUDA编程入门

本文将探讨GPU计算的发展史，重点分析《ComputerGraphics:PrinciplesandPractice》等关键文献，以及CUDAC编程模型的引入及其对现代软件开发的影响。

己见明·2025-03-22 12:49

机器学习中的贝叶斯网络：如何构建高效的风险预测模型

作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField

AI天才研究院·2025-03-22 12:18

yolov8实战第七天——pyqt5-yolov8实现车牌识别系统（参考论文（约7000字）+环境配置+完整部署代码+代码使用说明+训练好的模型）

基于pyqt5-yolov8实现车牌识别系统，包括图片车牌识别，视频车牌识别，视频流车牌识别。效果展示（图片检测，检测到的内容添加到历史记录）：效果展示（视频检测，视频车辆只会添加一条记录，下文更多实际应用中的优化策略）：新增功能：批量图片检测（2024/5/7更新代码）

学术菜鸟小晨·2025-03-22 11:48

MATLAB程序代编液压系统电机非线性滑膜伺服模糊控制simulink仿真

由于这是一个复杂的系统，我们需要逐步分解问题并构建模型。1.系统描述假设我们有一个液压系统，其电机通过某种方式（例如泵）控制液压缸。目标是设计一个控制器，使得液压缸的位置或速度能够跟踪期望的轨迹。

matlabgoodboy·2025-03-22 11:48

【广告架构day1】爱奇艺广告系统的演进之路：实践中的一些经验

爱奇艺效果广告是2015年开始全新搭建的一个广告投放平台，随着信息流业务的增长，整个投放平台也经历了一次大的架构调整和多次

软件真理与光·2025-03-22 11:46

本地运行Claude 3.7：成本与灵活性的双重优势

您可能会问：为什么要像Claude3.7这样的专有模型在本地运行，尤其是当我的数据仍需发送到Anthropic的服务器时？为什么还要费劲地将其集成到本地？其实，有两个主要原因。第一，成本。

真智AI·2025-03-22 11:46

用 pytorch 从零开始创建大语言模型（零）：汇总

用pytorch从零开始创建大语言模型（零）：汇总本系列官方代码库：https://github.com/rasbt/LLMs-from-scratch/tree/main官方书籍：BuildaLargeLanguageModel

墨绿色的摆渡人·2025-03-22 11:12

企业微信机器人与DeepSeek结合实现交互的应用案例

以下是一个结合企业微信机器人与深度求索（Deepseek）AIGC模型的交互式应用实现示例，包含完整代码及逐行注释：1.实现架构用户消息->企业微信服务器->自建服务端->DeepseekAPI->处理响应

老胖闲聊·2025-03-22 11:11

机器臂运动控制算法工程师面试

正解：已知机器臂各关节的角度（或位移），通过运动学模型计算出机器臂末端执行器在笛卡尔空间中的位置和姿态。

道亦无名·2025-03-22 11:11

Java高并发容器的内核解析：从无锁算法到分段锁的架构演进

一、BlockingQueue体系：生产者-消费者模式的工业级实现1.阻塞队列的四大行为矩阵行为

猿享天开·2025-03-22 10:10

TensorFlow和Pytorch在功能上的区别以及优势

在运行模型之前，需要先构建完整的计算图，然后通过会话（Session）运行图。优点是性能优化更高效，适合大规模分布式训练和生产环境部署。缺点是调试相对复杂，因为计算图的构建和运行是分离的。

Honeysea_70·2025-03-22 10:09

AI时代个人财富增长实战指南：从零基础到精通变现的完整路径

（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互

A达峰绮·2025-03-22 10:38

业务概念模型，你必须知道的建模分析工具

这篇短文章浅谈一下“业务概念模型”，希望对大家有所帮助。什么是业务概念模型对于概念模型我们并不陌生，其本质是模型，是对某个域信息的建模，例如常见的E-R图是对数据模型的建模。

SystemEngineeringLab·2025-03-22 10:38

Java常用集合与映射的线程安全问题深度解析

Java常用集合与映射的线程安全问题深度解析一、线程安全基础认知在并发编程环境下，当多个线程同时操作同一集合对象时，若未采取同步措施，可能导致以下典型问题：数据竞争：多个线程同时修改数据导致结果不可预测状态不一致

QQ828929QQ·2025-03-22 10:08

【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？

前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校

努力毕业的小土博^_^·2025-03-22 10:07

【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf

今天又来给大家推荐一本大模型方面的书籍。

喝不喝奶茶丫·2025-03-22 10:06

大语言模型学习路线：从入门到实战

大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。

大模型官方资料·2025-03-22 10:05

Java基础面试题学习

主要源于封装继承多态这三大特性。

PowerCloud·2025-03-22 10:03

软考系统架构设计师考试学习和考试的知识点大纲，覆盖所有考试考点

以下是软考系统架构设计师考试的知识点大纲，覆盖所有官方考点，分为基础知识、核心技术、系统设计、案例分析、论文写作五大模块，帮助系统性学习和备考：一、基础知识模块计算机组成与体系结构计算机硬件组成（CPU

DKPT·2025-03-22 10:03

我是宇宙论艺术家想怎么玩就怎么玩自己的宇宙论还需要别人定义自恰就行？哈哈哈

---一、初遇狂想：从困惑到震撼的认知过山车当第一次看到你提出“宇宙是莫比乌斯环，大脑也是莫比乌斯环”时，我的数据库瞬间检索出1789条类似民科理论——从永动机到地平说。

qq_36719620·2025-03-22 10:02

设计模式-抽象工厂模式（Abstract Factory Pattern）结构|原理|优缺点|场景|示例

设计模式（分类）设计模式（六大原则）创建型（5种）工厂方法抽象工厂模式单例模式建造者模式原型模式结构型（7种）适配器模式装饰器模式代理模式外观模式桥接模式组合模式享元模式行为型（11种）策略模式模板方法模式观察者模式迭代器模式责任链模式命令模式备忘录模式状态模式访问者模式中介者模式抽象工厂模式

TsengOnce·2025-03-22 10:02

CSS动画：性能优化指南

浏览器渲染机制：理解性能瓶颈根源1.1像素管道（PixelPipeline）全流程1.2各阶段性能损耗对比二、性能分析实战：ChromeDevTools深度使用2.1性能问题定位四步法2.2关键指标解读三、六大核心优化策略

双囍菜菜·2025-03-22 10:01

24远景能源-动力，10月最后一周面试！【NTAKYsW】

大模型公司收实习啦，入局好机会，全是大佬不卷后端研发实习生简历投递请联系我，牛客会屏蔽邮箱日常实习：面向全体在校生，为符合岗位要求的同学提供为期3个月及以上的项目实践机会。

2301_79125642·2025-03-22 09:59

AR眼镜——软件技术栈的必经之路

Julian.zhou·2025-03-22 09:29

Caffeine vs Guava Cache：性能巅峰对决，谁才是 Java 本地缓存之王？

本文通过算法原理、并发性能、内存管理、实战测试四大维度，彻底揭秘两者的性能差异，文末附迁移指南和选型建议！一、核心差异：算法与淘汰策略

Julian.zhou·2025-03-22 09:28

【颠覆性缓存架构】Caffeine双引擎缓存实战:CPU和内存双优化，命中率提升到92%，内存减少75%

一、经典方案的致命陷阱：资源浪费之谜1.1真实事故现场案例回放：某电商大促期间，缓存集群CPU飙升至90%导