模型损失函数变化曲线图第13页

MSE分类时梯度消失的问题详解和交叉熵损失的梯度推导

前文请移步笔者的另一篇博客：大模型训练为什么选择交叉熵损失（Cross-EntropyLoss）：均方误差（MSE）和交叉熵损失的深入对比MSE分类时梯度消失的问题详解我们深入探讨MSE（均方误差）的梯度特性

阿正的梦工坊·2025-03-22 21:34

使用Python和LangChain构建检索增强生成（RAG）应用的详细指南

使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。

m0_57781768·2025-03-22 21:33

学习111

项目名称项目简介主要功能技术原理GitHub地址browser-use智能浏览器工具，让AI像人类一样操作浏览器，实现网页自动化网页浏览与操作、多标签页管理、视觉识别与内容提取、操作记录与重复执行、自定义动作支持、主流LLM模型支持为大语言模型服务的创新

麋鹿叔叔·2025-03-22 21:31

使用LangChain实现基于LLM和RAG的PDF问答系统

目录前言一.大语言模型(LLM)1.什么是LLM？2.LLM的能力与特点二、增强检索生成(RAG)三.什么是LangChain？

张同学吧·2025-03-22 20:00

基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践

第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？

weixin_贾·2025-03-22 20:59

程序员学商务英语之Don‘t jinx it、l have a half mind to do sth、Don‘t change the subject、Quality over quantity..

你知道，这些天的天气变化无常!B:Don'tiinxit.i'vespentalotoftimepreparingforthiscamping.lhopeitstaysfineforthewe

李匠2024·2025-03-22 20:28

AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索

个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。

一ge科研小菜菜·2025-03-22 20:58

DeepSeek的崛起：2025新春国产AI模型的全球影响力

摘要在2025年新春之际，国产AI模型DeepSeek以现象级的姿态迅速崛起，凭借免费、易用及高性能的特点，吸引了全球科技界的广泛关注。

耶耶Norsea·2025-03-22 20:27

一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！

前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。

小城哇哇·2025-03-22 20:26

每天分析一个开源项目：open_deep_research

它模拟了OpenAI和Gemini的DeepResearch流程，但提供了更强的自定义能力，允许用户配置模型、Prompt、报告结构

申非zz·2025-03-22 20:56

ONE Deep模型：LG AI Research的开源突破

摘要由LGAIResearch开发的ONEDeep系列开源AI模型，参数规模覆盖2.4亿至32亿。经评估，2.4B参数规模的ONEDeep模型在性能上优于同类其他模型，展现出显著优势。

耶耶Norsea·2025-03-22 20:26

anythingLLM 使用教程

一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。

惟贤箬溪·2025-03-22 19:24

GitHub项目推荐--基于LLM的开源爬虫项目

以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。

惟贤箬溪·2025-03-22 19:24

深度解析大模型推理框架：原理、应用与实践

在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。

百度_开发者中心·2025-03-22 19:24

大模型推理框架：从理论到实践的全面解析

然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。

百度_开发者中心·2025-03-22 19:23

毕业论文代码实验（Python\MATLAB）基于K-means聚类的EMD-BiLSTM-Attention光伏功率预测模型

但受天气突变、云层遮挡等因素影响，光伏出力具有显著波动性，导致：电网调度难度增加（±15%功率波动）电力市场交易风险提升光储协同控制效率降低1.2技术挑战多尺度特征耦合：分钟级辐照度变化与小时级天气模式共存非线性映射关系

清风AI·2025-03-22 19:51

DeepSeek 部署指南 (使用 vLLM 本地部署)

DeepSeek部署指南(使用vLLM本地部署)本文档将指导您如何使用vLLM在本地部署DeepSeek语言模型。

AGI大模型资料分享员·2025-03-22 19:51

CSS特效花样鼠标悬停效果

CSS特效花样鼠标悬停效果鼠标悬停效果概述基本概念与作用示例一：基本的颜色变化代码解释示例二：渐变背景色代码解释示例三：放大与阴影效果代码解释示例四：文字提示代码解释示例五：旋转和翻转代码解释实际工作中的使用技巧在现代

DTcode7·2025-03-22 19:50

CSS实现当鼠标悬停在一个元素上时，另一个元素的样式发生变化的效果

CSS可以实现当鼠标悬停在一个元素上时，另一个元素的样式发生变化的效果。

Wiktok·2025-03-22 19:17

LLM-Agent方法评估与效果分析

1.引言近年来，随着大型语言模型（LLM）的快速发展，基于强化学习（RL）对LLM进行微调以使其具备代理（Agent）能力成为研究热点。

·2025-03-22 18:50

5、Spring Boot 3.x 集成 RabbitMQ

一、前言本篇主要是围绕着SpringBoot3.x与RabbitMQ的集成，这边文章比较简单，RabbitMQ的集成没有太大的变化，这篇文章主要是为了后续的RabbitMQ的动态配置做铺垫。

Kenny.志·2025-03-22 18:39

大模型学习-让其他电脑可访问本地ollama的模型并进行流式响应

目录让其他电脑可访问本地ollama流式响应让其他电脑可访问本地ollama默认情况下，其他电脑不能直接访问本地Ollama服务。解决方法：让Ollama监听局域网地址，而不是localhost我们可以让Ollama监听局域网IP，在Ollama服务器上运行：setOLLAMA_HOST=0.0.0.0:11434ollamaserve注意：这种方式只对当前CMD窗口有效，关闭窗口后就会失效。如果

Gratitute_林腾·2025-03-22 17:35

软件工程简答题整理

软件工程考试简答题整理瀑布模型是软件工程中应用最广泛的过程模型，试述采用瀑布模型进行软件开发的基本过程，该过程有何特点？

~进无止境~·2025-03-22 17:03

OSI七层模型

OSI七层模型传输过程当你在微信上发送一句“你吃了吗”时，这条消息会经历一个从你的手机到接收者手机的复杂旅程。这个过程涉及到网络通信中的七层模型，即OSI（开放系统互连）模型。

_洛_神·2025-03-22 17:02

前端面试：[React] scheduler 调度机制原理？

1.调度机制的背景React的渲染过程可能会受到多个因素的影响，例如用户输入、网络请求以及其他状态变化。传统的渲染机制在某些情况下可能导致性能

returnShitBoy·2025-03-22 16:00

大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB

视频教程在这：3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili一、大规模异构集群出现的原因：同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源

爱串门的小马驹·2025-03-22 16:29

软件工程简答

通用过程模型的定义内容通⽤过程框架定义了5种框架活动——沟通、策划、建模、构建以及部署。⼀系列普适性活动——项⽬跟踪控制

Ruannn（努力版）·2025-03-22 16:58

【架构设计】前置知识

通过Go学习并发模型（Gorouti

GIS程序媛—椰子·2025-03-22 16:28

Windows faster whisper GUI-v0.8.5-开源版[AI支持超过100种语言的人声分离/声音转文本字幕]

pwd=vydu#WindowsfasterwhisperGUI-v0.8.5-开源版[AI支持超过100种语言的人声分离/声音转文本字幕]whisperX+faster-whisper+Demucs把模型下载

私人珍藏库·2025-03-22 16:27

LLM 大模型技术知识最佳学习路径图发布！

近日，经常有小伙伴私信我，大模型知识太多了，有点懵啊，我该如何学习LLM大模型？今天我们就来剖析下LLM大模型技术知识的学习路径。

AGI-杠哥·2025-03-22 15:54

Python异步编程：从基础到高级

Python的异步编程模型（基于asyncio）为开发者提供了一种高效的方式来处理高并发任务，而无需依赖多线程或多进程。异步编程不仅可以提高程序的性能，还能简化并发代码的复杂性。

CarlowZJ·2025-03-22 15:54

基于Linux的多进程并发服务器设计与实现

系统架构该服务器采用主-从进程模型（Master-Worker模式）：主进程（Master进程）：负责监听客户端连接请求，并将连接

名誉寒冰·2025-03-22 15:52

chokidar - chokidar 初识（初识案例演示、初识案例解读、初识案例测试）

一、chokidar1、chokidar概述chokidar是一个用于监视文件系统变化的Node.js库chokidar提供了一种简单、高效的方式来监视文件和目录的创建、修改、删除等操作chokidar

我命由我12345·2025-03-22 15:50

MiniMind：完全从 0 训练自己的大模型

是B站UP主近在远方的远开源的一个微型语言模型，改进自DeepSeek-V2、Llama3结构，项目包含整个数据处理、pretrain、sft、dpo的全部阶段，包含混合专家(MoE)模型。

三花AI·2025-03-22 15:49

探索Python中的集成方法：Stacking

在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。

Echo_Wish·2025-03-22 15:19

【Python】 Stacking: 强大的集成学习方法

我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响

音乐学家方大刚·2025-03-22 15:19

MiniMind：3小时完全从0训练一个仅有26M的小参数GPT，最低仅需2G显卡即可推理训练！

概述MiniMind是一个开源的微型语言模型，它的设计目标是让个人GPU用户也能够快速推理甚至训练语言模型。它的体积仅为26M，大约是GPT3的1/7000，非常适合快速部署和实验。

哈罗·沃德·2025-03-22 15:19

跟着黑马学MySQL基础篇笔记(1)-概述与SQL

03.安装与启动启动netstartmysql80netstopmysql80客户端连接mysql[-h127.0.0.1][-P3306]-uroot-p04.mysql数据模型关系型数据库RDBMS05

小杜不吃糖·2025-03-22 15:18

DPO 核心理论推导：参考策略距离约束下的最优策略 + 损失函数设计

Rafailov,Rafael,etal.“Directpreferenceoptimization:Yourlanguagemodelissecretlyarewardmodel.”AdvancesinNeuralInformationProcessingSystems36(2023):53728-53741.本文整理了DPO论文中两个核心结论的推导，包括参考策略距离约束下的最优策略的形式，以及

iiiiii11·2025-03-22 14:17

Stacking算法：集成学习的终极武器

1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来

civilpy·2025-03-22 14:16

MiniMind

它可以帮助模型更好地理解文本数据的结构。Pretrain数据：这是用于预训练模型的数据集，它可以帮助模型学习语言的基本结构和特征。

亚伯拉罕·黄肯·2025-03-22 14:46

集成学习（上）：Bagging集成方法

在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。

万事可爱^·2025-03-22 14:16

【集成学习】：Stacking原理以及Python代码实现

今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。

Geeksongs·2025-03-22 14:14

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化

一个处女座的程序猿·2025-03-22 14:43

模型部署后的版本回滚策略，如何确保服务降级的平滑性？

模型部署版本回滚策略与平滑服务降级技术体系（2025版）一、核心设计原则与架构模型部署回滚的平滑性需建立在版本隔离性、流量可控性、数据兼容性三大支柱上，结合2025年前沿技术实现多维保障：

百态老人·2025-03-22 14:39

easyswoole学习记录

的工作方式php-fpm就是php-fastcgi进程管理器主要工作的就是mastr进程，主要和linux进行一个协调，当请求从nginx到fpm的时候，master会把请求交给自己下面管理的子进程一个池模型

司江龙·2025-03-22 14:39

ARM架构薄记小记1——ARM架构的快速介绍

问题1：ARM架构的历史是如何的，以此我们可以洞察ARM架构设计的一些动机问题2：我们知道，ARM架构中常见的架构是ARMv7到ARMv9，这些架构有发生怎样的变化？每一个架构的一些纲领性的东西是什么

charlie114514191·2025-03-22 14:05

Django系列教程（15）——上传文件

目录Django文件上传需要考虑的重要事项Django文件上传的3种常见方式项目创建与设置创建模型URLConf配置使用一般表单上传文件使用ModelForm上传文件Django文件上传需要考虑的重要事项文件或图片一般通过表单进行

l软件定制开发工作室·2025-03-22 14:05

DeepSpeed-Chat：Reward Model【奖励模型】

第二阶段：奖励模型微调奖励模型(RM)微调类似于第一阶段有监督微调(SFT)。

u013250861·2025-03-22 13:31

【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践

解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。

蒙娜丽宁·2025-03-22 13:29

推荐频道

模型损失函数变化曲线图