预剪枝第6页

【深度学习】预训练和微调概述

预训练和微调概述1.预训练和微调的介绍1.1预训练（Pretraining）1.2微调（Fine-Tuning）2.预训练和微调的区别预训练和微调是现代深度学习模型训练中的两个关键步骤，它们通常是一个预训练

CS_木成河·2025-02-21 22:35

【深度学习大模型实例教程：Transformer架构、多模态模型与自监督学习】

多模态模型与自监督学习1.深度学习基础概述1.1深度学习的核心概念1.2常见深度学习模型1.3大模型的挑战与解决方案2.数据准备2.1数据处理示例：CIFAR-103.构建深度学习模型4.训练模型5.使用预训练模型

生活De°咸鱼·2025-02-21 22:34

什么是语料清洗、预训练、指令微调、强化学习、内容安全；什么是megatron，deepspeed，vllm推理加速框架

什么是语料清洗、预训练、指令微调、强化学习、内容安全目录什么是语料清洗、预训练、指令微调、强化学习、内容安全语料清洗预训练指令微调强化学习内容安全什么是megatron，deepspeed，vllm推理加速框架语料清洗语料清洗是对原始文本数据进行处理的过程

ZhangJiQun&MXP·2025-02-21 19:45

网络安全-防御第三次作业（图像配置和拓扑测试后续）

作业要求：一、拓扑搭建在eNSP软件中，进行如下操作搭建拓扑：设备选取与放置：从设备库拖出1台预启动路由器（R）放于左上角；1台交换机（LSW1）置于中部偏左，用于连接内网客户端；1台防火墙（FW1）在交换机右侧

星鬼123·2025-02-21 17:56

蓝桥杯学习大纲

一、蓝桥必备高频考点我们以此为重点学习方向：1.基础算法枚举模拟贪心递归分治构造前缀和差分2.搜索与排序线性搜索二分法BFSDFS回溯剪枝深搜优化记忆化搜索位运算冒泡排序归并排序快速排序桶排序3.动态规划编辑距离最长不重复子串整数背包矩阵连乘最长公

ん贤·2025-02-21 16:10

用Python实现自动化交易：从趋势到收益

它主要是通过历史价格走势数据来预

霸都小魔女·2025-02-21 10:51

模型压缩-模型蒸馏、模型剪枝、模型量化

在模型压缩中，教师模型是一个预训练好的复杂的模型，而学生模型是一个规模较小的模型。

NLP的小Y·2025-02-21 08:39

[笔记.AI]如何判断模型是否通过剪枝、量化、蒸馏生成？

以下摘自与DeepSeek-R1在线联网版的对话一、基础判断维度技术类型核心特征验证方法剪枝模型参数减少、结构稀疏化1.检查模型参数量是否显著小于同类标准模型12.分析权重矩阵稀疏性（如非零参数占比50%

俊哥V·2025-02-21 08:07

使用 AnyscaleEmbeddings 进行文本嵌入

通过预训练模型（如BERT、GPT等），我们可以获得语义丰富

dgay_hua·2025-02-21 03:04

跨语言语义理解与生成：多语言预训练方法及一致性优化策略

网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO

网罗开发·2025-02-21 02:57

2025年AI技术趋势深度解析：从World Model到智能共生，如何重塑未来？

应用场景：自动驾驶测试（如Waymo）、工业设计仿真、灾害预

weixin_74887700·2025-02-21 00:42

【核心算法篇十三】《DeepSeek自监督学习：图像补全预训练方案》

根据，自监督学习通过设计巧妙的"预训练任务"（PretextTask），让模型在无标签数据中自动学习图像语义特征。而图像补全正是这类

再见孙悟空_·2025-02-20 21:24

GPT (Generative Pre-trained Transformer)

GPT模型通过大规模无监督预训练，使用大量的文本数据进行学习，然后再进行微调（fine-tuning）来适应具体的下游任务。

彬彬侠·2025-02-20 19:07

【自然语言处理|迁移学习-08】：中文语料完型填空

数据集加载及处理3定义下游任务模型4模型训练5.模型测试1中文语料完型填空任务介绍任务介绍：完成中文语料完型填空完型填空是一个分类问题，[MASK]单词有21128种可能数据构建实现分析：使用迁移学习方式完成使用预训练模型

爱学习不掉头发·2025-02-20 14:50

大模型（含deepseek r1）本地部署利器ollama的API操作指南

它支持多种预训练的大型语言模型（如LLaMA2、Mistral、Gemma、DeepSeek等），并提供了一个简单高效的方式来加载和使用这些模型。

·2025-02-20 13:41

DeepSeek与ChatGPT：AI语言模型的全面对决

为不同需求场景提供选择参考：一、核心技术对比维度DeepSeekChatGPT架构设计混合专家系统（MoE）+自研深度优化架构Transformer架构（GPT-3.5/4系列）训练策略万亿token中文语料预训练

金枝玉叶9·2025-02-20 12:01

LQB（4）-python-DFS搜索

前言DFS即深度优先搜索（Depth-FirstSearch），是一种用于遍历或搜索树或图的算法，有三种核心的应用场景（基础遍历、回溯、剪枝）。

AAA顶置摸鱼·2025-02-20 09:06

使用BLIP模型生成图像描述的可查询索引

在本篇文章中，我们将介绍如何使用预训练的SalesforceBLIP图像描述模型，生成一个可查询的图像描述索引。我们将使用ImageCaptionLoader来加载图像，并通过一系列步骤生成查询索引。

dgay_hua·2025-02-20 08:24

DeepSeek掀起推理服务器新风暴，AI应用迎来变革转折点？

其发展分数据收集整理、模型训练、推理应用三个阶段，过去重模型训练，如今大量预训练模型出现，如何高效应用成新挑战，推理服务器应运而生。

小深ai硬件分享·2025-02-20 08:20

深入解析：Tableau在数据可视化中的高级应用

数据预

Echo_Wish·2025-02-20 07:18

【拥抱AI】一文讲清楚MCP(Model Context Protocol)核心功能及应用

MCP的主要功能包括数据集成、工具集成、模板化交互、安全性、开发者支持、预构建服务器和上下文维护。它通过客户端-服务器架构，支持多个服务连接到任何兼容的客户端，

奔跑草-·2025-02-20 06:08

使用Yuan 2.0与LangChain构建智能聊天应用：完整指南

相比之前的Yuan1.0，Yuan2.0使用了更广泛的高质量预训练数据，并通过指令微调数据集增强了模型的语义理解、数学推理、编程知识等能力。

scaFHIO·2025-02-20 05:33

24蓝桥省赛B-数字接龙

includeusingnamespacestd;constintN=13;intmp[N][N],flag,n,k;boolvis[N][N];intf[N][N][N][N];//存储路径,用于判断是否斜着走,是本题剪枝的难点

亿秒签到·2025-02-20 01:31

DeepSeek 本地部署硬件配置全解析

而且它可“省钱”了，预训练费用还不到OpenAIGPT-4o模型的十

喜-喜·2025-02-19 23:34

自然语言处理NLP 01语言转换&语言模型

（FeatureExtraction）(1)词袋模型（BagofWords,BoW）(2)TF-IDF(3)词嵌入（WordEmbedding）3.模型输入（ModelInput）(1)序列编码(2)预训练模型输入

伊一大数据&人工智能学习日志·2025-02-19 22:56

ColD Fusion，分布式多任务微调的协同 “密码”

代码和公式）直观解释2.大模型进化史：从Transformer到DeepSeek-R1的AI变革之路3.2W8000字深度剖析25种RAG变体：全网最全~没有之一知乎【柏企】公众号【柏企科技说】【柏企阅文】在预训练模型的基础上进行改进

·2025-02-19 20:46

【大模型】量化、剪枝、蒸馏

大模型的量化、剪枝和蒸馏是三种常用的模型优化技术，旨在减少模型的复杂性，降低计算资源消耗，并加速推理过程。

油泼辣子多加·2025-02-19 18:02

芯麦GC1267R单相双极驱动电机预驱动器解析：变速功能与PWM兼容性设计

一、芯片概述芯麦GC1267R是一款专为低电压单相双极步进电机或直流有刷电机设计的预驱动芯片，集成了高效的驱动逻辑和保护功能，支持PWM调速和外部信号控制，广泛应用于智能家居、工业设备、医疗仪器等领域。

深圳市青牛科技实业有限公司小芋圆·2025-02-19 15:31

Leetcode 3459. Length of Longest V-Shaped Diagonal Segment

LengthofLongestV-ShapedDiagonalSegment1.解题思路2.代码实现题目链接：3459.LengthofLongestV-ShapedDiagonalSegment1.解题思路这一题我的思路上就是一个动态规划加上剪枝的思路

Espresso Macchiato·2025-02-19 04:34

Python库 - transformers

它提供了大量的预训练模型，这些模型可以用于各种NLP任务，如文本分类、问答、翻译、摘要生成等。

司南锤·2025-02-19 03:28

腾讯云大模型知识引擎×DeepSeek赋能文旅

其核心优势包括：动态知识更新：突破传统大模型预训练数据的时间

繁依Fanyi·2025-02-19 00:55

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别

以下是它们的主要区别：1.方法概述STF（监督微调）：定义：STF是指在已经预训练好的模型基础上，使用标注好的数据进一步训练模型，使其在特定任务上

钟小宇·2025-02-18 18:11

DeepSeek为什么超越了OpenAI

其中，技术架构的突破最具革命性——DeepSeek创造性地采用"混合专家系统+领域预训练"架构，在特定领域的推理效率比OpenAI的GPT-4提升40%以上（根据2023年MLPerch基准测试）。

·2025-02-18 17:19

基于Knative的无服务器引擎重构：实现毫秒级冷启动的云原生应用浪潮

基于流量预测的预启动算法与内核级资源复用池两大技术创新，正在重新定义Serverless时代的性能边界。IDC最新报告指出，采用该架构的企业资源利用率平均提升至78%，年度计算成本直降320万美元。

桂月二二·2025-02-18 09:37

DeepSeek对AI发展的范式革新与推动：研究报告

其核心技术突破包括：低算力消耗的模型训练通过蒸馏训练策略、动态模型剪枝和稀疏训练，DeepSeek将训练成本降至OpenAI同类模型的1/10，同时保持性能可比甚至超越。

芝士AI吃鱼·2025-02-18 05:57

运用python制作一个完整的股票分析系统

数据处理：计算技术指标（如KDJ、BOLL）并进行数据预处

大懒猫软件·2025-02-18 04:46

【LLM】大模型基础--大规模预训练语言模型的开源教程笔记

1.引言本文以DataWhale大模型开源教程为学习路线，进行一整个大模型的入门操作什么是语言模型语言模型是一种对词元序列（token）的概率分布，可以用于评估文本序列的合理性并生成新的文本。从生成文本的方式来看，LM（languagemodle）可以简单的分为：自回归模型非自回归模型特点逐字生成文本，每个词的生成都依赖于上文，关联性好一次性生成整个文本序列，不捕捉上文信息优点内容质量高生成速度快

Langchain·2025-02-18 02:00

【云原生进阶之数据库技术】第四章-GaussDB-关键技术-2.4.1-GaussDB存储引擎层关键技术方案

主要思路是把对数据页面的随机写盘转化为对WAL(WriteAheadLog，预写式日志)的顺序写盘，WAL持久化完成，事务就算提交

江中散人·2025-02-17 22:43

AIMv2：多模态自回归预训练的视觉新突破

AIMv2：多模态自回归预训练的视觉新突破阅读时长：19分钟发布时间：2025-02-17近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM

·2025-02-17 20:28

DeepSeek与ChatGPT的全面对比

在人工智能（AI）领域，生成式预训练模型（GPT）已成为推动技术革新的核心力量。OpenAI的ChatGPT自发布以来，凭借其卓越的自然语言处理能力，迅速占据市场主导地位。

测试者家园·2025-02-17 03:52

理论一、大模型—概念

大模型全称是大型语言模型（LLM，LargeLanguageModel），这个“大”主要指模型结构容量大，结构中的参数多，用于预训练大模型的数据量大。一个大模型可以

伯牙碎琴·2025-02-16 20:31

一、大模型微调的前沿技术与应用

大模型微调的前沿技术与应用随着大规模预训练模型（如GPT、BERT、T5等）的广泛应用，大模型微调（Fine-Tuning,FT）成为了提升模型在特定任务中性能的关键技术。

伯牙碎琴·2025-02-16 20:31

大语言模型常用微调与基于SFT微调DeepSeek R1指南

概述大型语言模型（LLM，LargeLanguageModel）的微调（Fine-tuning）是指在一个预训练模型的基础上，使用特定领域或任务的数据对模型进行进一步训练，以使其在该领域或任务上表现更好

知来者逆·2025-02-16 16:08

（15-3）DeepSeek混合专家模型初探：模型微调

3.4模型微调在本项目中，微调脚本文件finetune.py提供了一套全面的工具，用于对DeepSeek-MoE预训练语言模型进行微调。

码农三叔·2025-02-16 16:35

AI 大模型创业：如何利用市场优势？

这些大模型通过在大规模数据集上进行预训练，具备强大的泛化能力和适应性，能够广泛应用于自然语言处理（NLP）、计算机视觉（CV）、生成对抗网络（GAN）等多个领域。然而，

SuperAGI2025·2025-02-16 12:37

DeepSeek为什么超越了OpenAI

其中，技术架构的突破最具革命性——DeepSeek创造性地采用"混合专家系统+领域预训练"架构，在特定领域的推理效率比OpenAI的GPT-4提升40%以上（根据2023年MLPerch基准测试）。

·2025-02-16 07:40

深入解析LangChain：构建智能应用的全方位指南

随着语言模型，特别是大型预训练模型的兴起，开发者逐渐认识到这些模型不仅可以生成文本，还可以被用于处理复杂的对话、数据分析以及其他需要自然语言处理的任务。然而，这些模型的集成和实

AIGC大模型吱屋猪·2025-02-16 05:12

使用 YOLOv8 模型分析摄像头的图像

bashpipinstallultralytics2.编写Python代码以下是一个使用YOLOv8模型对摄像头图像进行分类的示例代码：importcv2fromultralyticsimportYOLO#加载预

欣然～·2025-02-16 02:19

LangChain开发【NL2SQL】应用（few-shot优化）

这篇文章来讲一下优化什么是few-shot使用这些少量的、调整后的样本对预训练模型进行微调其实就是给LLM少量示例关于few-shot的研究：https://medium.com/ubiai-nlp/step

向羿燃·2025-02-15 22:48

1.5 企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径

企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径一、技术演进金字塔：四阶技术如何构建AI新范式▲预训练│（万亿参数基建）├─大模型微调│（领域知识注入）├─AI智能体

少林码僧·2025-02-15 21:08

推荐频道

预剪枝

【深度学习】预训练和微调概述

【深度学习大模型实例教程：Transformer架构、多模态模型与自监督学习】

什么是语料清洗、预训练、指令微调、强化学习、内容安全； 什么是megatron，deepspeed，vllm推理加速框架

网络安全-防御 第三次作业（图像配置和拓扑测试后续）

蓝桥杯学习大纲

用Python实现自动化交易：从趋势到收益

模型压缩-模型蒸馏、模型剪枝、模型量化

[笔记.AI]如何判断模型是否通过剪枝、量化、蒸馏生成？

使用 AnyscaleEmbeddings 进行文本嵌入

跨语言语义理解与生成：多语言预训练方法及一致性优化策略

2025年AI技术趋势深度解析：从World Model到智能共生，如何重塑未来？

【核心算法篇十三】《DeepSeek自监督学习：图像补全预训练方案》

GPT (Generative Pre-trained Transformer)

【自然语言处理|迁移学习-08】：中文语料完型填空

大模型（含deepseek r1）本地部署利器ollama的API操作指南

DeepSeek与ChatGPT：AI语言模型的全面对决

LQB（4）-python-DFS搜索

使用BLIP模型生成图像描述的可查询索引

DeepSeek掀起推理服务器新风暴，AI应用迎来变革转折点？

深入解析：Tableau在数据可视化中的高级应用

【拥抱AI】一文讲清楚MCP(Model Context Protocol)核心功能及应用

使用Yuan 2.0与LangChain构建智能聊天应用：完整指南

24蓝桥省赛B-数字接龙

DeepSeek 本地部署硬件配置全解析

自然语言处理NLP 01语言转换&语言模型

ColD Fusion，分布式多任务微调的协同 “密码”

【大模型】量化、剪枝、蒸馏

芯麦GC1267R单相双极驱动电机预驱动器解析：变速功能与PWM兼容性设计

Leetcode 3459. Length of Longest V-Shaped Diagonal Segment

Python库 - transformers

腾讯云大模型知识引擎×DeepSeek赋能文旅

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别

DeepSeek为什么超越了OpenAI

基于Knative的无服务器引擎重构：实现毫秒级冷启动的云原生应用浪潮

DeepSeek对AI发展的范式革新与推动：研究报告

运用python制作一个完整的股票分析系统

【LLM】大模型基础--大规模预训练语言模型的开源教程笔记

【云原生进阶之数据库技术】第四章-GaussDB-关键技术-2.4.1-GaussDB存储引擎层关键技术方案

AIMv2：多模态自回归预训练的视觉新突破

DeepSeek与ChatGPT的全面对比

理论一、大模型—概念

一、大模型微调的前沿技术与应用

大语言模型常用微调与基于SFT微调DeepSeek R1指南

（15-3）DeepSeek混合专家模型初探：模型微调

AI 大模型创业：如何利用市场优势？

DeepSeek为什么超越了OpenAI

深入解析LangChain：构建智能应用的全方位指南

使用 YOLOv8 模型分析摄像头的图像

LangChain开发【NL2SQL】应用（few-shot优化）

1.5 企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径

什么是语料清洗、预训练、指令微调、强化学习、内容安全；什么是megatron，deepspeed，vllm推理加速框架

网络安全-防御第三次作业（图像配置和拓扑测试后续）