预埋管线第9页

【DeepSeek】复现DeepSeek R1？快来看这个Open R1项目实践指南~

OpenR1项目基于DeepSeek-R1的技术报告和方法论，公开并复现R1的训练管线，并且希望所有开发者都能在这个基础上搭建自己的研究或应用。

FF-Studio·2025-01-30 19:24

模型架构选择：从传统NLP到Transformer

模型架构选择：从传统NLP到Transformer关键词：自然语言处理(NLP),模型架构,传统NLP,Transformer,RNN,CNN,预训练模型文章目录模型架构选择：从传统NLP到Transformer1

AI天才研究院·2025-01-30 08:23

大型语言模型构建指南：从头开始构建大语言模型《Build a Large Language Model (From Scratch)》免费PDF

你将从最初的设计和创建到通用语料库的预训练，一直到特定任

AGI大模型学习·2025-01-30 05:34

书籍推荐：《从零构建大型语言模型》附免费PDF下载

你将从最初的设计和创建到通用语料库的预训练，一直到特定任

大模型入门学习·2025-01-30 05:33

如何评价deepseek上线的deepseek-V3模型？怎么使用？

DeepSeek-V3模型是深度求索公司最新推出的自研MoE（混合专家）模型，具有6710亿参数，激活参数为370亿，经过14.8万亿token的预训练。

百态老人·2025-01-30 01:36

DeepSeek V3 模型微调（SFT）技术详解

DeepSeekV3模型微调（SFT）技术详解目录引言背景知识2.1深度学习与预训练模型2.2微调（Fine-tuning）的概念2.3监督微调（SupervisedFine-tuning,SFT）DeepSeekV3

zhangjiaofa·2025-01-30 00:28

Mooncake：面向大语言模型服务的以 KVCache 为中心的架构

它采用以KVCache为中心的分解架构，将预填充和解码集群分离。它还利用GPU集群未充分利用的CPU、DRAM和SSD资源来实现KVCache的分解缓存。

步子哥·2025-01-29 22:42

如何从零开始训练大模型（预训练方向）

但还有一个很直观的情况，随着预训练样本的质量不断提升，训练手段的优化。新的模型，往往效果能轻松反超参数量两倍于它的模型。例如，最新出的minicpm，微信内部评测效果也是非常棒的。

AI小白熊·2025-01-29 16:43

前端性能优化：HMR热更新和预获取加载

本文将深入探讨预获取（Prefetch）、动态导入（DynamicImport）和热模块替换（HMR）这三个关键技术1.预获取（Prefetch）：加速后续页面加载1.1什么是预获取？

疯狂小料·2025-01-29 12:07

LLM架构与优化：从理论到实践的关键技术

重点分析了预训练、后训练、监督微调（SFT）和偏好对齐（PreferenceAlignment）在提升模型性能中的作用，并对比了直接偏好优化（DPO）

XianxinMao·2025-01-28 20:14

第76期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

云起无垠·2025-01-28 15:05

第84期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

云起无垠·2025-01-28 14:30

Silero VAD 开源项目教程

SileroVAD开源项目教程项目地址:https://gitcode.com/gh_mirrors/si/silero-vad项目介绍SileroVAD是一个预训练的企业级语音活动检测器（VoiceActivityDetector

苏鹃咪Healthy·2025-01-28 14:55

一篇带你搞懂为什么Vue3比Vue2效率更高！

目录一、静态提升二、预字符串化三、缓存事件处理函数四、BlockTree五、PatchFlag一、静态提升Vue3中的静态提升（StaticTreeHoisting）是一种编译阶段的优化技术，它能够提高组件的渲染性能

一朵好运莲·2025-01-28 08:49

高效向量搜索RAG解决方案（Canopy）

一、基本原理1.向量嵌入：Canopy首先会将文本数据转换为向量表示，通常使用预训练的语言模型等技术，将文本映射到

deepdata_cn·2025-01-28 08:18

预训练语言模型

一.预训练模型的基本介绍预训练模型是一种在大规模数据上训练而得的模型，通常通过无监督学习或自监督学习的方式进行。在预训练阶段，模型被训练来学习数据的内在表示，而无需标注数据或任务特定的目标函数。

Algorithm_Engineer_·2025-01-28 04:51

【赵渝强老师】MongoDB写入数据的过程

在MongoDB数据更新时，WiredTiger存储引擎使用预写日志的机制先将数据更新写入到Journal日志文件中。然后在创建检查点操作开始时，再将日志文件中记录的操作刷新到数据文件。

·2025-01-27 18:09

.NET 8 WebAssembly 加载体验优化

今天我们来探讨如何在.NET8RC2中实现一个无预渲染的WebAssembly页面，并且在页面加载时显示一个加载动画。

t0_54coder·2025-01-27 12:24

利用MMDetection进行模型微调和权重初始化

目录模型微调修改第一处：更少的训练回合Epoch修改第二处：更小的学习率LearningRate修改第三处：使用预训练模型权重初始化实际使用案例init_cfg的具体使用规则初始化器配置汇总本文基于MMDetection

MickeyCV·2025-01-27 07:27

顶刊论文:一种用于病理学的多模态全切片基础模型 TITAN

MultimodalWholeSlideFoundationModelforPathology”提出了一种用于病理学的多模态全切片基础模型TITAN，通过在大量组织切片图像（WSIs）上的自监督学习和视觉语言对齐预训练

思陌Ai算法定制·2025-01-27 04:06

对话小羊驼vicuna

文章目录1.gpu租用2.公网网盘存储实例/数据3.登录实例4.预训练模型下载5.llama、alpaca、vicuna的前世今生6.对话Vicuna（1）llama-2-7b-hf（2）vicuna-

Always_Shine·2025-01-27 01:44

Firefly-LLaMA2-Chinese - 开源中文LLaMA2大模型

文章目录关于模型列表&数据列表训练细节增量预训练&指令微调数据格式&数据处理逻辑增量预训练指令微调模型推理权重合并模型推理部署关于github:https://github.com/yangjianxin1

伊织产研·2025-01-27 00:07

跨域请求的终极武器：Spring MVC一招搞定OPTIONS预检

若我告诉你，SpringMVC通过一个简单配置，便可轻松解决烦人的OPTIONS预检请求，你能相信吗？没错，就是这么简单！

星际编程喵·2025-01-26 23:26

【TCN回归预测】蜣螂算法优化时间卷积神经网络DBO-TCN负荷数据回归预测【含Matlab源码 6222期】

Matlab领域·2025-01-26 18:23

飞速搭震撼上线开启软件开发智能化新篇章

用户只需将需求文档或需求描述输入给预训练的大模型，这一步骤极大地简化了传统软件开发中繁琐的需求分析和文档编写过程，使用户能够更专注于核心需求的表达。大模型

·2025-01-26 16:32

显卡各种参数

显卡各种参数2011年04月10日常见的显卡参数分为以下三部分：一、显示核心（芯片厂商、代号、型号、架构、频率、象素渲染管线、顶点着色引擎数、3DAPI、RAMDAC频率及支持MAX分辨率等）。

iteye_17699·2025-01-26 12:39

C++ 包装器与绑定器的应用之如何取代虚函数

CPU每跳转一次，预取指令要作废很多，所以效率会很低.为了管理的方便（基类指针可指向派生类对象和自动析构派生类），保留类之间的继承关系。

__雨夜星辰__·2025-01-26 11:59

10.片元

**片元（Fragment）**是渲染管线中的一个重要概念，可以理解为“潜在的像素”。

无敌最俊朗@·2025-01-26 06:15

KNOWLEDGE UNLEARNING FOR MITIGATING PRIVACY RISKS IN LANGUAGE MODELS

2.1语言模型的隐私方法2.2机器去学习2.3语言模型中的记忆3语言模型中的知识去学习3.1方法论3.2量化语言模型的隐私风险4实验4.1模型、数据集和配置4.2主要实验4.3知识去学习的分析5结论摘要预训练语言模型

绒绒毛毛雨·2025-01-26 02:10

探秘FreeMovie：一个开源的电影推荐系统

技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处

孟振优Harvester·2025-01-26 02:39

2.渲染管线——应用阶段

渲染管线的应用阶段（ApplicationStage）是渲染流程的第一步，负责准备和提交渲染所需的数据。

无敌最俊朗@·2025-01-26 00:55

GPT-4、GPT-4O 和 GPT-4O-mini 的区别与联系

GPT-4是OpenAI发布的第四代通用预训练模型，具备强大的生成和理解能力，适

surfirst·2025-01-25 14:14

第72期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

云起无垠·2025-01-25 14:40

[预训练语言模型专题] 百度出品ERNIE合集，问国产预训练语言模型哪家强

本文为预训练语言模型专题系列第七篇系列传送门[萌芽时代]、[风起云涌]、[文本分类通用技巧]、[GPT家族]、[BERT来临]、[BE

yang191919·2025-01-25 09:04

【Lora微调】提高模型效率的创新方法

大型预训练模型，如GPT、BERT等，虽然在许多任务上表现出色，但它们的训练和微调通常需要巨大的计算资源，这使得许多研究者和开发者无法充分利用这些模型进行个性化或领域特定的调整。

@fishv·2025-01-25 07:19

南方cass简码识别大全_CASS分类简码

简码GTC码简码GTC码简码GTC码简码GTC码特殊码用法居民地类管线设施水系设施铁路设施W围墙厚度省略小数点及小数点前面的"0"：砼F141111高压杆A171101水涯线S181101一般铁路H1161101

Demeyi-邓子·2025-01-25 07:48

广东某海水取排水管线工程边坡自动化监测

广东廉江核电项目一期工程海水取排水管线位于厂区南侧，全长约10100米。本次边坡设计范围沿取排水管路径距离厂区约8.5km，管道回填完成面标高4.8m-9.0m（1985国家高程基准，

中科岩创·2025-01-25 06:13

Transformer大模型实战 BART模型的架构

禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming/TextGenWebUILLMTransformer大模型实战BART模型的架构1.背景介绍1.1问题的由来随着大规模预训练模型的兴起

AI天才研究院·2025-01-24 23:23

第84期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

·2025-01-24 20:41

从文字到思维：呆马GPT在人工智能领域的创新之旅

引言生成式预训练变换器（GenerativePre-trainedTransformer，简称GPT）领域是人工智能技术中的一大革新。

呆码科技·2025-01-24 20:28

LLaMA Pro是什么相比于lora full freeze有什么区别怎么使用

它通过在原有模型的基础上扩展新的模块（如Transformer块），并在微调时仅训练这些新增模块，从而在适应新任务的同时保留预训练模型的通用知识。

Ven%·2025-01-24 16:58

12 分布式事务

分布式事务产生的原因我们拿mysql数据库来说，当数据库为单体数据库的时候，我们打开事务，执行sql为预执行阶段，最后commit时通过日志控制最终全部提交后存储到磁盘中，如果commit失败，可以通过日志控制回滚回来

40岁的系统架构师·2025-01-24 11:22

Python 如何使用 Bert 进行中文情感分析

BERT是一种基于Transformer架构的预训练模型，它能够

程序员徐师兄·2025-01-24 00:47

Python Selenium使用cookie实现自动登录WB

文章目录前言一、预登陆获取cookie1)cookie处理2)预登陆二、登录测试前言模拟登录WB是实现WB网页爬虫的第一步，现在的WB网页版有个sinavisitsystem，只有登录过后才能获取更多内容

haerxiluo·2025-01-23 23:08

如何应对 IT 项目中的需求变更？

在此基础上，项目经理需要做出适时的决策，灵活调整计划，并保持对变更带来影响的预判能力。本文将深入探讨如何有效管理和应对IT项

·2025-01-23 22:02

深入理解旋转位置编码（RoPE）及其在大型语言模型中的应用

RotaryEmbedding类设计2、apply_rotary_pos_emb函数3、demo_apply_rotary_pos_emb函数三、完整RoPE代码Demo前言随着自然语言处理（NLP）领域的快速发展，预训练的语言模型如

tangjunjun-owen·2025-01-23 21:00

TRELLIS文本或图像生3d模型一键整合包win版本，省去繁琐安装、效果超Wonder3D，对硬件要求更低速度更快16g N卡可流畅运行

我们提供大规模预训练模型，参数高达20亿

struggle2025·2025-01-23 21:28

使用OpenAI Chat模型进行自然语言处理的实战指南

一、技术背景介绍OpenAI的Chat模型是一类专门用于对话任务的预训练语言模型。它们可以处理多种输入类型，支持丰富的功能调用，适用于各种自然语言处理场景。从翻译到对话生成

GEAWfaacc·2025-01-23 06:09

大语言模型原理与工程实践：预训练数据构建

大语言模型原理与工程实践：预训练数据构建1.背景介绍大语言模型（LargeLanguageModels,LLMs）近年来在自然语言处理（NLP）领域取得了显著的进展。

AI大模型应用之禅·2025-01-23 06:38

【Codex】Evaluating Large Language Models Trained on Code

这篇文章来解读最近比较有意思的Transformer预训练模型在自动生成代码方面的应用，PaperLink:EvaluatingLargeLanguageModelsTrainedonCode自动生成Code

NLP_wendi·2025-01-23 05:57

推荐频道

预埋管线

【DeepSeek】复现DeepSeek R1？快来看这个Open R1项目实践指南~

模型架构选择：从传统NLP到Transformer

大型语言模型构建指南：从头开始构建大语言模型《Build a Large Language Model (From Scratch)》免费PDF

书籍推荐：《从零构建大型语言模型》附免费PDF下载

如何评价deepseek上线的deepseek-V3模型？怎么使用？

DeepSeek V3 模型微调（SFT）技术详解

Mooncake：面向大语言模型服务的以 KVCache 为中心的架构

如何从零开始训练大模型（预训练方向）

前端性能优化：HMR热更新和预获取加载

LLM架构与优化：从理论到实践的关键技术

第76期 | GPTSecurity周报

第84期 | GPTSecurity周报

Silero VAD 开源项目教程

一篇带你搞懂 为什么Vue3比Vue2效率更高！

高效向量搜索RAG解决方案（Canopy）

预训练语言模型

【赵渝强老师】MongoDB写入数据的过程

.NET 8 WebAssembly 加载体验优化

利用MMDetection进行模型微调和权重初始化

顶刊论文:一种用于病理学的多模态全切片基础模型 TITAN

对话小羊驼vicuna

Firefly-LLaMA2-Chinese - 开源中文LLaMA2大模型

跨域请求的终极武器：Spring MVC一招搞定OPTIONS预检

【TCN回归预测】蜣螂算法优化时间卷积神经网络DBO-TCN负荷数据回归预测【含Matlab源码 6222期】

飞速搭震撼上线 开启软件开发智能化新篇章

显卡各种参数

C++ 包装器与绑定器的应用之如何取代虚函数

10.片元

KNOWLEDGE UNLEARNING FOR MITIGATING PRIVACY RISKS IN LANGUAGE MODELS

探秘FreeMovie：一个开源的电影推荐系统

2.渲染管线——应用阶段

GPT-4、GPT-4O 和 GPT-4O-mini 的区别与联系

第72期 | GPTSecurity周报

[预训练语言模型专题] 百度出品ERNIE合集，问国产预训练语言模型哪家强

【Lora微调】提高模型效率的创新方法

南方cass简码识别大全_CASS分类简码

广东某海水取排水管线工程边坡自动化监测

Transformer大模型实战 BART模型的架构

第84期 | GPTSecurity周报

从文字到思维：呆马GPT在人工智能领域的创新之旅

LLaMA Pro是什么 相比于lora full freeze有什么区别 怎么使用

12 分布式事务

Python 如何使用 Bert 进行中文情感分析

Python Selenium使用cookie实现自动登录WB

如何应对 IT 项目中的需求变更？

深入理解旋转位置编码（RoPE）及其在大型语言模型中的应用

TRELLIS文本或图像生3d模型一键整合包win版本，省去繁琐安装、效果超Wonder3D，对硬件要求更低速度更快16g N卡可流畅运行

使用OpenAI Chat模型进行自然语言处理的实战指南

大语言模型原理与工程实践：预训练数据构建

【Codex】Evaluating Large Language Models Trained on Code

一篇带你搞懂为什么Vue3比Vue2效率更高！

飞速搭震撼上线开启软件开发智能化新篇章

LLaMA Pro是什么相比于lora full freeze有什么区别怎么使用