语料第3页

DeepSeek-R1 671B VS DeepSeek V3，搭建和部署各自架构都需要什么样的硬件条件和成本? R1跟V3对比有何优劣,哪个更适合?

15亿,7b=70亿1.1参数规模与架构创新参数规模：6710亿参数（671B），采用混合专家（MoE）架构，实际激活参数37亿，在保证性能的同时降低计算负载训练数据：基于14.8万亿token的高质量语料

寒鸦xxx·2025-03-09 09:44

Llama3-8B+ LLaMA-Factory 中文微调

Llama3-8B+LLaMA-Factory中文微调Llama3是目前开源大模型中最优秀的模型之一，但是原生的Llama3模型训练的中文语料占比非常低，因此在中文的表现方便略微欠佳！

猫猫姐·2025-03-07 23:46

大模型实战—Llama3-8B 中文微调

Llama3-8B+LLaMA-Factory中文微调Llama3是目前开源大模型中最优秀的模型之一，但是原生的Llama3模型训练的中文语料占比非常低，因此在中文的表现方便略微欠佳！

不二人生·2025-03-06 23:25

gradio之持续输入，持续输出（流式）

而用yield会持续更新往下执行foriinrange(length):time.sleep(8)yield'总共'+str(length)+'条语料，已运行'+str(i+1)+'条'在Gradio中

大霞上仙·2025-03-05 18:26

python读取word文档结构图_python根据文章标题内容自动生成摘分享的实例

如何用Python玩转TF-IDF之寻找相似文章并生成摘要应用1：关键词自动生成核心思想是对于某个文档中的某个词，计算其在这个文档中的标准化TF值，然后计算这个词在整个语料库中的标准化IDF值。

weixin_39997664·2025-03-04 19:40

详解LLM 核心技能-大文本分块技术

例如，在语义搜索中，我们会对文档语料库进行索引，每个文档都包含有关特定

大模型入门学习·2025-03-04 13:21

Llama 2架构深度解析：Meta开源的70B参数大模型设计哲学

Meta开源的商用级大语言模型，其架构设计体现了三大核心原则：效率优先：在7B/13B/70B参数规模下保持线性计算复杂度扩展性强化：通过改进注意力机制支持4k上下文长度安全性内嵌：在预训练阶段融入5%安全语料

AI时代已来！·2025-03-02 14:46

Transformer预测 | 基于TCN-Transformer的股票价格预测（Pytorch）

|基于TCN-Transformer的股票价格预测（Python）Transformer模型本质上都是预训练语言模型，大都采用自监督学习(Self-supervisedlearning)的方式在大量生语料上进行训练

机器学习之心·2025-03-02 13:35

BERT模型深入理解——自然语言处理的里程碑

BERT创新性地使用预训练+微调模式，先用预训练在大量无标注的语料中进行自监督学习，学习到语言的通用规律，然后在少量有标注的数据中进行有监督学习，适配更精细化的任务。这种模式一直影响到最新的大模型结

cufewxy2018·2025-03-01 06:47

大模型之二十七-语音识别Whisper实例浅析

Whisper简介Whisper是OpenAI于2022年9月开源的一个多语种识别模型，目前支持99种语言，是目前性能最好的开源多语种识别ASR大模型，第一版版使用了68万小时标注好的语料预训练模型，而

shichaog·2025-02-27 01:55

大语言模型：从开发到运行的深度解构

一、LLM开发训练的全流程解析1.数据工程的炼金术数据采集：构建涵盖网页文本（CommonCrawl）、书籍、论文、代码等领域的超大规模语料库，典型规模可达数十TB。

nbsaas-boot·2025-02-23 15:38

DeepSeek的架构设计

网络实现μs级延迟能效优化:采用液冷+余热回收技术，PUE<1.1，算力密度达50kW/机柜故障自愈:基于强化学习的节点健康预测系统，实现硬件故障30秒内隔离2.数据工场体系多模态处理管道:文本：20PB语料库

程序猿000001号·2025-02-22 06:24

什么是语料清洗、预训练、指令微调、强化学习、内容安全；什么是megatron，deepspeed，vllm推理加速框架

什么是语料清洗、预训练、指令微调、强化学习、内容安全目录什么是语料清洗、预训练、指令微调、强化学习、内容安全语料清洗预训练指令微调强化学习内容安全什么是megatron，deepspeed，vllm推理加速框架语料清洗语料清洗是对原始文本数据进行处理的过程

ZhangJiQun&MXP·2025-02-21 19:45

【自然语言处理|迁移学习-08】：中文语料完型填空

文章目录1中文语料完型填空任务介绍2数据集加载及处理3定义下游任务模型4模型训练5.模型测试1中文语料完型填空任务介绍任务介绍：完成中文语料完型填空完型填空是一个分类问题，[MASK]单词有21128种可能数据构建实现分析

爱学习不掉头发·2025-02-20 14:50

DeepSeek与ChatGPT：AI语言模型的全面对决

为不同需求场景提供选择参考：一、核心技术对比维度DeepSeekChatGPT架构设计混合专家系统（MoE）+自研深度优化架构Transformer架构（GPT-3.5/4系列）训练策略万亿token中文语料预训练

金枝玉叶9·2025-02-20 12:01

《Ollama 与 DeepSeek 整合应用入门指南》一、二、三章

无需网络连接的数据隐私保护跨平台架构设计：支持Windows/macOS/Linux全平台模型管理引擎：自动化处理模型依赖与版本控制1.2DeepSeek模型特性多模态处理能力：文本生成、代码理解、数学推理中文优化架构：针对中文语料的特殊训练策略模型家族图谱

Allen-Steven·2025-02-19 01:05

DeepSeek底层揭秘——知识图谱与语料库的联邦学习架构

目录1.知识图谱与语料库的联邦学习架构2.技术要素3.技术难点与挑战4.技术路径5.应用场景6.最新研究与技术进展7.未来趋势8.实际案例猫哥说1.知识图谱与语料库的联邦学习架构(1)定义“知识图谱与语料库的联邦学习架构

9命怪猫·2025-02-14 02:51

DeepSeek Coder 填空任务在代码生成和补全中具体是如何实现的？

模型训练：模型通过项目级别的代码语料库进行预训练，使用16K窗口大小和

百态老人·2025-02-11 10:09

2025最新ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研应用

这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。

梦想的初衷~·2025-02-10 16:53

NLP_[2]-认识文本预处理

文章目录1认识文本预处理1文本预处理及其作用2.文本预处理中包含的主要环节2.1文本处理的基本方法2.2文本张量表示方法2.3文本语料的数据分析2.4文本特征处理2.5数据增强方法2.6重要说明2文本处理的基本方法

闵少搞AI·2025-02-10 03:57

大模型学习笔记 - LLM 对齐优化算法 DPO

LLM-DPOLLM-DPODPO概述DPO目标函数推导DPO目标函数梯度的推导DPO概述大模型预训练是从大量语料中进行无监督学习，语料库内容混杂，训练的目标是语言模型损失，任务是nexttokenprediction

JL_Jessie·2025-02-10 03:54

Llama最新开源大模型Llama3.1

该模型使用了超过15万亿（15T）个token的训练语料，并在16000块英伟达H100GPU上进行了训练。此外，Llama3.1还推出了8B和70

kcarly·2025-02-04 21:32

齐普夫定律（Zipf‘s Law）

它指出，在一篇文本或一个语料库中，单词的出现频率fff与其频率排名rrr之间存在如下关系：f∝1rsf\propto\frac{1}{r^s}f∝rs1其中：fff是单词的出现频率。

彬彬侠·2025-02-02 16:36

pytorch基于GloVe实现的词嵌入

PyTorch实现GloVe（GlobalVectorsforWordRepresentation）的完整代码，使用中文语料进行训练，包括共现矩阵构建、模型定义、训练和测试。

纠结哥_Shrek·2025-02-01 15:31

大型语言模型构建指南：从头开始构建大语言模型《Build a Large Language Model (From Scratch)》免费PDF

你将从最初的设计和创建到通用语料库的预训练，一直到特定任

AGI大模型学习·2025-01-30 05:34

书籍推荐：《从零构建大型语言模型》附免费PDF下载

你将从最初的设计和创建到通用语料库的预训练，一直到特定任

大模型入门学习·2025-01-30 05:33

Qwen-VL论文解读

从Qwen-LM开始，我们通过精心设计的（i）视觉受体，（ii）输入-输出接口，（iii）3阶段训练管道，以及（iv）多语言多模态清洗语料库，赋予其视觉能力。

dream_home8407·2025-01-29 09:10

# 第一章：认识chatgpt

基于大规模语料库

出门喝奶茶·2025-01-28 09:27

python 语音识别

在python中训练一个语音识别系统主要需要以下几个步骤：-语料库准备-数据预处理-特征提取-训练模型第一部分：语料库的准备什么是语料库？语料库长什么样？

柚梓sir·2025-01-26 19:01

“大模型横扫千军”背后的大数据挖掘--浅谈MapReduce

文章目录O背景知识1数据挖掘2邦费罗尼原则3TF.IDF4哈希函数5分布式文件系统一、MapReduce基本介绍1.Map任务2.按键分组3.Reduce任务4.节点失效处理5.小测验：在一个大型语料库上有

绒绒毛毛雨·2025-01-26 01:35

基于Python的自然语言处理系列（2）：Word2Vec（负采样）

负采样是一种优化Skip-gram模型训练效率的技术，它能在大规模语料库中显著减少计算复杂度。接下来，我们将通过详细的代码实现和理论讲解，帮助你理解负采样的工作原理及其在Word2Vec中的应用。

会飞的Anthony·2025-01-25 15:51

用Python实现概率语言模型（2-元语法模型）

首先构造一个语料库，由6句话组成，每句话3个字。

peanutwang·2025-01-22 01:16

告诉你为什么数据要取对数

例如，每个数据项的值都很大，许多这样的值进行计算可能对超过常用数据类型的取值范围，这时取对数，就把数值缩小了，例如TF-IDF计算时，由于在大规模语料库中，很多词的频率是非常大的数字。

LensonYuan·2025-01-18 08:10

Transwarp Data Studio 4.0 ：适应AI新时代实现三大能力提升

近日，星环科技重磅发布大数据开发工具TranswarpDataStudio4.0版本，新版针对数据资产运营和语料管理的过程实现了三大能力提升。第一，提升了数据管理的广度：为应对

·2025-01-18 05:12

【笔记】自然语言处理NLP---概论

自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学

xhanZ·2024-09-12 17:10

大模型书籍推荐：从头开始构建一个大型语言模型（含PDF免费）《Build a Large Language Model (From Scratch)》

你将从最初的设计和创建到通用语料库的预训练，一直到特定任

AI女王·2024-09-12 15:58

【拥抱AI】浅谈Prompt的书写规范及要点

Prompt的工作原理是通过建立相应的语料库和语义解析模型，将自然语言转换为机器可识别的指令。在大模型时代，Prompt的使用尤为重要，因为它可以帮助模型更好地理解用户的意图并

奔跑草-·2024-09-12 13:19

基于Langchain的大模型RAG技术介绍（附示例代码）

这些模型在大小和性能上各有所长，但大多数都是在通用语料库上进行训练的，因此它们只具备通用知识，对于专业领域的知识了解较少。

赵放-AI·2024-09-11 19:16

LLM系列 | 36：Google最新开源大模型：Gemma 2介绍及其微调(下篇)

JasonLiu1919·2024-09-08 18:10

RAFT: Adapting Language Model to Domain Specific RAG

RAFT：使语言模型适应特定领域的RAG摘要1引言2LLM用于开卷考试3RAFT4评估5RAFT推广到Top-KRAG6相关工作7结论摘要在文本数据的大型语料库上预训练大型语言模型（LLM）现在是一种标准范式

UnknownBody·2024-09-07 21:43

【大模型系列篇】预训练模型：BERT & GPT

该模型是在大量文本语料库上结合无监督和监督学习进行训练的。BERT的目标是创建一种语言模型，可以理解句子中单词的上下文和含义，同时考虑到它前后出现的单词。

木亦汐丫·2024-09-06 18:13

NLP从零开始------17.文本中阶处理之序列到序列模型（2）

3.学习序列到序列模型可以看成一种条件语言模型，以源句x为条件计算目标句的条件概率该条件概率通过概率乘法公式分解为从左到右每个词的条件概率之积：序列到序列模型的监督学习需要使用平行语料，其中每个数据点都包含一对源句和目标句

人生百态，人生如梦·2024-09-04 22:20

graphrag论文精读

然而，RAG方法在处理涉及整个文本语料库的全局问题时效果不佳，比如“数据集中主要的主题是什么？”这些问题本质上是一个面向查询的总结任

Ramos_zl·2024-08-30 09:48

FrameNet介绍——从同义词语义知识库到框架语义知识库

FrameNet是一个为期三年的项目，获得了NSF（美国国家科学基金会）的支持，专注于基于语料库的计算词典编纂。

禾风wyh·2024-08-30 07:35

热爱分享的博士僧·2024-08-29 23:11

自然语言处理系列四十二》新词发现与短语提取》新词发现》代码实战

人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列四十二新词发现》代码实战短语提取算法原理总结自然语言处理系列四十二新词发现》代码实战新词发现是NLP的基础任务之一，通过对已有语料进行挖掘

陈敬雷-充电了么-CEO兼CTO·2024-08-29 20:24

常见的NLP处理框架介绍！

它提供了丰富的资源，包括文本处理、语料库、分类、标记、解析、语义推理

weixin_54503231·2024-08-27 09:21

真全！GitHub上出现了一个353种语言资源的汇总

7000+种语言，超过四百种濒临灭绝全世界平均每两个星期就有一门语言彻底消失……于是，有人看不下去了他们在GitHub上开发了一个项目专门对353种语言信息做了汇总及科普并整理了20个可免费下载的平行语料资源库他们说

一只小哞哞·2024-08-23 17:34

百度Ernie大模型是什么？

它由百度研发，旨在通过整合大规模语料和知识图谱来增强模型的语言理解和生成能力。它通过整合大规模语料和知识图谱，采用多任务学习和分层预训练策略，在多个自然语言处理任务上取得了显著的性能提升。

会飞的岛格酱·2024-08-21 21:01

ChatGPT：智能论文写作指南，让您成为写作高手

通过训练大量的语料库

AI臻蚌·2024-03-27 01:48

推荐频道

语料

DeepSeek-R1 671B VS DeepSeek V3，搭建和部署各自架构都需要什么样的硬件条件和成本? R1跟V3对比有何优劣,哪个更适合?

Llama3-8B+ LLaMA-Factory 中文微调

大模型实战—Llama3-8B 中文微调

gradio之持续输入，持续输出（流式）

python读取word文档结构图_python根据文章标题内容自动生成摘分享的实例

详解LLM 核心技能-大文本分块技术

Llama 2架构深度解析：Meta开源的70B参数大模型设计哲学

Transformer预测 | 基于TCN-Transformer的股票价格预测（Pytorch）

BERT模型深入理解——自然语言处理的里程碑

大模型之二十七-语音识别Whisper实例浅析

大语言模型：从开发到运行的深度解构

DeepSeek的架构设计

什么是语料清洗、预训练、指令微调、强化学习、内容安全； 什么是megatron，deepspeed，vllm推理加速框架

【自然语言处理|迁移学习-08】：中文语料完型填空

DeepSeek与ChatGPT：AI语言模型的全面对决

《Ollama 与 DeepSeek 整合应用入门指南》一、二、三章

DeepSeek底层揭秘——知识图谱与语料库的联邦学习架构

DeepSeek Coder 填空任务在代码生成和补全中具体是如何实现的？

2025最新ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研应用

NLP_[2]-认识文本预处理

大模型学习笔记 - LLM 对齐优化算法 DPO

Llama最新开源大模型Llama3.1

齐普夫定律（Zipf‘s Law）

pytorch基于GloVe实现的词嵌入

大型语言模型构建指南：从头开始构建大语言模型《Build a Large Language Model (From Scratch)》免费PDF

书籍推荐：《从零构建大型语言模型》附免费PDF下载

Qwen-VL论文解读

# 第一章：认识chatgpt

python 语音识别

“大模型横扫千军”背后的大数据挖掘--浅谈MapReduce

基于Python的自然语言处理系列（2）：Word2Vec（负采样）

用Python实现概率语言模型（2-元语法模型）

告诉你为什么数据要取对数

Transwarp Data Studio 4.0 ：适应AI新时代实现三大能力提升

【笔记】自然语言处理NLP---概论

大模型书籍推荐：从头开始构建一个大型语言模型（含PDF免费）《Build a Large Language Model (From Scratch)》

【拥抱AI】浅谈Prompt的书写规范及要点

基于Langchain的大模型RAG技术介绍（附示例代码）

LLM系列 | 36：Google最新开源大模型：Gemma 2介绍及其微调(下篇)

RAFT: Adapting Language Model to Domain Specific RAG

【大模型系列篇】预训练模型：BERT & GPT

NLP从零开始------17.文本中阶处理之序列到序列模型（2）

graphrag论文精读

FrameNet介绍——从同义词语义知识库到框架语义知识库

语料清洗软件工具测评推荐

自然语言处理系列四十二》新词发现与短语提取》新词发现》代码实战

常见的NLP处理框架介绍！

真全！GitHub上出现了一个353种语言资源的汇总

百度Ernie大模型是什么？

ChatGPT：智能论文写作指南，让您成为写作高手

什么是语料清洗、预训练、指令微调、强化学习、内容安全；什么是megatron，deepspeed，vllm推理加速框架