语料第2页

【NLP】34. 数据专题：如何打造高质量训练数据集

本篇博客将系统梳理LLM数据构建中的核心流程，以FineWeb为例，揭示如何打造一个有规模、有质量、无偏见的训练语料，并讨论相关的伦理与公平性问题。一、构建语料第一步：F

pen-ai·2025-05-21 02:52

用 Gensim 实现 Word2Vec 古诗生成

我们将借助它完成从语料处理到古诗生成的全流程。

万能小贤哥·2025-05-18 01:15

AI时代大数据已经不火了吗？

例如，中国DeepSeek-R1模型通过整合微信生态中积累的4.2亿篇私域语料库，显著提升了信息处理效率，其数据密度是传统爬虫数据的2

AI方案2025·2025-05-18 00:31

大语言模型与多模态模型比较

一、核心差异：输入数据类型与模态融合输入数据类型LLM：仅处理文本数据，例如文本分类、机器翻译、问答等任务，通过大规模语料库学习语言规律。

有梦想的攻城狮·2025-05-17 19:32

Language models are few-shot learners：语言模型是小样本学习者

摘要近期的研究表明，通过在大规模文本语料上进行预训练，再针对特定任务进行微调，可以在许多自然语言处理任务和基准测试中取得显著提升。

AI专题精讲·2025-05-16 12:50

BitNet b1.58 2B4T Technical Report

主要内容模型介绍：介绍了BitNetb1.582B4T，这是首个20亿参数规模的开源原生1比特大语言模型，在4万亿词元的语料库上进行训练，通过多种基准测试评估其性能，模型权重在HuggingFace上发布

UnknownBody·2025-05-13 15:24

[自然语言处理] NLP-文本预处理-详解

一、认识文本预处理1文本预处理及其作用文本语料在输送给模型前一般需要一系列的预处理工作,才能符合模型输入的要求,如:将文本转化成模型需要的张量,规范张量的尺寸等,而且科学的文本预处理环节还将有效指导模型超参数的选择

AIAdvocate·2025-05-12 07:55

1991-2023年上市公司创新信息披露数据

本文采用其中的CBOW(ContinuousBag-of-wordsModel)模型对中文语料进行训练。描述性创新关键词如

经管数据库·2025-05-11 08:01

面向网络安全的开源大模型-Foundation-Sec-8B

它基于Llama3.1-8B架构构建，并通过在一个精心策划和整理的网络安全专业语料库上进行持续预训练而得到增强。

云上笛暮·2025-05-09 07:05

智源：LLM中文高质量互联网语料库

标题：CCI3.0-HQ:alarge-scaleChinesedatasetofhighqualitydesignedforpre-traininglargelanguagemodels来源：arXiv,2410.18505摘要我们介绍CCI3.0-HQ，这是中国企业互联网3.0（CCI3.0）的高质量500GB子集，使用一种新型的两级混合过滤管道开发，可显著提高数据质量。为了评估其有效性，我们

大模型任我行·2025-05-06 19:24

Flux.dev 多风格文生图大模型微调-游戏AI研究所

目录1数据集准备多风格语料2模型选择与初始化3超参数设置4开始训练与监控参考文献1数据集准备多风格语料收集和构建高质量、多样化的多风格图像数据集是最关键的第一步。

游戏AI研究所·2025-05-05 12:05

电子病历高质量语料库构建方法与架构项目（智能数据目录篇）

电子病历高质量语料库的构建是医疗人工智能发展的基础性工作，而智能数据目录作为数据治理的核心组件，能够有效管理这些语料资源。

Allen_Lyb·2025-05-05 11:25

DeepSeek破界而来：重构大规模深度检索的算力与边界

然而，随着模型参数量突破万亿级门槛，传统的深度检索系统正面临前所未有的挑战：当模型需要处理包含数百亿甚至数万亿文档的语料库时，如何在保持高精度的同时实现毫秒级响应？

Want595·2025-05-05 08:01

深入解析：大模型应用开发中的分类及常见大模型介绍

这类大模型的主要特点是它们在大规模语料库上进行了训练，以学习自然语言的各种语法、语义和语境规则

AI大模型-王哥·2025-05-04 05:41

大语言模型原理基础与前沿语言模型和分词

在深度学习框架中，语言模型通常通过神经网络实现，并使用大规模语料库进行预训练，以学习语言的统计规

杭州大厂Java程序媛·2025-05-03 14:03

藏语英语中文机器翻译入门实践

基于统计的方法：基于大量双语语料统计概率进行翻译。基于深度学习的方法（当前主流）：序列到序列（Seq2Seq）模型：将源语言序列转换为目标

山海青风·2025-05-02 21:34

大模型微调：技术迭代与实践指南

微调的量取决于预训练语料库和任务特定语料库之间的相似性。随着技术的发展，微调方法也在不断迭代更新，从而提高了模型的性能和参数效率。本文将探讨大模型微调的常见方法，并提供一个实践指南。PEFT

人工智能培训咨询叶梓·2025-04-28 15:07

电子病历高质量语料库构建方法与架构项目（智能质控体系建设篇）

电子病历高质量语料库是构建智能病历质控系统的基础，它不仅为AI模型提供训练数据，还为医疗

Allen_Lyb·2025-04-28 13:54

迁移学习(基础)

Pretrainedmodel)一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及足够大的数据集进行训练而产生的模型,在NLP领域,预训练模型往往是语言模型,因为语言模型是无监督的,可以获得大量的语料

Psycho_MrZhang·2025-04-26 11:02

AI大模型重构电商搜索推荐的数据治理组织架构优化实践

大模型在处理大规模语料数据时具备显著优势，能够更好地理解和表达电商场景中的复杂语义和上下文信息

AI大模型应用之禅·2025-04-26 09:53

一文详解训练LLM流程

LLM训练包括预训练、微调等环节，其中预训练阶段通过处理大规模语料库数据，让模型学习语言的统计规律、语义信息和上下文关系，微调阶段则是在预训练的基础上，使用特定任务的数据对模型进行进一步的调整。

莫杨94·2025-04-26 01:55

电子病历高质量语料库构建方法与架构项目（计划篇）

然而，电子病历数据具有非结构化、噪声大、专业性强等特点，如何构建高质量电子病历语料库成为医疗自然语言处理领域的核心挑战。

Allen_Lyb·2025-04-25 11:48

AI-大模型

，其核心特征包括：参数量级：现代大模型参数规模通常超过100亿（如GPT-3达1750亿）架构基础：基于Transformer的自注意力机制训练成本：需要数千张GPU/TPU的分布式训练数据需求：训练语料通常达

ghjhjjjbjibh·2025-04-25 06:09

【程序员 NLP 入门】词嵌入 - 上下文中的窗口大小是什么意思？（★小白必会版★）

如何统计语料的共现矩阵？基于计数的表示方法

青松ᵃⁱ·2025-04-24 18:20

ViT中的Postion Embedding(位置编码)详解：数据从一维到二维的变化

它的主流方法是在大型文本语料库上进行预训练，然后在较小的特定任务数据集上进行微调，得益于它的计算效率和可扩展性等优点，它可以训练前所未有的规模，并且随着模型和数据集的增长，仍然没有出现性能饱和的迹象。

程序员非鱼·2025-04-24 15:28

大模型相关 XSS等漏洞事件深度剖析

模型基于注意力机制，通过海量语料数据进行预训练，并经过监督微调、人类反馈的强化学习等进行对齐，构建形成深度神经网络，并增加审核、过滤等安全机制，使算法模型部署后能够根据人类的指令或者提示，实现语义分析、

阳光普照世界和平·2025-04-24 06:00

【程序员 NLP 入门】词嵌入 - 如何基于计数的方法表示文本？（★小白必会版★）

如何统计语料的共现矩阵？基于计数的表示方法存

青松ᵃⁱ·2025-04-24 03:40

Python NLTK库【NLP核心库】全面解析

NaturalLanguageToolkit）库的全面深入讲解，涵盖核心功能、应用场景及代码示例：NLTK库基础一、NLTK简介NLTK是Python中用于自然语言处理（NLP）的核心库，提供了丰富的文本处理工具、算法和语料库

老胖闲聊·2025-04-23 20:54

Python爬虫根据关键词爬取知网论文摘要并保存到数据库中【入门必学】

由于需要一些语料做研究，语料要求是知网上的论文摘要，但是目前最新版的知网爬起来有些麻烦，所以我利用的是知网的另外一个搜索接口比如下面这个网页：http://search.cnki.net/Search.aspx

学术严谨·2025-04-23 16:28

Day10 【基于LSTM实现自回归语言模型文本续写任务】

基于LSTM实现文本续写任务目标数据准备程序说明定义模型结构前向传播构建词表加载语料构建训练样本构建数据集训练模型文本续写困惑度计算训练过程展示目标本文基于给定的词表，将输入的文本以字符分割为若干个词，

Mechanotrooper·2025-04-20 08:19

浅谈大语言模型（LLM）的微调与部署

大语言模型如GPT、BERT等，通常是在大规模通用语料库上预训练的，具备广泛的语言理解能力。但要在特定任务（如医疗问答、法律文档分析）上表现更好，就需要微调。

云端源想·2025-04-19 11:24

论文略读：Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

这类系统通常需要独立的模块来进行信息检索、问答和数据库查询等任务大模型时代，尤其是上下文语言模型（LCLM）时代，上述问题可以“一体化”完成LCLM可以直接接收包含文本、图像、音频等多模态信息的整个语料库作为输入

UQI-LIUWJ·2025-04-19 04:45

虚实共生时代的情感革命：AI恋爱陪伴的兴起、困境与未来

通过深度学习算法解析3000万段真实对话的语料库，结合VR设备提供的多模态交互，当代虚拟对象已能实现瞳孔微表情的精确模拟与声线情感的颗粒化呈现。

晓晓不觉早·2025-04-15 12:08

TensorFlow深度学习实战（12）——词嵌入技术详解

构建词嵌入5.使用Gensim探索嵌入空间6.动态嵌入小结系列链接0.前言在本节中，我们首先介绍词嵌入的概念，然后介绍两种实现词嵌入的方式：Word2Vec和GloVe，学习如何使用Gensim库从零开始构建语料库的词嵌入

盼小辉丶·2025-04-15 11:33

一文搞懂通义千问(Qwen)相关的核心概念

语言和多模态模型均在大规模、多语言、多模态数据上进行预训练，并在高质量语料上后训练以与人类偏好对齐。通义千问分为闭源和开源两大版本。开源模型包括：通义千问(Qwen)：语言模型Qw

大模型面试·2025-04-09 20:47

2001-2023年上市公司供应链中断风险数据

得到了上市公司年报MD&A部分的文本语料。构建供应链中断风险种子词集。根据供应链中断风险的定义与来源(Kleindorf

经管数据集·2025-04-09 08:02

从代码学习深度学习 - NLP之文本预处理 PyTorch版

文本预处理的核心代码解析2.1读取数据集：`read_time_machine`2.2分词处理：`tokenize`2.3词频统计：`count_corpus`2.4构建词表：`Vocab`类2.5加载语料库

飞雪白鹿€·2025-04-07 03:50

AI大型语言模型企业级应用开发架构实战：实时数据流处理与推理

1.背景介绍近年来，随着人工智能技术的迅速发展，特别是基于大规模语料库的预训练模型及其海量计算能力的释放，越来越多的公司、组织和个人开始关注并尝试将这些高性能模型部署到生产环境中，进行业务落地。

AI天才研究院·2025-04-03 06:08

【语料数据爬虫】Python爬虫|批量采集讲话稿数据（1）

前言本文是该专栏的第6篇，后面会持续分享Python爬虫采集各种语料数据的的干货知识，值得关注。在本文中，笔者将主要来介绍基于Python，来实现批量采集“讲话稿”数据。

写python的鑫哥·2025-04-02 06:27

TF-IDF算法及sklearn实现

TF-IDF是一种统计方法，用以评估一字词对与一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比的增加，但同时会

雪顶猫的鳄·2025-04-01 20:12

2025年渗透测试面试题总结- 某蚂蚁-安全工程师-实习（题目+回答）

目录蚂蚁-安全工程师-实习数据库Fuzz的改进思路1.覆盖率引导的深度优化2.测试语料的智能化生成3.执行环境的精细化监控数据库漏洞利用的危害层级1.权限提升与数据泄露2.远程代码执行（RCE）3.持久化与供应链攻击

独行soc·2025-03-31 23:39

【语料数据爬虫】Python爬虫|批量采集讲话稿数据【范文网】（2）

前言本文是该专栏的第7篇，后面会持续分享Python爬虫采集各种语料数据的的干货知识，值得关注。本文，笔者将主要介绍基于Python，来实现批量采集范文网“讲话稿”数据。

写python的鑫哥·2025-03-31 20:49

【揭秘】什么是AI写作？AI写作是助手还是威胁？

AI写作是指利用人工智能技术，特别是自然语言处理（NLP）和机器学习（ML）技术，结合深度学习算法，通过大规模语料库和预训练模型来模仿和生成人类语言文本内容的过程。

ychenhub·2025-03-30 06:55

NLP：词向量

该模型适合分析大规模语料，能够生成高质量的词向量。

00&00·2025-03-27 14:19

LLM-Agent方法评估与效果分析

从基础的单智能体强化学习算法（如PPO）到多智能体协作、语料重组以及在线自学习等新技术不断涌现，研究人员致力于探索如何提高LLM在实际应用中的决策能力、推理能力和任务执行效率。

·2025-03-22 18:50

迁移学习入门

一般预训练模型具备复杂的网络模型结构；一般是在大量的语料下训练完成的预训练语言模型的类别现在我们接触到的预训练语言模型，基本上都是基于transformer这个模型迭代而来的因此划分模型类别的时候，以transformer

EmbodiedTech·2025-03-19 16:14

基于 svm 的金融咨询情感分析

详细代码与代码说明可见我的github：https://github.com/ouprince/svm处理流程：（1）金融咨询处理1.利用7万多条利好/利空语料（已经标注好的，分为1正性，-1负性两类）

ouprince·2025-03-16 10:28

基于AI算法实现的情感倾向分析的方法

download.csdn.net/download/pythonyanyan/87430621背景目前，情感倾向分析的方法主要分为两类：一种是基于情感词典的方法；一种是基于机器学习的方法，如基于大规模语料库的机器学习

程序员奇奇·2025-03-16 10:28

【LLM大模型】大模型涌现能力及 Prompt Engineering提示词

作为概率模型，大语言模型甚至不知道数字代表的真实含义，模型只是在学习了无数的语料之后，发现了一些数学结论之间的潜在概率关系，才最终涌现出了数学运算或者复杂推理的能力。但是“涌现能力

Langchain·2025-03-13 18:15

Python|基于DeepSeek大模型，自动生成语料数据（10）

而在本文中，笔者将基于DeepSeek大模型，通过Python来实现“自动生成目标语料数据”，并对生成的语料数据进行json格式存储，以及docx文档形式

写python的鑫哥·2025-03-10 02:41

推荐频道

语料