语料第15页

GPT(Generative Pre-Training)论文解读及实现(一)

1GPTFramework1.1Unsupervisedpre-trainingGivenanunsupervisedcorpusoftokensU={u1,...,un},weuseastandardlanguagemodelingobjectivetomaximizethefollowinglikelihood:在给定语料上下文环境下

晚点吧·2023-07-13 21:30

ChatGPT的回答是否总是准确的？

它没有对世界的实际知识或常识的认知，仅仅是通过学习大量的语料库中的模式来进行回答。因此，在处理复杂或具有歧义的问题时

心似浮云️·2023-06-24 06:14

CPM-Bee大模型微调

它采用Transformer自回归架构（auto-regressive），在超万亿（trillion）高质量语料上进行预训练，拥有强大的基础能力。开发者和研究者可以在CPM

江小皮不皮·2023-06-23 22:30

【LLM系列之GPT】GPT（Generative Pre-trained Transformer）生成式预训练模型

GPT（GenerativePre-trainedTransformer）是由OpenAI公司开发的一系列自然语言处理模型，采用多层Transformer结构来预测下一个单词的概率分布，通过在大型文本语料库中学习到的语言模式来生成自然语言文本

致Great·2023-06-22 20:26

【深度学习】GPT-1

1.GPT-1简介在自然语言处理任务中，存在大量无标签的语料数据，而有标签的语料数据相对较少，因此基于有监督训练的模型性能的提升大大受限于数据集。

DonngZH·2023-06-22 10:55

ChatGPT 爆火背后的大语言模型到底是什么？

大规模预训练语言模型是指利用大量文本语料对神经网络进行预训练，使得神经网络可以学习到语言的各种规律、结构和特征，从而能够实现各种自然语言处理任务。

·2023-06-21 23:56

《人民日报》评论热点话题金句26 | 结构化面试考点 | 申论规范化表达词 | 公考国考省考申论素材积累（2022年9月3日）

参考语料心手相牵，守望相助。中国人历来抱有家国情怀，崇尚天下为公、克己奉公，信奉天下兴亡、匹夫有责，强调和衷共济、风雨同舟。正因此，每逢危急时刻，总有无数平凡人无惧风浪、慷慨前行。

47fed7735c2d·2023-06-21 21:10

阿里天池竞赛 - CCKS2023-面向金融领域的主体事件检测

本次评测任务的文本语料来自于互联上的公

AI生成曾小健·2023-06-21 19:50

Dead Poems Society

而且是学习英文一个很不错的语料。再看《死亡诗社》，一生有一个基汀这样的老师多么难得。能做一个像基汀一样的老师，又岂是什么老师都做得到的。他告诉你，什么是生命，什么是自由。

Joyceyee·2023-06-21 19:34

NeurIPS 2022｜DeepMind最新研究：大模型背后的ICL可能与数据分布密切相关

NeurIPS2022｜DeepMind最新研究：大模型背后的ICL可能与数据分布密切相关大模型自然语言处理机器学习传统的文本语言模型倾向于两阶段的训练模式，即首先在大规模语料库上进行预训练，然后在目标下游任务上进行微调

AI生成曾小健·2023-06-21 13:55

4款好用的文献翻译工具推荐

2、唐帕翻译：基于庞大的术语语料库而成的在线文档翻译平台，网页版无需下载，目

魅色·2023-06-21 12:19

研究生常用工具推荐，可根据需求选择

文档翻译:唐帕翻译，一些专业文件，翻译还是挺精准的，这个和它的底层逻辑有关，因为它是基于庞大的行业术语语料库，以保证翻译的精准度，所以专业术语类的翻译准确率特别高。文档翻译-pdf

魅色·2023-06-21 12:45

OPPO小布推出预训练大模型OBERT，晋升KgCLUE榜首

近期，OPPO小布助手团队和机器学习部联合完成了十亿参数模型“OBERT”的预训练，该模型通过5种mask机制从TB级语料中学习语言知识，在

·2023-06-21 11:51

翻译之深入注释俄罗斯民间故事的语料库，以实现对俄罗斯形式主义理论的机器学习

概述用计算技术成功解决人文主义问题需要在几个不同阶段进行形式化。最经常讨论的阶段是最后一个阶段，在此阶段，将计算学习算法或计算机实现的统计技术应用于（人文主义）数据，从而产生紧迫问题的结果。然而，正如许多数字人文主义者所知，准备数据（即将数据转换为适合计算分析的形式）通常是工作的主要部分，并带来了许多理论上的假设和隐含的偏见。数据准备工作通常也很少处理，在我们对所描述工作的理解上存在很大差距。在这

南荣相如谈编程·2023-06-21 03:27

A Survey of Large Language Models

大语言模型综述摘要1引言2概述2.1LLM的背景2.2GPT系列模型的技术演化3LLMs的资源3.1公开可用的模型检查点或APIs3.2常用的语料库3.3库资源4预训练4.1数据收集4.1.1数据源4.1.2

UnknownBody·2023-06-21 00:16

Pytorch常用的函数(二)pytorch中nn.Embedding原理及使用

以一个只有10个不同词的语料库为例（这里只是举

undo_try·2023-06-20 23:54

2022-09-27

参考语料培育聚人气的好产业。安居乐业是群众的朴素愿望。发展是硬道理，要实现乡村振兴，必须致力于乡村经济发展，以产业的兴旺带动人气的聚集。各地乡村资源禀赋不同，人文环境各异，应结合自身优势发展特色产

47fed7735c2d·2023-06-20 20:14

chatGPT是什么？chatGPT有哪些应用场景

GPT模型采用了Transformer架构，可以从大规模语料库中无监督学习，具有强大的语言理解和生成能力。ChatGPT将GPT模型应用于对话生成，可以进行自然流畅的对话，具有

chatGPT教程·2023-06-20 19:19

Python文本挖掘笔记：1.2文本挖掘的基本流程和任务

文本挖掘/NLP的基本流程1.语料获取（比如网络数据抓取、文本文件读入、图片OCR转化…)2.原始语料的数据化（比如分词、信息清理与合并、文档-词条矩阵、相关字典编制、信息的转换…）3.内在信息挖掘与展示

流光2021·2023-06-20 14:21

【深度学习】BERT变种—百度ERNIE 3.0

ERNIE3.0框架，探索知识增强大规模预训练模型的有效性，对包括纯文本和知识图谱在内的大规模无监督语料进行模型预训练

DonngZH·2023-06-20 08:52

机器学习与深度学习——基于潜在语义分析（LSA）的文档相似度计算

下面是LDA模型的详细描述：收集语料库：首先需要收集一个包含大量文本数据的语料库。这些文本可以是任何类型的，例如新闻文章、博客、论文等等。构建词汇表：然后从语料库中提取所有不同的单词，并构建

星川皆无恙·2023-06-20 08:11

学习Kaldi：中文Aishell项目（上）

本篇文章的主要目标是理解复杂的中文多音素语言模型和使用AiShell语料集来真实的训练出一个可用的中文语音识别模型。完整的AiShell例子包含GMM-HMM和神经网络

陈闽ChenMin·2023-06-20 07:15

NLP:词义分布的空间维度——从文本符号到词向量表征

近年来，随着深度学习的不断发展，基于神经网络的分布式词向量技术在对海量语料进行算法训练的基础上，将符号化的句词嵌入到低维的稠密向量空间中，在解析句法与分析语义等方面都显示出强大的潜力与应用效果。

AI生成曾小健·2023-06-20 04:04

训练大语言模型的步骤

1、数据收集(大量的语料、数据集)足够的高质量数据来训练模型，确保数据集的多样性和代表性，以便模型能够学习到广泛的模式和特征。2、数据预处理对数据进行预处理和清洗。

小生浩浩·2023-06-19 23:42

《Learning from Dialogue after Deployment:Feed Yourself, Chatbot!》阅读笔记——持续学习的对话系统

动机•语料搜集困难，当前对话系统就是用人与人的语料来训练机器人，没有在人机对话时训练机器人•人就是在对话中不断通过反馈来学习说话的•直接利用人机的对话来学习可能导致错误传播，强化学习的思想是通过指标进行反馈

greenhand2014·2023-06-18 13:28

Elasticsearch：实用 BM25 - 第 3 部分：在 Elasticsearch 中选择 b 和 k1 的注意事项

b=0.75和k1=1.2的默认值适用于大多数语料库，因此你可能对默认值没有意见。更有可能的是，你

Elastic 中国社区官方博客·2023-06-18 13:26

简单使用GPT的方法有哪些？

GPT模型是一种基于Transformer结构的神经网络模型，它通过在大规模文本语料上进行自动预训练，学习到了非常丰富和深入的自然语言知识，可以生成质量较高、连贯性较强的文本

denzel1234·2023-06-18 04:08

【无标题】

目录一、课题背景和开发环境二、准备工作1.安装Gensim库2.对原始语料分词三、训练Word2Vec模型四、模型应用1.计算词汇相似度2.找出不匹配的词汇3.计算词汇的词频本文为365天深度学习训练营中的学习记录博客原作者

派大星先生c·2023-06-18 00:47

微信无人托管智能客服系统

通过训练大量的语料库，大语言模型可以理解客户的问题，并给出准确的答案。这样可以大大提高客户的满意度，减少客户等待时间，提高客户忠诚度。智能客服可以与垂直化

慕斯先生·2023-06-17 18:29

放弃RLHF吧！无需手动训练模型价值观，达特茅斯学院发布全新对齐算法

相比人类通过「社交互动」获得价值判断共识，当下语言模型更多的是孤立地从训练语料库中学习价值观，导致在陌生环境中泛化性能很差，容易受到对抗性攻击。

PaperWeekly·2023-06-17 16:05

自然语言处理

语料库语料库(corpus)：指收集和整理的一组文本数据，用于训练和评估自然语言处理模型，就是存放语言材料的仓库(语言数据库)语料库类型：异质的、同质的、系统的、专用的知识库：指存储和组织的结构化知识数据

银晗·2023-06-17 06:38

自然语言处理从入门到应用——全局向量的词嵌入：GloVe（Global Vectors for Word Representation）词向量

这类方法首先对语料进行统计分析，并获得含有全局统计信息的“词–上下文”共现矩阵，然后利

von Neumann·2023-06-17 04:25

NLP基础——Bag of Words 词袋法

具体来说，BoW算法首先创建一个词汇表，包含训练语料中的所有独立单词，然后对于每一个文本，生成一个向量，长度

暖仔会飞·2023-06-17 03:19

吴恩达《ChatGPT Prompt Engineering for Developers》学习笔记

基于语料的限制，有时会返回不符合预期的结果（如

zenRRan·2023-06-16 23:50

大型语言模型综述（一）

文章目录摘要1、简介2、概述2.1LLM的背景2.2GPT系列模型的技术演进3LLMs资源3.1公开可用的模型检查点或api3.2常用语料库3.3算法库资源4预训练4.1数据收集4.1.1数据源4.1.2

静静AI学堂·2023-06-16 21:32

中文Word2Vec训练

通常使用jieba分词工具库来对语料库进行处理。下面来看一些简单例子：importos#jieba分词库importjiebaimportjieb

Eureka丶·2023-06-16 17:29

悟道·天鹰 Aquila + 天秤 FlagEval，打造大模型能力与评测标准双标杆

悟道·天鹰（Aquila）语言大模型在中英文高质量语料基础上从0开始训练，通

智源社区·2023-06-16 01:58

自然语言处理: 第二章Word2Vec

一.理论基础维度很高(与语料库有关)，计算复杂稀疏性，浪费计算效率，只有一个元素是1其他都是0缺乏语义信息，无法衡量语义相似度无法处理未知单词而在One-Hot的基础上，Word2Vec是一种分布式表达字

曼城周杰伦·2023-06-15 23:07

删除深蓝词库转换后txt文件中的重复行

项目场景：在使用深蓝词库转换并且将所有txt文件拼接在一起后，最终的txt文件会出现许多重复的内容，在这里我们要把重复的内容删除（还不清楚有重复内容构成的语料库是否会对最后的结果产生影响）。

库博酱·2023-06-15 20:13

LaWGPT：你的私人法律顾问！

该系列模型在通用中文基座模型（如Chinese-LLaMA、ChatGLM等）的基础上扩充法律领域专有词表、大规模中文法律语料预训练，增强了大模型在法律领域的基础语义理解能力。

flower_drop·2023-06-15 14:18

《论文阅读》在跨语料库上利用集成提示完成零样本的文本情感分类 COLING2022

《论文阅读》在跨语料库上利用集成提示完成零样本的文本情感分类COLING2022前言相关知识hubnessproblem零样本学习灵感来源验证点零样本情感分类的自然语言推理情感提示情感集成自我总结问题前言你是否也对于理解论文存在困惑

365JHWZGo·2023-06-15 13:16

大模型论文周报丨清华大学、CMU、华盛顿大学、莱斯大学、亚马逊等机构前沿科研动态

大模型又可以称为FoundationModel模型，模型通过亿级的语料或者图像进行知识抽取，学习进而生产了亿级参数的大模型。

AMiner学术搜索和科技情报挖掘·2023-06-15 12:07

是时候给你的产品配一个AI问答助手了！

本文由云+社区发表|导语问答系统是信息检索的一种高级形式，能够更加准确地理解用户用自然语言提出的问题，并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。

·2023-06-15 10:25

人工智能的预训练基础模型的分类

预训练基础模型预训练基础模型是指在大规模语料库上进行预训练的通用人工智能模型。

·2023-06-14 18:15

一文详解BERT模型实现NER命名实体抽取

BERT是一个大规模预训练模型，它通过精心设计的掩码语言模型（MaskedLanguageModel，MLM）来模拟人类对语言的认知，并对数十亿个词所组成的语料进行预训练而形成强大的基础语义，形成了效果卓绝的模型

·2023-06-14 16:07

LLM：Prompt-Tuning微调新范式

背景Pre-training+Fine-tuning模式：先在Pre-training阶段通过一个模型在大规模无监督语料上预先训练一个预训练语言模型（Pre-trainedLanguageModel，PLM

-柚子皮-·2023-06-14 14:46

5分钟NLP：快速实现NER的3个预训练库总结

NER模型的作用是识别文本语料库中的命名实体例如人名、组织、位置、语言等。NER模型可以用来理解一个文本句子/短语的意思。

·2023-06-14 10:21

与AI相遇 | 在ChatGPT中输入“情人节”，我们会得到......？

OpenAI新推出的一种人工智能技术驱动的自然语言处理工具，使用了Transformer神经网络架构，也是GPT-3.5架构，这是一种用于处理序列数据的模型，拥有语言理解和文本生成能力，尤其是它会通过连接大量的语料库来训练模型

Jericho2022·2023-06-14 06:05

从 ChatGPT 爆火回溯 NLP 技术

GPT模型是一种NLP模型，使用多层变换器（Transformer）来预测下一个单词的概率分布，通过训练在大型文本语料库上学习到的语言模式来生成自然语言文本。