语料第6页

图像生成之条件生成对抗网络（CGAN）

在原文中，作者指出扩大神经网络模型去适应大量的预测输出类别是很有挑战性的，所以作者提到，利用来自其他模态的附加信息去解决这个问题:例如，通过使用自然语言语料库来学习标签的向量表示，因为几何关系具有语义意义

Wilson_Hank·2024-01-19 05:34

LaWGPT安装和使用教程的复现版本【细节满满】

该系列模型在通用中文基座模型（如Chinese-LLaMA、ChatGLM等）的基础上扩充法律领域专有词表、大规模中文法律语料预训练，增强了大模型在法律领域的基础语义理解能力。

D洁洁和W的御用Programmer·2024-01-18 22:57

大模型学习笔记02——大模型的能力

被训练来预测下一个词由于GPT-3并未特别针对任何这些任务进行训练，因此它并未过度拟合，意味着它有很大的潜力在许多其他任务上表现良好2、语言模型的适应性：从语言模型到任务模型的转化以GPT-3为例，仅在大量语料上训练的语言模型

等风来随风飘·2024-01-18 21:13

昇思MindSpore技术公开课——第三课：GPT

GPT模型的核心思想是在大规模语料库上进行预训练

STRUGGLE_xlf·2024-01-18 20:52

2022-03-24

自然语言处理实验演示-17.RegexpStemmer词干提取词干提取(Stemming)是英文语料预处理的其中一个必要步骤，英语单词在句子中使用时会转化成各种形式。

跨象乘云·2024-01-18 20:16

Python中如何使用NLTK/TextBlob/VADER等库进行情感分析

NLTK还提供了情感词汇（如WordNet）和语料库，用于帮助构建情

Pandas120·2024-01-18 13:54

大语言模型系列-word2vec

Skip-Gram模型2.CBOW模型二、word2vec的训练机制1.Hierarchicalsoftmax2.NegativeSampling总结前言在前文大语言模型系列-总述已经提到传统NLP的一般流程：创建语料库

学海一叶·2024-01-18 08:39

中文NLP笔记：11. 基于 LSTM 生成古诗

基于LSTM生成古诗1.语料准备一共四万多首古诗，一行一首诗2.预处理将汉字表示为One-Hot的形式在每行末尾加上]符号是为了标识这首诗已经结束，说明]符号之前的语句和之后的语句是没有关联关系的，后面会舍弃掉包含

不会停的蜗牛·2024-01-18 04:37

Chatopera 云服务支持大语言模型对话（LLM），定制您的聊天机器人

大语言模型对话的应用场景大语言模型通过对海量语料进行机器学习，可以回答很多种类的问题，以下列举3点：回答事实性问题，比如“珠穆朗玛峰的海拔是多少？”回答生活、天气、出行

Chatopera 研发团队·2024-01-17 22:04

ChatGPT4.0 ＞ChatGPT 3.5 ＞文心一言

它是使用了大规模的语料库进行无监督学习的结果，并且在生成自然流畅的文本方面表现出色。ChatGPT可以用于各种对话任务，例如回答问题、提供建议、进行闲聊等。它可以理解和生成人类语言，对大部分输

测试部的故事·2024-01-17 15:45

ChatGPT和文心一言哪个好用？

ChatGPT：强大的对话生成模型ChatGPT是由OpenAI开发的一款强大的对话生成模型，它基于大规模的语料库训练而

刻刻帝的海角·2024-01-17 12:46

ChatGPT人工智能对话系统源码一款非常强大的AI智能系统附带完整的搭建教程

它基于深度学习技术，通过学习大量的语料库，实现了自然语言理解和生成的能力，能够与用户进行智能化的交互。

源码集结地·2024-01-17 11:38

“智能助手对比及人工智能的发展前景“

ChatGPT使用了大量的语料库和训练数据，这使得它在知识库丰富度方面具有

Thrive_LCX·2024-01-17 10:30

RAG基础功能优化、以及RAG架构优化

文本嵌入模型：基于新语料微调嵌入模型、动态表征。提示工程优化：优化模板增加提示词约束、提示词改

lichunericli·2024-01-16 20:57

分享3个免费ChatGPT国内AI软件，请及时收藏！

很多小伙伴应该都听说过，其不仅在自然语言处理领域取得了巨大的成就，并且被广泛用于各种应用领域：精准的自然语言处理能力：ChatGPT模型使用了大规模的预训练语料库进行训练，具有极强的自然语言处理能力。

偷拨网线的william·2024-01-16 15:29

多语言历史报纸广告事件抽取（ACL2023）

其次，大多数现成的NLP模型是在现代语言文本上训练的，这使得它们在应用于历史语料库时效果显著降低。这对于研究较少的任务以及非英语语言尤为棘手。

Ly大可爱·2024-01-16 03:31

Embedding：数据的奇妙之变

它在大规模语料库上进行了训练，可以

千与编程·2024-01-16 02:36

Mindspore 公开课 - CodeGeeX

截至2022年6月22日，CodeGeeX历时两个月在20多种编程语言的代码语料库（>8500亿Token）上预训练得到。CodeGeeX有以下特

coyote_xujie·2024-01-15 22:13

TF-idf与BM25

TF-idf与BM25TF-idfTF-IDF是一种统计方法，用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

非洲小可爱·2024-01-15 00:09

ChatBot闲聊---腾讯自然语言处理 NLP

闲聊服务基于腾讯领先的NLP引擎能力、数据运算能力和千亿级互联网语料数据的支持，同时集成了广泛的知识问答能力，可实现上百种自定义属性配置，以及儿童语言风格及说话方式，从而让聊天变得更睿智、简单和有趣。

不说话的卡卡西·2024-01-15 00:47

AAAI 2022：三角分解一致性约束的端到端语音翻译丨AI Drive

对于给定三元组训练语料，传统的高质量端到端语音翻译系统利用预训练模型，然后利用进一步优化它。然而，该过程在每个阶段只涉及二元组数据，这种松散耦合未能充分利用三元组数据之间的关联。

数据实战派·2024-01-14 20:44

大型语言模型综述/总结 LLM A Survey of Large Language Models

ASurveyofLargeLanguageModelAbstractINTRODUCTIONOVERVIEW背景LLM的新兴能力LLM的关键技术GPT系列模型的技术演进大语言模型资源公开可用的模型检查点或API常用语料库代码库资源预训练数据收集架构论文标题

天天写点代码·2024-01-14 16:40

从头开始构建大语言模型(LLM)

从最初的设计和创建到对通用语料库的预训练，一直到针对特定任务进行微调。构建大语言模型课程内容包括：从

这就是编程·2024-01-13 19:41

书生.浦语大模型实战一

从专用模型到通用大模型数据书生.万卷1.0文本图像-文本视频数据OpenDataLab开放平台图像：ImageNettokens语料：WikiQA音频视频：MovieNet3D模型预训练微调增量续训使用场景

时空摆渡者·2024-01-13 16:12

中科院国产多语言大模型-YAYI2开源！家族AI应用场景全覆盖！

项目简介YAYI2是中科闻歌研发的新一代开源大语言模型，中文名：雅意，采用了超过2万亿Tokens的高质量、多语言语料进行预训练。

孜孜孜孜不倦·2024-01-13 14:16

解密TF-IDF：打开文本分析的黑匣子

TF-IDF用于评估一个词语对于一个在语料库中的文件集或一个语料库中的其中一份文件的重要程度。它是一种统计方法，用以评估词语对于一个文件集或一个查询库中的其中之一的重要性。

散一世繁华，颠半世琉璃·2024-01-13 03:18

自然语言处理——7.7 词性标注概述

例如：在英语中(1)Timeflieslikeanarrow.(2)Iwantyoutowebourannualreport.对Brown语料库的统计，55％词次兼类。

SpareNoEfforts·2024-01-13 02:20

MATHPILE：一个高质量的大规模的数学语料库

简介MATHPILE：一个高质量、大规模的数学语料库，29GB，包含约 95亿个token。涵盖从K-12到大学、研究生水平和数学竞赛的内容，包括高质量教科书、讲义、科学论文等。

AI 研习所·2024-01-13 01:16

苏东坡传5《千古遗爱》

一个是他的原配妻子王弗，她拥有一双识人的慧眼，他来家中的好友都被夫人一语料定。

晓丽991·2024-01-12 23:19

Glove词向量技术

GloVe的主要目标是通过无监督学习从大规模文本语料库中学习词汇的分布式表示，类似于Word2Vec模型。GloVe的设计理念是在Word2Vec的基础上进一步优化，以更好地捕捉词语之间的语义关系。

Algorithm_Engineer_·2024-01-12 18:51

word2vec中的CBOW和Skip-gram

Word2Vec由Google的研究员TomasMikolov等人于2013年提出，它通过无监督学习从大规模文本语料库中学习词汇的分布式表示。

Algorithm_Engineer_·2024-01-12 12:21

工智能基础知识总结--词嵌入之Word2Vec

词的离散表示One-hot表示根据语料构造一个大小为V的词汇表，并为每一个词分配一个id。每个词都可以表示为一个V维向量

北航程序员小C·2024-01-12 12:13

自然语言处理-用于预训练词嵌入的数据集

该语料库取自“华尔街日报”的文章，

白云如幻·2024-01-12 09:28

【python、nlp】文本预处理

文本预处理及其作用：文本语料在输送给模型前一般需要一系列的预处理工作，才能符合模型输入的要求，如：将文本转化成模型需要的张量，规范张量的尺寸等，而且科学的文本预处理环节还将有效指导模型超参数的选择，提升模型的评估指标

岩塘·2024-01-12 09:52

用TF-IDF处理文本数据

诸如“the”、“will”和“you”等被称为停顿词的词在语料库中出现得最多，但意义不大。相反，那些罕见的词实际上是那些有助于区分数据的词，而且更有分量。TF-IDF简介TF-

沉住气CD·2024-01-12 05:49

rasa算法_（十八）基于RASA开始中文机器人实现机制

机器人管理概述框架是多租户SAAS系统，每个用户可以创建多个机器人，每个机器人关联独立的语料库，机器人能力，话术流程，在RASA中对应一个RASA运行实例。

我读过书不要骗我·2024-01-11 23:26

SFT会改善LLM性能，RLHF可能会损害性能

SFT可以提高性能的原因有几个：领域自适应：预训练的语言模型通常在大规模通用语料库上进行训练，而SFT可以通过在特定领域的数据上微调模型，使其更好地适应该领域的特定模式、术语和上下文。

小草cys·2024-01-11 19:26

中国科学院大学移动互联网技术2018年原题大题最后一题

问题：假设我们现在有一个语料库如下，其中是句首标记，是句尾标记：yesnonononoyesnononoyesyesyesno下面利用trigram模型来计算这个句子出现的概率：yesnonoyes

UCASXS·2024-01-11 05:43

免费英-挪平行语料赠送啦！

因为工作的原因业余时间整理出5W英语-挪威语平行语料，现免费赠送给各位NLP大佬，有意向的同学麻烦私信我获取！希望大家多多交流共同进步！

AONDATA·2024-01-10 23:34

TF-IDF（Term Frequency-Inverse Document Frequency）算法详解

它可以定义为计算一个词在一系列或语料库中与文本的相关性。其含义与词在文本中出现的次数成比例增加，但受语料库（数据集）

EulerBlind·2024-01-10 19:37

自然语言处理之文本表示（二）

实例假设我们的语料库如下：```荣荣爱玩游戏垃圾该分类了我爱自然语言处理```经过tokenization化之后得到如下的`vocabulary`字典```{"荣荣":0,"爱":1,"玩游戏":2,"

fighting_7c21·2024-01-10 08:54

N-gram 分词

github地址数据说明本实验使用的语料是人民日报1998年中文标注的语料库，19484条。在处理过程中，按照训练集:测试集=9:1的比例进行随机划分。数据预

Silence_Dong·2024-01-09 16:23

人而不学，其犹正墙面而立。

——《尚书孔传》节选【释义·点评】《尚书孔传》是《尚书》的注疏语料。“人而不学，其犹正墙面而立”是《尚书孔传》对《尚书》中“不学墙面”一语的注疏。

钩钩手·2024-01-09 15:44

ERNIE: Enhanced Representation through Knowledge Integration论文笔记

maskPhrase-LevelMasking：短语级别的maskEntity-LevelMasking：实体级别的mask2.HeterogenereousCorpusPre-training加入更多语料

大可爱学习·2024-01-09 15:19

用通俗易懂的方式讲解：结合检索和重排序模型，改善大模型 RAG 效果明显

许多这类应用都采用了用于检索增强生成（RAG）的标准技术栈，其中包括以下关键步骤：向量存储库：使用向量存储库来存储非结构化文档，即知识语料库。

Python算法实战·2024-01-08 11:52

cs244n笔记（二）

这个矩阵包含了所有的中心词向量，从语料库的第一个窗口开始取出第一个词向量，代入上图的式子，然后最大化这个概率式值，然后为了所有这些不同的词取词向量，下一步是计算中心词(into)和其他词的概率。

周老师元亨利贞文化教育·2024-01-08 06:40

深圳内推 | 腾讯大数据平台混元AIGC团队招聘文生3D方向算法实习生

腾讯腾讯混元大模型是由腾讯全链路自研的实用级大模型，拥有超千亿参数规模、预训练语料超2万亿tokens，具备强大的中文创作能力，复杂语境下的逻辑推理能力，以及可靠的任务执行能力。

PaperWeekly·2024-01-08 02:08

第一章：文字和语言VS数字和信息

概念与主题：通信的原理和信息传播的模型（信源）编码和最短编码解码的规则，语法聚类校验位双语对照文本，语料库，机器翻译多义性和利用上下午消除歧义性image.png信息的冗余是信息安全的保障。

dreampai·2024-01-07 18:14

数据清洗：用一行Python代码去掉文本中的各种符号

前言在搜集了很多文本语料之后，会开始漫长的数据清洗过程，通常要不断迭代。1.问题描述有些文本数据中，会包含一些特殊符号。猜想可能是从某些富文本编辑器中直接粘贴到了网页。

coder1479·2024-01-07 10:27

《军神》教学中的“学程”组建 ——一种“寻视”和“共在”，一种“烦忙”和“烦神”

任何存在都是在时间之内的存在，当然，语文教学中孩子也一定是一种时间之内的存在，孩子与孩子虽则存在于各自的位置，却同处于一个场所，又因为那手中的一本教材，或者正在经历的一个语料，而处于一种“共同寻视”的状态

宝应陈林·2024-01-07 03:26

推荐频道

语料