语料库第3页

rasa算法_（十八）基于RASA开始中文机器人实现机制

机器人管理概述框架是多租户SAAS系统，每个用户可以创建多个机器人，每个机器人关联独立的语料库，机器人能力，话术流程，在RASA中对应一个RASA运行实例。

我读过书不要骗我·2024-01-11 23:26

SFT会改善LLM性能，RLHF可能会损害性能

SFT可以提高性能的原因有几个：领域自适应：预训练的语言模型通常在大规模通用语料库上进行训练，而SFT可以通过在特定领域的数据上微调模型，使其更好地适应该领域的特定模式、术语和上下文。

小草cys·2024-01-11 19:26

中国科学院大学移动互联网技术2018年原题大题最后一题

问题：假设我们现在有一个语料库如下，其中是句首标记，是句尾标记：yesnonononoyesnononoyesyesyesno下面利用trigram模型来计算这个句子出现的概率：yesnonoyes

UCASXS·2024-01-11 05:43

TF-IDF（Term Frequency-Inverse Document Frequency）算法详解

它可以定义为计算一个词在一系列或语料库中与文本的相关性。其含义与词在文本中出现的次数成比例增加，但受语料库（数据集）

EulerBlind·2024-01-10 19:37

自然语言处理之文本表示（二）

实例假设我们的语料库如下：```荣荣爱玩游戏垃圾该分类了我爱自然语言处理```经过tokenization化之后得到如下的`vocabulary`字典```{"荣荣":0,"爱":1,"玩游戏":2,"

fighting_7c21·2024-01-10 08:54

N-gram 分词

github地址数据说明本实验使用的语料是人民日报1998年中文标注的语料库，19484条。在处理过程中，按照训练集:测试集=9:1的比例进行随机划分。数据预

Silence_Dong·2024-01-09 16:23

用通俗易懂的方式讲解：结合检索和重排序模型，改善大模型 RAG 效果明显

许多这类应用都采用了用于检索增强生成（RAG）的标准技术栈，其中包括以下关键步骤：向量存储库：使用向量存储库来存储非结构化文档，即知识语料库。

Python算法实战·2024-01-08 11:52

cs244n笔记（二）

这个矩阵包含了所有的中心词向量，从语料库的第一个窗口开始取出第一个词向量，代入上图的式子，然后最大化这个概率式值，然后为了所有这些不同的词取词向量，下一步是计算中心词(into)和其他词的概率。

周老师元亨利贞文化教育·2024-01-08 06:40

第一章：文字和语言VS数字和信息

概念与主题：通信的原理和信息传播的模型（信源）编码和最短编码解码的规则，语法聚类校验位双语对照文本，语料库，机器翻译多义性和利用上下午消除歧义性image.png信息的冗余是信息安全的保障。

dreampai·2024-01-07 18:14

爬取各大新闻网站所有新闻

想利用word2vec训练一个同义词模型，准备采用新闻数据做为语料库。

John Stones·2024-01-05 22:51

一步步解析ChatGPT：从头训练或者微调GPT模型，实现差异化AI助手的定制

然而，这些语料库都是开源，因而对应模型训练的结果也都是一样的。那么，我们该如何从头训练或者微调自己的模型，生成极具个性化的AI助手或者写作助手呢？

码说AI·2024-01-05 10:22

自然语言基础: 文本标记算法 (Tokenization Algorithm) : Byte-Pair Encoding (BPE) 和 WordPiece

1.算法a.CorupsCorpus（语料库）是指收集和组织的一系列文本的集合。它可以是不同类型的

disanda·2024-01-04 16:12

Byte-Pair Encoding（BPE）

BPE的基本思想是通过迭代地合并文本语料库中最频繁的相邻字节或字符对，直到达到预定的词汇大

白马负金羁·2024-01-04 16:39

介绍图灵机器人php API

截止到目前为止，平台已经积累了近百亿条语料库和PB级别的基础数据，经测试平台的整体准确度已经达到90%以上，而且平台已经应用于HTC的小Hi语音助手、中国电信的微信平台、海尔的智能家电控制系统等，广受企业的好评

梦回丶故里·2024-01-03 15:43

Word2Vec（词向量）---机器学习

Word2Vec是一种用于将词语映射到向量空间的词嵌入技术，它通过学习大量文本语料库中的词语上下文关系，将每个词语表示为高维向量。这一表示形式使得具有相似语境的词语在向量空间中更加接近。

普通研究者·2024-01-03 13:12

NLP基础——TF-IDF

该方法用于评估一个词语（word）对于一个文件集（document）或一个语料库中的其中一份文件的重要程度。它是一种计算单词在文档集合中的分布情况的统计方法。

小风_·2024-01-03 11:55

机器学习-基于Word2vec搜狐新闻文本分类实验

Word2vec可以根据给定的语料库，通过优化后的训练模型快速有效地将一个词语表达成向量形式，为自然语言处理领域的应用研究提供了新的工具。

septnancye·2024-01-03 08:24

GPT降重技术原理与应用

用指令也是一个繁琐的工作，其实可以用训练好的工具：二、GPT降重技术的基本原理GPT降重技术基于自然语言处理（NLP）和深度学习技术，通过训练大量的语料库来学习文章的结构、语义和表达方式。

chatgpt001·2024-01-03 06:54

大语言模型（LLM）框架及微调 (Fine Tuning)

这些模型通常使用深度学习方法，在巨大的文本语料库上进行训练，以学习语言的各种结构、规则和特征。LLM在自然语言处理（NLP）任务中表现出色，如机器翻译、文本生成、问题回答等。

m0_黎明·2024-01-03 01:06

2022-02-21：NlP处理基本思路

1.获取预料预料是nlp研究的内容，通常使用文本集合作为语料库，预料的来源分为3种：(1)已有的预料----积累的文档。(2)下载现有的语料---搜狗语料，人民日报语料等。(3)使用爬虫抓取。

AllTimeStudy·2024-01-03 00:07

day4--GPT/GPT2.0

目录GPTGPT训练的两个阶段：GPT的架构图：自注意力机制：GPT-2GPT-2的架构图：GPTGPT训练的两个阶段：第一个阶段是Pre-training阶段，主要利用大型语料库完成非监督学习；第二阶段是

呆呆有库·2024-01-02 14:13

了解自然语言处理NLP-语料库和预处理

复杂结构：问答数据集，评论语料库。

Algorithm_Engineer_·2024-01-01 18:48

GPT-3: Language Models are Few-Shot Learners

GPT-3论文数据集CommonCrawl：文章通过高质量参考语料库对CommonCrawl数据集进行了过滤，并通过模糊去重对文档进行去重，且增加了高质量参考语料库以增加文本的多样性。

u013308709·2023-12-30 06:31

GPT翻译水平探究：人工智能的语言艺术

一、GPT翻译水平的现状GPT模型通过大量的语料库学习，能够理解和生成多种语言的文本。在翻译方面，GPT模

Blind.894·2023-12-29 14:13

搭建简单的GPT聊天机器人

目录第一步进行语料库读取、文本预处理，完成data_utls.py第二步进行Seq2Seq模型的构建，完成Seq2Seq.py第三步进行模型参数设置、加载词典和数据、数据准备、GPU设置、构建优化器和损失函数

挽风起苍岚·2023-12-29 14:38

动手做个DialoGPT：生成式多轮对话模型

文|苏剑林编|兔子酱前段时间刷Arixv的时候，发现清华大学开源了一个大规模的中文闲聊语料库LCCC，从开源的文件上来看，这可能是目前开源的数量最大、质量最好的闲聊语料库了，而且还包含了部分多轮对话聊天

夕小瑶·2023-12-29 14:20

关键词抽取模型

是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数呈正比地增加，但同时也会

士416·2023-12-29 14:18

SpaCy 和 Flask API 构建 Python 命名实体自动提取器

因此，数据科学团队将能够在语料库中看到所有人员、公司、地点等名称的结构化表示，可作为进一步分析和调查的出发点。在自然语言工具包（NLTK）和SpaCy构建Python命名实体识

亚图跨际·2023-12-27 14:52

解决gensim训练时出现killed问题

因为从中文维基百科中取得的语料库大约有11G，在使用gensim进行训练时，经常出现killed的问题，最后想到把语料库文件进行切割，然后再训练。

一个爱折腾的小人物·2023-12-27 06:18

2024 年 8 个顶级开源 LLM（大语言模型）

它们之所以被称为“大”，是因为它们有数亿甚至数十亿个参数，这些参数是使用大量文本数据语料库预先训练的。LLM是流行且广泛使用的聊天机器人（如ChatGPT和GoogleBard）的基础模型。

yule.yang·2023-12-22 07:28

NLP入门- 分布语义学（Distributional Semantics）

从语料库中直接学习单词含义，这个领域也被称为分布语义学（DistributionalSemantics）分布假设：可以通过其周围的上下文单词来了解一个目标单词共现文档通常指示了主题（文档（document

noobiee·2023-12-22 05:55

libFuzzer-workshop学习

fuzzer会跟踪哪些代码区域已经测试过，然后在输入数据的语料库上进行变异，来使代码覆盖率最大化。代码覆盖率的信息由LLVM的SanitizerC

Nevv·2023-12-20 10:30

机器学习之特征提取 TF-IDF

一、概念“词频－逆向文件频率”（TF-IDF）是一种在文本挖掘中广泛使用的特征向量化方法，它可以体现一个文档中词语在语料库中的重要程度。词语由t表示，文档由d表示，语料库由D表示。

辣椒种子·2023-12-18 04:15

SpringBoot进行自然语言处理，利用Hanlp进行文本情感分析

如果有什么需要改进的地方还请大佬指出⛺️作者简介：大家好，我是青衿☁️博客首页：CSDN主页放风讲故事每日一句：努力一点，优秀一点目录文章目录**目录**一、说明二、自然语言处理简介三、Hanlp文本分类与情感分析基本概念语料库用

放风讲故事·2023-12-18 03:45

2018年度十大网络用语出炉

“2018年十大网络用语”是基于国家语言资源监测语料库（网络媒体部分），采用“以智能信息处理技术为主，以人工后期微调为辅”的方式提取获得的。

江湖人称王大大·2023-12-17 04:19

大语言模型：开启自然语言处理新纪元

1.简介大语言模型是基于深度学习和变压器（Transformer）架构的巨型神经网络，通过在庞大的文本语料库上进行预训练，使其具备深刻的语言理解和生成能力。2.基本原理Transformer架构：

鳗小鱼·2023-12-17 02:39

小白学大模型LLMs：文本分词方法

什么是预分词（Pre-tokenization）预分词是在处理基于文本的语料库时需要执行的几项任务中的第一项，这些任务通常包括以下的某个子集：预分词分词任务基于单词的分词基于字符的分词子词分词在我们深入研究预分词之前

深度学习算法与自然语言处理·2023-12-17 02:38

无监督机器翻译的一种有效方法

虽然传统上机器翻译依赖于大量的并行语料库，但最近的一个研究方向是仅用单语料库来训练神经机器翻译(NMT)和统计机器翻译(SMT)系统。该研究使用子单词

考林_0840·2023-12-16 15:14

CS224N笔记——词向量表示

onehot表示image.png主要问题所有的向量都是正交的，无法准确表达不同词之间的相似度，没有任何语义信息向量维度是语料库中所有单词的数量，维度太大。

random_walk·2023-12-16 03:04

深入剖析开源大模型+Langchain框架智能问答系统性能下降原因

但是，基于langchain+开源大模型在实践过程中也会遇到系列不尽人意的问题，本文将深入剖析langchain+开源大模型用于搭建基于公司语料库（iwiki、oncall、码客）上

数据与后端架构提升之路·2023-12-15 15:06

脆弱的完美主义

直到有一天，看到大不列颠语料库一个统计数据，“完美主义”这个词语常常和“脆弱”一起出现。我难过了质问自己，是否也如此而不自知，得到肯定的答复。于是，更难过了。

2郎神·2023-12-15 02:24

机器学习---TF-IDF算法

TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，可以评估一个词在一个文件集或者一个语料库中对某个文件的重要程度。

30岁老阿姨·2023-12-14 22:10

Geneformer：计算生物学的大模型革新

Geneformer基于约3000万个单细胞转录组的大规模语料库进行预训练，旨在网络生物学数据有限的情况下实现上下文特异性预测。

努力犯错·2023-12-14 13:11

AI同义句转换好用的句子同义替换软件

这些软件通常基于自然语言处理技术和大型语料库，能够根据用户输入的句子或词语，提供相关的同义词或近义词选择，从而实现更加准确和生动的表达。

chatgpt001·2023-12-05 18:49

基础课16——FAQ 问答引擎

FAQ通常以{1条标准问+1条标准答案+n条相似问}的结构将语料存储在FAQ语料库中（

AI 智能服务·2023-12-05 18:18

ChatGPT的总体技术路线

采用自然语言处理+搜索引擎集成的架构，构建GPT3.5+大型语言模型（LLM）+强化学习微调训练模型（RLHF），通过连接大量的语料库，在效果强大、基于自注意力机制的GPT3.5架构的大型语言模型（LLM

AIGC方案·2023-12-04 07:55

tfidf和word2vec构建文本词向量并做文本聚类

饕餮&化骨龙·2023-12-04 05:33

基于word2vec使用wiki中文语料库实现词向量训练模型--2019最新

目录一、数据获取二、将xml格式数据转为txt三、繁体转为简体方法1---自己使用opencc库手动了1个转换程序，pipinstallopencc进行安装方法2---网上有一个exe应用程序进行转换，详情见：https://bintray.com/package/files/byvoid/opencc/OpenCC四、分词五、Word2Vec模型训练六、Word2Vec模型检测一、数据获取使用的

锅巴QAQ·2023-12-04 05:31

面向自然语言处理任务的预训练模型综述

在自然语言处理（NLP）任务中，随着文本表征技术从词级上升到了文档级，利用大规模语料库进行无监督预训练的方式已被证明能够有效提高模型在下游任务中的性能。

龙腾亚太·2023-12-04 02:10

LLM；超越记忆《第 2 部分》

在第1部分中，我介绍了LLM如何通过具有语言多样性的更大语料库进行泛化的复杂性。要详细了解LLM的工作原理，您可以在此处找到全面的博客：GPT背后

无水先生·2023-12-03 20:30

推荐频道

语料库