语料第28页

序列模型之循环神经网络（二）

术语：corpus语料库语料库是自然语言处理的一个专有名词，就是很长的或者说数量众多的英文句子组

深海鱼肝油ya·2022-11-30 15:17

天池小布助手对话短文本语义匹配-文本二分类实践（pytorch）

模型数据来自天池全球人工智能技术创新大赛【赛道三】详情数据格式：模型：textcnn,lstm,lstm+attention最后选择用最后一种方法步骤：1.如果想利用词向量模型训练的结果做embeeding,则准备有标签语料

路新航·2022-11-30 14:07

ACL 2022 Tutorial解析——知识增强自然语言理解

来自：圆圆的算法笔记NLP预训练模型需要非常大的参数量以及非常多的语料信息，这些都是希望能尽可能多的记住文本中的知识，以此提升下游任务效果。

zenRRan·2022-11-30 01:34

ACL2022 | 基于神经标签搜索的零样本多语言抽取式文本摘要

抽取式文本摘要目前在英文上已经取得了很好的性能，这主要得益于大规模预训练语言模型和丰富的标注语料。但是对于其他小语种语言，目前很难得到大规模的标注数据。中国科学院信息工程研究所和微软亚洲研究院

zenRRan·2022-11-30 01:33

自然语言处理课程学习总结

NaturallanguageunderstandingNaturallanguageprocessingComputationalLinguistics现在的自然语言处理是一个门介乎语言学、计算机科学和认知心理学之间的交叉科学主要应用机器翻译、语言识别与合成、自动文摘、信息检索、自动问答、语料库建立基本

Quincy1994·2022-11-29 22:25

BERT从零详细解读：如何做预训练 - MLM+NSP

MLM:masklanguagemodelNSP:去判断两个句子之间的关系BERT在预训练时使用的是大量的无标注的语料（比如随手可见的一些文本，它是没有标注的）。

kikato2022·2022-11-29 13:40

NLP实践 | 用自己的语料进行MLM预训练

每天给你送来NLP技术干货！编辑：AI算法小喵1.关于MLM1.1背景作为Bert预训练的两大任务之一，MLM和NSP大家应该并不陌生。其中，NSP任务在后续的一些预训练任务中经常被嫌弃，例如Roberta中将NSP任务直接放弃，Albert中将NSP替换成了句子顺序预测。这主要是因为NSP作为一个分类任务过于简单，对模型的学习并没有太大的帮助，而MLM则被多数预训练模型保留下来。由Roberta

zenRRan·2022-11-29 13:35

李沐动手学深度学习V2-bert预训练数据集和代码实现

一方面最初的BERT模型是在两个庞大的图书语料库和英语维基百科的合集上预训练的。另一方面现成的预训练BERT模型可能不适合医学等特定领域的应用。

cv_lhp·2022-11-29 13:00

deepwalk详解

4.适用场景5.不足和改进1.算法思想源于word2vec,word2vec通过语料库中的句子序列来描述词与词的共现关系，进而学习到词语的向量表示。

黄龙马·2022-11-29 12:15

Deepwalk详解

算法思想源于word2vec，word2vec通过语料库中的句子序列来描述词与词之间的共现关系。进而学习到词语的向量表示，deepwalk则使用图中的节点与节点的共像现关系来学习节点的向量表示。

big_matster·2022-11-29 11:09

一种中文作文自动评分方法及教辅系统的复现及步骤摘录

一、中文自动评分系统的构建方法1、语料库构建步骤，用于构建中文作文语料库：待评分作文获取步骤：（1）获取待评分作文图片（2）进行中文识别，得到作文文本（3）直接获取待评分作文文本2、浅层特征提取步骤，基于语料库提取作文的浅层特征浅层特征提取步骤

卧语寒蝉·2022-11-29 09:57

文本表征 Text Representation

基于词向量的固定表征：Word2vec、FastText、GloVe基于词向量的动态表征：ELMo、GPT、BERT各模型的优缺点：One-hot表示：维度灾难、语义鸿沟；静态表证矩阵分解（LSA）：利用全局语料特征

jzwei023·2022-11-29 06:16

【模型复现】文本匹配、文本分类模型ABSA快速复现

基于属性的情感分析（AspectBasedSentimentAnalysis）是一种在给定的语料库中同时提取（co-extracting）表达意见和（事物）属性/方面术

极链AI云·2022-11-29 00:19

复现实验：文本数据的分类与分析

对语料库的文档进行建模-->掌握文本建模的方法。基于有监督的机器学习方法训练文本分类器-->掌握分类算法原理。利用学习的文本分类器对未知文本进行分类判别，掌握评价分类器性能的评估方法。

@张小凡·2022-11-29 00:48

BERT详解

输入部分详细解读cls、sep存在因为bert预训练任务中有nsp任务（判断两个句子之间的关系）将cls的输出向量接一个二分类器，去做一个二分类任务预训练之MLM详解bert在预训练的时候，使用的是大量的无标注的语料认为

Grateful_Dead424·2022-11-28 23:31

利用Word2Vec在语料中构建种子词集同类词

nlp小白努力探索的第n天......今天记录和分享利用gensim.model.word2vec.Word2Vec在语料中构建种子词集同类词先说明任务情况：全量语料数据中包含：已打标语料，未打标语料。

Papaya沐·2022-11-28 18:43

LineSentence 解决utf-8 codec can't decode byte 0xbe in position xx 方法

这块真的是修了快一下午，真实自闭（菜确实是原罪）本文参考自解决在使用gensim.models.word2vec.LineSentence加载语料库时报错UnicodeDecodeError:‘utf-

退堂鼓一级演员·2022-11-28 18:43

词向量实践（gensim）

https://github.com/cyandn/practice/tree/master/Word2Vecgensim中Word2Vec参数解释：主要参数介绍如下：sentences：我们要分析的语料

dazha4426·2022-11-28 18:38

Word2Vec的参数解释

使用Gensim训练Word2vec十分方便，训练步骤如下：1.将语料库预处理：一行一个文档或句子，将文档或句子分词（以空格分割，英文可以不用分词，英文单词之间已经由空格分割，中文预料需要使用分词工具进行分词

小白的进阶·2022-11-28 18:38

使用gensim.models.word2vec.LineSentence之前的语料预处理

nlp小白摸爬滚打的叨叨叨记录在进行自然语言处理工作时，不可避免使用大型语料库。在这里记录并分享做自己实验的时候读函数文档，以及参考各路大神，终于明白LinSentence如何使用的历程。

Papaya沐·2022-11-28 18:07

python处理数据集_用python处理movie数据集

我的实验是实现一个主题驱动的自动聊天机器人，CornellMovieDialogsCorpus是一个从电影数据中生成的电影对白语料库，包含大概600部电影对白，并且语料中含有电影名、角色、IMDB评分等许多信息

元气少女小林·2022-11-28 14:12

中文对话数据集预处理

一、数据集介绍本文采用50w中文闲聊语料作为预处理数据集百度网盘【提取码:4g5e】，中文闲聊语料的内容样例如下:谢谢你所做的一切你开心就好开心嗯因为你的心里只有学习某某某，还有你这个某某某用的好你们宿舍

qq_42999411·2022-11-28 14:07

刷新SOTA！Salesforce提出跨模态对比学习新方法，仅需4M图像数据！

文|子龙多模态已经不是一个新鲜的话题，如何在一个模型中融合CV和NLP的信息同时吸引了两个领域的目光（CV、NLP的会都能投），但是很容易就能想到，来自图片的视觉特征和来自语料的文本特征来自不同的模型，

夕小瑶·2022-11-28 11:40

TF-IDF词频逆文档频率算法

一.原理分析词频逆文档频率（TF-IDF）是一种特征向量化方法，广泛用于文本挖掘中，以反映术语对语料库中文档的重要性。用t表示术语，用d表示文档，用D表示语料库。

神之凝视·2022-11-28 11:30

tensorflow聊天机器人python实现_GitHub - Jaleel-zhu/tensorflow-chatbot: 使用Tensorflow实现了一个简易的中文聊天机器人...

本项目使用TensorFlow实现了一个简易的聊天机器人项目结构corpus：存放语料数据data：存放经过预处理的训练数据doc：存放资料文档hparams：存放预定义的超参数json文件models

weixin_39613208·2022-11-28 10:42

AI机器翻译数据预处理步骤

之前在进行机器翻译时，一般除了与句子长度做了长度限制外，几乎没有做任何额外的操作，直接暴力的使用BPE算法对语料进行预处理。

数据无忧 DATA5U·2022-11-28 08:38

中文医疗NLP领域数据集，论文，知识图谱，语料，工具包

中文评测数据集中文医学知识图谱英文数据集相关论文中文医疗领域语料医学embedding开源工具包工业级产品/解决方案blog分享友情链接中文评测数据集1.Yidu-S4K：医渡云结构

深度学习技术前沿·2022-11-28 07:49

NLP——8.基于统计的翻译系统

1、需要从大量的语料中学习出在新的句子知道对应的英语翻译是什么。

少奶奶的猪·2022-11-27 20:36

基于python的英文文档集上的tf、idf和tf_idf图像绘制

TF-IDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

橙子树下·2022-11-27 18:58

文本挖掘案例：基于CSDN博客文章内容的文本挖掘与词云绘制

文章目录一.语料准备1.获取文章地址2.由地址获取内容二.文本挖掘1.读取文本2.中文分词3.词性标注4.去除停用词5.词性分布分析6.高频词汇分析7.词云绘制一.语料准备1.获取文章地址首先选择需要分析的博主进入其主页浏览器上方主页地址

这也是计划的一部分·2022-11-27 12:21

CIKM 2022最佳论文：融合图注意力机制与预训练语言模型的常识库补全

©作者|巨锦浩单位|复旦大学硕士生来源|知识工场研究背景常识在各种语料库中很少被明确表达，但对于机器理解自然语言非常有用。

PaperWeekly·2022-11-27 10:01

【开源】MagicData-RAMC :180小时中文对话式语音数据集正式发布

为了进一步丰富开源语音语料库，促进语音语言处理技术的发展，MagicData联合中科院声学研究所、上海交通大学和西北工业大学，在Magichub开源社区正式开源180小时中文对话式语音数据集MagicData-RAMC

Magic Data·2022-11-27 03:39

自然语言处理系列之：词性标注与命名实体识别

最简单的方法是从语料库中统计每个词对应的高频词性，并将其作为默认词性；词性标注规范北大词性标注集；宾州词性标注集；[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来

Hi丶ImViper·2022-11-27 03:37

机器人改变生活利弊英语作文_最新雅思写作语料库:机器人利弊

其实在雅思写作中，再好的范文，也只能告诉你如何写好一篇文章的骨架，而要做到有血有肉，言之有物，则要靠大量的观点语料的搜集整理。因此，小站在这里为同学们整理了雅思备考语料库，希望对备考的同学们有所帮助。

幻世魔王·2022-11-27 02:14

Python实现全角与半角相互转换

全角与半角转换在处理汉语语料中会经常出现，这里分别说明汉字、数字、字母的unicode编码范围。以及全角与半角的转换方法。最后给出wiki上全角和半角的编码对照表。

不撸先疯。·2022-11-27 01:12

数据清洗之如何用一行Python代码去掉文本中的各种符号

·2022-11-27 00:12

源1.0预训练语言模型使用示例

1前言源1.0预训练语言模型（简称源1.0）是浪潮人工智能研究院发布的人工智能巨量模型，单体模型参数量达到2457亿，成为全球最大规模的中文语料AI巨量模型。

飞翔的大鱼·2022-11-26 18:05

用更少GPU完成更多计算量，中文巨量模型源1.0比GPT-3强在哪里？

精筛后数据大小与原始语料大小对比。图上左为张量并行，上右为数据并行

计算机视觉研究院·2022-11-26 18:34

中文巨量模型“源1.0”：语料质量清洗与数据分析方法

2021年，浪潮人工智能研究院发布了中文巨量模型“源1.0”，其参数规模为2457亿，训练采用的中文数据集达5TB，超越美国OpenAI组织研发的GPT-3模型。“源1.0”在语言智能方面表现优异，获得中文语言理解评测基准CLUE榜单的零样本学习（zero-shot）和小样本学习（few-shot）两类总榜冠军。测试结果显示，人群能够准确分辨人与“源1.0”作品差别的成功率低于50%。“源1.0”

AI科技大本营·2022-11-26 18:04

快速构建一个简单的对话+问答AI （上）

文章目录前言part0资源准备基本功能语料停用词问答闲聊语料获取part01句的表达表达one-hot编码词嵌入大致原理实现简单版复杂版如何训练转换后的形状part02循环神经网络RNNRNN投影图RNN

Huterox·2022-11-26 17:33

Mind the GAP: A Balanced Corpus of Gendered Ambiguous Pronouns--论文笔记

MindtheGAP:ABalancedCorpusofGenderedAmbiguousPronouns注意差距:性别歧义代词的平衡语料库AbstractCoreferenceresolutionisanimportanttaskfornaturallanguageunderstanding

JasonSera·2022-11-26 13:07

java实现文本纠错功能_调用百度API进行文本纠错

要求1：有多人同时在线编辑文档，然后文档功能有类似Word中的在疑似错误下标浪线，或者标记高亮，并且要推荐修改选项要求2：语料数据的获取、处理以及完善要求3：文章写完后要有生成keyword根据老师所讲要查阅文献

妙面爸·2022-11-26 11:37

ACL’21 | 对话系统也要进军多模态了！

然而，当前的对话模型，如Meena、BlenderBot、DialoGPT等，都是在纯文本语料上进行训练得到的，在学习过程中，缺乏对视觉信息的感知和理解。

夕小瑶·2022-11-26 10:14

细粒度分类数据集汇总

小小她爹·2022-11-26 07:05

深度学习，实现智能聊天对话机器人（大数据人工智能公司）

目前使用广泛的聊天机器人采用机器学习、深度学习技术，如检索式机器人，通过用户输入的信息，在已有的对话语料库找到适合当前问题的最佳回复；生成式机器人，是利用编码-解码技术生成回复内容，更接近人类的回复。

沃达德软件·2022-11-26 07:27

NLP - 关键词提取 - TextRank

NLP-关键词提取-TextRank一、TextRank介绍二、PageRank介绍三、PageRank计算过程四、关键词提取任务一、TextRank介绍TextRank算法则可以脱离语料库的基础，仅对单篇文档进行分析就可以提取该文档的关键词

大虾飞哥哥·2022-11-26 03:26

中文自然语言处理--jieba基于 TextRank 算法进行中文文本中的关键词提取

PageRank改进而来，核心思想将文本中的词看作图中的节点，通过边相互连接，不同的节点会有不同的权重，权重高的节点可以作为关键词#-*-coding:utf-8-*-importjieba.analyse#采用的语料来自于百度百科对人工智能的定义

糯米君_·2022-11-26 02:14

近期知识图谱顶会论文推荐，你都读过哪几篇？

EMNLP2018■论文解读|刘兵，东南大学博士，研究方向为自然语言处理、信息抽取论文动机在远程监督任务中，除了语料的错误标注问题，还存在句内噪声单词过多的问题，即多数句子都存在一些与表达关系无关的词汇

PaperWeekly·2022-11-26 02:03

还在调API写所谓的AI“女友”，唠了唠了，教你基于python咱们“new”一个（深度学习）

文章目录前言停用词闲聊语料基础知识词的表示表达one-hot编码词嵌入大致原理实现简单版复杂版如何训练转换后的形状RNN循环网络RNNRNN投影图RNN是三维立体的LSTM&GRU构建数据配置数据集准备分词划分数据集加载模型搭建基本概念

Huterox·2022-11-25 23:53

M6-中文多模态预训练模型

回顾方法下游应用程序可扩展到具有万亿个参数的模型1.回顾多模态预训练模型架构：l基于transformerl单流或者双流图像特征：l目标特征lPatch特征l原始像素下游任务：l理解：VQA，检索l生成：图像字幕对M6的预期l在中文语料库上的预训练模型

Necther·2022-11-25 19:29

推荐频道

语料