语料第24页

生成式对话seq2seq：从rnn到transformer

查阅了一些市面上能看到资料，工业上的做法，普遍是基础模板(例如aiml)+IR闲聊库(例如小黄鸡语料QA)+爬虫(百度、搜狗)+知识图谱(wiki百科)+对话生成模型。

Ted_Li·2022-12-30 14:13

Graph embedding

DeepWalk为了使用无监督的方式训练每一个节点的embedding，我们会联想到word-embedding的方式，而word-embedding需要语料来训练每一个词的embe

vincent_hahaha·2022-12-30 14:34

AIGC用于智能写作的技术综述-达观数据

这种技术通过分析给定语料库，学习文本的结构和语法，然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容，并且可以用来完成诸如文章写作、报告生成和摘要提取等任务。

DatagrandRS·2022-12-30 10:05

自然语言处理（六）：文本预处理之文本数据增强

自然语言处理笔记总目录什么是回译数据增强法：回译数据增强目前是文本数据增强方面效果较好的增强方法，一般基于google翻译接口，将文本数据翻译成另外一种语言(一般选择小语种)，之后再翻译回原语言，即可认为得到与与原语料同标签的新语料

GeniusAng丶·2022-12-30 10:48

知识图谱类产品-开题报告构想（一）

知识图谱类产品-开题报告构想整体技术路线是GNN，降低前期语料的爬取成本，化团队力量为自己用，开始日益发现团队力量的重要性，在一个团队中可以相互成就一个产品，形成能力的互补和简历的递进，but像去年那种技术组的过于分裂

HIT_SunJiankun·2022-12-30 05:33

kaldi thchs30使用自己的数据和字典训练tdnn模型

一、生成语言模型1、需要准备lexicon.txt声学字典；words.txt语料：lexicon.txt字典删除所有的音素即是；phones.txt语料：lexicon.txt字典删除所有的单词即是；

wyw0000·2022-12-29 20:57

AIGC用于智能写作的技术综述-达观数据

这种技术通过分析给定语料库，学习文本的结构和语法，然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容，并且可以用来完成诸如文章写作、报告生成和摘要提取等任务。

·2022-12-29 16:43

AIGC用于智能写作的技术综述-达观数据

这种技术通过分析给定语料库，学习文本的结构和语法，然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容，并且可以用来完成诸如文章写作、报告生成和摘要提取等任务。

·2022-12-29 15:12

gensim.models word2vec 参数

文章目录前言1、min_count2、sg前言使用gensim.modelsword2vec的一点参数记录1、min_count word2vec保留的最小词频数，当语料库中的词词频小于min_conunt

江_小_白·2022-12-29 14:47

利用gensim训练word2vec

1.word2vec简介gensim中的word2vec模块可以基于用户提供的语料快速计算相应词向量，从而用于下游任务。

guofei_fly·2022-12-29 14:14

文本语义相似度检测 API 数据接口

1.产品功能秒级分析性能；基于NLP算法智能计算；进行语义上相似度精准检测；底层模型以及语料库持续更新集成中；数据持续更新与维护；全接口支持HTTPS（TLSv1.0/v1.1/v1.2/v1.3）；全面兼容

DevOpenClub·2022-12-29 14:44

自然语言处理功能的全链条式集合，NLPIR大数据语义智能分析平台

随着词表和语料库等研究材料逐渐丰富，词语切分、词性标注、句法分析等技术的进步，自然语言研究不断推出新模型，这些研究的进展也扩展了自然语言的应用领域和场景。

NLPIR大数据·2022-12-29 13:13

NLP 中文智能纠错 API 数据接口

1.产品功能秒级NLP智能纠错性能；NLP加载多个模型进行纠错处理；返回纠正字符以及对应位置索引；底层模型以及语料库持续更新集成中；数据持续更新与维护；全接口支持HTTPS（TLSv1.0/v1.1/v1.2

DevOpenClub·2022-12-29 13:10

gensim中word2vec使用方法记录

训练词向量；fromgensim.models.word2vecimportWord2Vecmodel=Word2Vec(text,size,min_count,window,sg)text:预处理分词后的语料

Mark_Aussie·2022-12-29 13:39

[机器翻译-数据集] 批量获取所有WMT数据（初步解决方案）

文章目录前言具体实现不足之处补充补充一：记录暂时只能手动下载的数据集补充二：添加wmt19的测试集下载结果记录平行语料数量统计wmt14wmt15wmt16wmt17wmt18wmt19需要手动下载的语料统计参考前言

Muasci·2022-12-29 03:56

华为AI认证＿NLP

实验一：jieba分词importjieba#精确模式print("--------精确模式------")#分词的语料库s="每个词都有两个对应的向量，一个是作为中心词的向量，一个是作为上下文词的向量

熙仪繁华·2022-12-28 14:09

TF-IDF的原理与实际应用

TF-IDF的原理与实际应用一、TF-IDF简介TF-IDF(termfrequency-inversedocumentfrequency)是一种统计方法，用以评估一个字词对于一个文本集或一个语料库中的其中一份文件的重要程度

敷衍zgf·2022-12-28 14:07

TF-IDF原理及应用

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

comli_cn·2022-12-28 14:01

技术干货｜昇思MindSpore NLP模型迁移之Roberta ——情感分析任务

Roberta模型在BERT模型的基础上进行了一定的改进，主要改进点有以下几个部分：1.训练语料：BERT只使用16GB的BookCorpus数据集和英语维基百科进行训练，Roberta增加了CC-NEWS

昇思MindSpore·2022-12-28 14:01

技术干货｜昇思MindSpore NLP模型迁移之LUKE模型——阅读理解任务

这项任务涉及到预测从维基百科的大型实体注释语料库中检索出来的随机隐藏的单词和实体。

昇思MindSpore·2022-12-28 14:01

文本标注工具doccano安装及使用

介绍doccano是docummentanotation的缩写，是一个开源的文本标注工具，我们可以用它为NLP任务的语料库进行打标。它支持情感分析，命名实体识别，文本摘要等任务。

夕由呀·2022-12-28 10:16

Rasa_nlu_chi：入门教程

前言RasaNLU是一个开源的、可本地部署并配套有语料标注工具的自然语言理解框架。

Dawn_www·2022-12-28 10:09

自然语言处理：有关单词含义理解、word2vec单词分布式表示的总结

目录一、单词含义理解方法：二、分布式假设（相关概念）：三、word2vec一、单词含义理解方法：1基于同义词词典:单词含义相近的归为同一类，最著名的有WordNet2基于计数的方法:使用corpus语料库

菜鸟爱学习@chong·2022-12-27 21:22

【深度学习】词表示

目录词表示基于矩阵奇异值分解的词表示基本思想：语料矩阵的奇异值分解(SVD)基于神经网络的词表示word2vecWordEmbedding基于全局共现信息的词表示共现概率矩阵模型glove模型动机词表示基于矩阵奇异值分解的词表示基本思想

Queen_sy·2022-12-27 18:22

论文研读-AI4VIS-可视化推荐-Table2Analysis/Table2Charts

问题2.1问题抽象1.抽象分析过程2.语言建模2.2存在挑战3Table2Analysis3.1马尔可夫决策3.2DQN动作值近似器3.3启发式波束搜索3.4DQN训练4实验4.1PivotTable语料库

weixin_43413013·2022-12-27 09:00

利用t-SNE可视化Glove向量

其结合了词向量与矩阵分解的思想对原始语料进行预训练，得到了低维、连续、稀疏的表示形式。对预训练后的词向量进行可视化可以发现发现某些词与词之间的联系。

爱学习的大白菜·2022-12-27 03:03

它破解了AI作画的中文语料难题，AIGC模型讲解(以世界杯足球为例)

目录1扩散模型与AI绘画2中文语料的挑战3昆仑天工：AIGC新思路3.1主要特色3.2模型蒸馏3.3编解码与GPT3.4stable-diffusion3.5性能指标4体验中文AI绘画模型5展望1扩散模型与

Mr.Winter`·2022-12-26 18:16

2022年终总结（年度流水账)

1月份，研一期末周，当时学校封校，每个宿舍凭证出入，可乐是奢侈品，语料库语言学、篇章语言学、定性与定量课程论文一件接一件，元旦凌晨，封在宿舍的大家齐声喊新年快乐！就这样开启了2022。

离群的海豚·2022-12-26 14:14

检索用的指标

2.MAP(meanaverageprecision)在豆瓣的语料库上定义的平均准确率，没有像上面的定义n和k，可能是语料库里规定了n和k（不太确定）。3.MRR(me

苏炘·2022-12-26 12:51

NLP-拼写纠错（spell correction）实战

NLP-拼写纠错1.词典库2.生成错误单词的候选集合-编辑距离3.读取语料库4.构建语言模型-Bigram5.用户输入该错误单词的概率6.测试文本拼写纠错7.结果1.词典库读取本地文件的词典库，存入集合

呆小呆_·2022-12-26 10:02

NLP项目（二）——拼写纠错

目录前言一、数据集介绍1-1、spell-errors.txt1-2、vocab.txt1-3、testdata.txt二、拼写纠错代码Part0：构建词库Part1：生成所有的候选集合Part2：读取语料库

ㄣ知冷煖★·2022-12-26 10:00

知识增强的预训练语言模型系列之ERNIE：如何为预训练语言模型注入知识

ACL论文链接：https://arxiv.org/abs/1905.07129项目地址：https://github.com/thunlp/ERNIE问题论文作者认为尽管预训练语言模型能够从大规模文本语料中学习到词法

NLP论文解读·2022-12-26 08:38

python 小说分析_Python自然语言用金庸的武侠小说做分析和处理

语料是倚天屠龙记。之前也有很多人用金庸的武侠小说做分析和处理，希望带来一些不同的地方。截几张图来看看：所有人物的相似图连接。关系同上。展示形式为多中心结构以张无忌的不同身份为中心的网络关

weixin_39607473·2022-12-26 07:27

中文自然语言处理的完整流程

第一步：获取语料语料，即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以，人们简单地用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。

cc_moe·2022-12-26 07:56

哈工大讯飞联合实验室发布少数民族多语言预训练模型CINO

然而，由于国内少数民族语言语料稀缺、获取难度大等原因，相关技术研究相对匮乏，并且现有的多语言模型无法很好地处理绝大多数国内少数民族语言文字。

zenRRan·2022-12-26 04:48

使用Fairseq微调预训练模型

2.3二值化数据2.4继续预训练1.先决条件从源码安装Fairseq安装transformers脚本在https://github.com/jazzisfuture/FineTuningXLM-R平行语料

Chromatica_·2022-12-26 04:44

ViLT_Vision-and-Language Transformer Without Convolution or Region Supervision组会稿

而nlp领域，bert类模型都是在大量网络上爬取的语料上进行自监督的方法预训练。目前，多模态领域也已经有了很

Tyyy`·2022-12-25 22:47

doccano在linux系统的安装流程

doccano常用的nlp标注工具，文本分类标注工具，ner标注工具doccano是docummentanotation的缩写，是一个开源的文本标注工具，我们可以用它为NLP任务的语料库进行打标。

贝叶斯巴达·2022-12-25 21:19

【论文阅读笔记】Cross-Lingual Abstractive Summarization with Limited Parallel Resources

使用有限的平行语料来做跨语言的生成式摘要Abstract平行的跨语言的摘要数据是稀缺的，需要模型更好地利用有限的可用跨语言资源。现有的方法通常采用带有多任务框架的seq2seq网络。

献给陆河·2022-12-25 18:58

互联网时代的社会语言学：基于SNS的文本数据挖掘（转载）

.com/blog/archives/5044文章简介：这篇文章用计算联合概率和信息熵的方法来判断几个联合出现的字是否可以组成一个词，从而实现了不基于字典或词库就可以分词，同时这也给我们指出如何从一堆语料中分出词库中没有的词

weixin_30575309·2022-12-25 17:44

torchtext 中文语料加载

torchtext中文语料加载前言数据集准备torchtext流程FieldTabularDatasetBucketIterator前言因为研究生方向选的是自然语言处理，准备提前接触下相关技术内容。

cnzx005·2022-12-25 16:03

面向端到端的情感对话生成研究综述

其中基于端到端的神经网络模型能够从大规模语料中学习到有价值的规律和特征,生成有意义且多样性的回复,被广泛地应用于情感对话生成研究中。面向基于端到端模型的情感对话生成研究展开综述。

米朵儿技术屋·2022-12-25 10:42

北邮数据挖掘文本分类实验

实验要求如下实验一文本数据的分类与分析【实验目的】1.掌握数据预处理的方法，对训练集数据进行预处理；2.掌握文本建模的方法，对语料库的文档进行建模；3.掌握分类算法的原理，基于有监督的机器学习方法，训练文本分类器

反身而诚、·2022-12-25 09:21

NLP-NMT-Transformer图解及论文笔记：Attention Is All You Need

从早期的词典匹配，到词典结合语言学专家知识的规则翻译，再到基于语料库的统计机器翻译，随着计算机运算能力的提升和多语言信息资源的爆发式增长，机器翻译技术逐渐走出象牙塔，开始为普通用户提供实时便捷的翻译服务

饮冰l·2022-12-25 08:59

图神经网络15-Text-Level-GNN:基于文本级GNN的文本分类模型

arxiv.org/pdf/1910.02356.pdf论文代码：https://github.com/yenhao/text-level-gnn发表时间：2019论文简介与动机1）TextGCN为整个数据集/语料库构建一个异构图

致Great·2022-12-24 20:26

2步就能完成的情感分析模型

ABSA（AspectBasedSentimentAnalysis）是一种在给定的语料库中同时提取（co-extracting）表达意见和（事物）属性/方面术语（意见目标）以及它们之间的关系的任务。

极链AI云·2022-12-24 20:53

深度学习（8）：基于BERT算法的文本内容情感分析

BERT是一种对语言表征进行预训练的方法,即是经过大型文本语料库（如维基

流萤数点·2022-12-24 20:22

Chapter 2.2 高频词和关键词提取（二）续

基于sklearn的TF-IDF关键词提取基于sklearn的TF-IDF关键词提取的特点：能够使用jieba库分词能够使用自定义词典（新词、停用词）适用于多文本关键词提取（而非单文本）能够根据导入的语料库计算

Yif18·2022-12-24 20:50

Chapter 2.2 高频词和关键词提取（二）

算法的基本思想TF-IDF算法由TF和IDF两部分组成，是TF算法和IDF算法的综合使用TF（词频）：某词在某文档中出现的次数/该文档的总词数，词频越高表示该词对该文档的表达能力越强IDF（逆文档频次）：log(语料库中的总文档数

Yif18·2022-12-24 20:49

word2vec 的 Negative Sampling(负采样)技巧

假设训练的语料库有个不同的词汇，隐藏层是维，这意味着每训练一次样本(采用随机梯度下降)，中有个神经元要更新，中有个神经元要更新，导致如果语料库非常庞大，计算会非常低效。

看正好六个字·2022-12-24 19:56

推荐频道

语料

生成式对话seq2seq：从rnn到transformer

Graph embedding

AIGC用于智能写作的技术综述-达观数据

自然语言处理（六）：文本预处理之文本数据增强

知识图谱类产品-开题报告构想（一）

kaldi thchs30使用自己的数据和字典训练tdnn模型

AIGC用于智能写作的技术综述-达观数据

AIGC用于智能写作的技术综述-达观数据

gensim.models word2vec 参数

利用gensim训练word2vec

文本语义相似度检测 API 数据接口

自然语言处理功能的全链条式集合，NLPIR大数据语义智能分析平台

NLP 中文智能纠错 API 数据接口

gensim中word2vec使用方法记录

[机器翻译-数据集] 批量获取所有WMT数据（初步解决方案）

华为AI认证＿NLP

TF-IDF的原理与实际应用

TF-IDF原理及应用

技术干货｜昇思MindSpore NLP模型迁移之Roberta ——情感分析任务

技术干货｜昇思MindSpore NLP模型迁移之LUKE模型——阅读理解任务

文本标注工具doccano安装及使用

Rasa_nlu_chi：入门教程

自然语言处理：有关单词含义理解、word2vec单词分布式表示的总结

【深度学习】词表示

论文研读-AI4VIS-可视化推荐-Table2Analysis/Table2Charts

利用t-SNE可视化Glove向量

它破解了AI作画的中文语料难题，AIGC模型讲解(以世界杯足球为例)

2022年终总结（年度流水账)

检索用的指标

NLP-拼写纠错（spell correction）实战

NLP项目（二）——拼写纠错

知识增强的预训练语言模型系列之ERNIE：如何为预训练语言模型注入知识

python 小说分析_Python自然语言用金庸的武侠小说做分析和处理

中文自然语言处理的完整流程

哈工大讯飞联合实验室发布少数民族多语言预训练模型CINO

使用Fairseq微调预训练模型

ViLT_Vision-and-Language Transformer Without Convolution or Region Supervision组会稿

doccano在linux系统的安装流程

【论文阅读笔记】Cross-Lingual Abstractive Summarization with Limited Parallel Resources

互联网时代的社会语言学：基于SNS的文本数据挖掘（转载）

torchtext 中文语料加载

面向端到端的情感对话生成研究综述

北邮数据挖掘文本分类实验

NLP-NMT-Transformer图解及论文笔记：Attention Is All You Need

图神经网络15-Text-Level-GNN:基于文本级GNN的文本分类模型

2步就能完成的情感分析模型

深度学习（8）：基于BERT算法的文本内容情感分析

Chapter 2.2 高频词和关键词提取（二）续

Chapter 2.2 高频词和关键词提取（二）

word2vec 的 Negative Sampling(负采样)技巧