语料库第15页

中文语音识别数据集总结

目录OpenSLR国内镜像1.FreeSTChineseMandarinCorpus2.PrimewordsChineseCorpusSet13.爱数智慧中文手机录音音频语料库（MandarinChineseReadSpeech

buaa996·2022-12-02 16:48

Pytorch+LSTM 的词汇预测

[email protected]#@FILE:torch_LSTM.py#@Time:2022/6/710:59#@Software:PyCharm#@site:#@Description:采用LSTM进行语料库预测

linxizi0622·2022-12-01 16:53

一、自然语言处理（新手上路）

自然语言处理层次2.1语音、图像和文本2.2中文分词、词性标注和命名实体识别2.3信息抽取2.4文本分类与文本聚类2.5句法分析2.6语义分析与篇章分析2.7其它高级任务3.NLP发展历史4.机器学习5.语料库前言自然语言处理

卡拉比丘流形·2022-11-30 19:56

CVPR 2021 UniT: Multimodal Multitask Learning with a Unifified Transformer

前人的研究表明，在大型语料库中训练的transformer在一系列的下游语言任务中学习了强大的表征。

smile909·2022-11-30 19:18

序列模型之循环神经网络（二）

术语：corpus语料库语料库是自然语言处理的一个专有名词，就是很长的或者说数量众多的英文句子组

深海鱼肝油ya·2022-11-30 15:17

自然语言处理课程学习总结

NaturallanguageunderstandingNaturallanguageprocessingComputationalLinguistics现在的自然语言处理是一个门介乎语言学、计算机科学和认知心理学之间的交叉科学主要应用机器翻译、语言识别与合成、自动文摘、信息检索、自动问答、语料库建立基本

Quincy1994·2022-11-29 22:25

李沐动手学深度学习V2-bert预训练数据集和代码实现

一方面最初的BERT模型是在两个庞大的图书语料库和英语维基百科的合集上预训练的。另一方面现成的预训练BERT模型可能不适合医学等特定领域的应用。

cv_lhp·2022-11-29 13:00

deepwalk详解

4.适用场景5.不足和改进1.算法思想源于word2vec,word2vec通过语料库中的句子序列来描述词与词的共现关系，进而学习到词语的向量表示。

黄龙马·2022-11-29 12:15

Deepwalk详解

算法思想源于word2vec，word2vec通过语料库中的句子序列来描述词与词之间的共现关系。进而学习到词语的向量表示，deepwalk则使用图中的节点与节点的共像现关系来学习节点的向量表示。

big_matster·2022-11-29 11:09

一种中文作文自动评分方法及教辅系统的复现及步骤摘录

一、中文自动评分系统的构建方法1、语料库构建步骤，用于构建中文作文语料库：待评分作文获取步骤：（1）获取待评分作文图片（2）进行中文识别，得到作文文本（3）直接获取待评分作文文本2、浅层特征提取步骤，基于语料库提取作文的浅层特征浅层特征提取步骤

卧语寒蝉·2022-11-29 09:57

【模型复现】文本匹配、文本分类模型ABSA快速复现

基于属性的情感分析（AspectBasedSentimentAnalysis）是一种在给定的语料库中同时提取（co-extracting）表达意见和（事物）属性/方面术

极链AI云·2022-11-29 00:19

复现实验：文本数据的分类与分析

对语料库的文档进行建模-->掌握文本建模的方法。基于有监督的机器学习方法训练文本分类器-->掌握分类算法原理。利用学习的文本分类器对未知文本进行分类判别，掌握评价分类器性能的评估方法。

@张小凡·2022-11-29 00:48

利用Word2Vec在语料中构建种子词集同类词

步骤：1）对语料库建立word2vec词向量模型；2）利用gensim.model联动的词汇相似

Papaya沐·2022-11-28 18:43

LineSentence 解决utf-8 codec can't decode byte 0xbe in position xx 方法

这块真的是修了快一下午，真实自闭（菜确实是原罪）本文参考自解决在使用gensim.models.word2vec.LineSentence加载语料库时报错UnicodeDecodeError:‘utf-

退堂鼓一级演员·2022-11-28 18:43

Word2Vec的参数解释

使用Gensim训练Word2vec十分方便，训练步骤如下：1.将语料库预处理：一行一个文档或句子，将文档或句子分词（以空格分割，英文可以不用分词，英文单词之间已经由空格分割，中文预料需要使用分词工具进行分词

小白的进阶·2022-11-28 18:38

使用gensim.models.word2vec.LineSentence之前的语料预处理

nlp小白摸爬滚打的叨叨叨记录在进行自然语言处理工作时，不可避免使用大型语料库。在这里记录并分享做自己实验的时候读函数文档，以及参考各路大神，终于明白LinSentence如何使用的历程。

Papaya沐·2022-11-28 18:07

python处理数据集_用python处理movie数据集

我的实验是实现一个主题驱动的自动聊天机器人，CornellMovieDialogsCorpus是一个从电影数据中生成的电影对白语料库，包含大概600部电影对白，并且语料中含有电影名、角色、IMDB评分等许多信息

元气少女小林·2022-11-28 14:12

TF-IDF词频逆文档频率算法

一.原理分析词频逆文档频率（TF-IDF）是一种特征向量化方法，广泛用于文本挖掘中，以反映术语对语料库中文档的重要性。用t表示术语，用d表示文档，用D表示语料库。

神之凝视·2022-11-28 11:30

基于python的英文文档集上的tf、idf和tf_idf图像绘制

TF-IDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

橙子树下·2022-11-27 18:58

CIKM 2022最佳论文：融合图注意力机制与预训练语言模型的常识库补全

©作者|巨锦浩单位|复旦大学硕士生来源|知识工场研究背景常识在各种语料库中很少被明确表达，但对于机器理解自然语言非常有用。

PaperWeekly·2022-11-27 10:01

【开源】MagicData-RAMC :180小时中文对话式语音数据集正式发布

为了进一步丰富开源语音语料库，促进语音语言处理技术的发展，MagicData联合中科院声学研究所、上海交通大学和西北工业大学，在Magichub开源社区正式开源180小时中文对话式语音数据集MagicData-RAMC

Magic Data·2022-11-27 03:39

自然语言处理系列之：词性标注与命名实体识别

最简单的方法是从语料库中统计每个词对应的高频词性，并将其作为默认词性；词性标注规范北大词性标注集；宾州词性标注集；[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来

Hi丶ImViper·2022-11-27 03:37

机器人改变生活利弊英语作文_最新雅思写作语料库:机器人利弊

因此，小站在这里为同学们整理了雅思备考语料库，希望对备考的同学们有所帮助。本文主要分享关于机器人利弊的语料，话不多说，直接干货奉上!

幻世魔王·2022-11-27 02:14

Mind the GAP: A Balanced Corpus of Gendered Ambiguous Pronouns--论文笔记

MindtheGAP:ABalancedCorpusofGenderedAmbiguousPronouns注意差距:性别歧义代词的平衡语料库AbstractCoreferenceresolutionisanimportanttaskfornaturallanguageunderstanding

JasonSera·2022-11-26 13:07

深度学习，实现智能聊天对话机器人（大数据人工智能公司）

目前使用广泛的聊天机器人采用机器学习、深度学习技术，如检索式机器人，通过用户输入的信息，在已有的对话语料库找到适合当前问题的最佳回复；生成式机器人，是利用编码-解码技术生成回复内容，更接近人类的回复。

沃达德软件·2022-11-26 07:27

NLP - 关键词提取 - TextRank

NLP-关键词提取-TextRank一、TextRank介绍二、PageRank介绍三、PageRank计算过程四、关键词提取任务一、TextRank介绍TextRank算法则可以脱离语料库的基础，仅对单篇文档进行分析就可以提取该文档的关键词

大虾飞哥哥·2022-11-26 03:26

M6-中文多模态预训练模型

回顾方法下游应用程序可扩展到具有万亿个参数的模型1.回顾多模态预训练模型架构：l基于transformerl单流或者双流图像特征：l目标特征lPatch特征l原始像素下游任务：l理解：VQA，检索l生成：图像字幕对M6的预期l在中文语料库上的预训练模型

Necther·2022-11-25 19:29

《Transformers自然语言处理系列教程》第1章：Transformers 介绍

与此同时，一种名为ULMFiT的有效迁移学习方法表明，在一个非常大和多样化的语料库上，训练长短期记忆（LSTM）网络，可以用很少的标记数据，产生SOTA的文本分类器。

小爷毛毛（卓寿杰）·2022-11-25 17:05

知识图谱-多跳推理问答-模型-2020：EmbedKGQA【第一个将KGE用于多跳推理问答任务的方法】【直接通过score=φ(q,e_h,e_a‘)从KG中选择答案实体】

最近的方法已使用外部文本语料库来处理KG稀疏性。而本文期望通过利用KGembedding的链接预测属性，不依赖外部数据解决KG不完整问题。

u013250861·2022-11-25 16:16

【论文翻译】Neural Architectures for Named Entity Recognition

Abstract处于领先水平的命名实体识别系统严重依赖于人工设计的特征与特定领域的知识，从而更高效地学习小型、带标记的语料库。

aibin6833·2022-11-25 13:57

renhongxia1·2022-11-25 13:41

情感分析技术

先对语料库的进行情感分析，有助于生成更加自然的，多样化的文本。最近读的论文大多数也大都涉及情感分析，所以想要系统学一下，多了解这一方面的技术。

欢桑·2022-11-24 22:40

深入浅出Word2Vec原理解析

1.1统计语言模型统计语言模型是用来计算一个句子的概率的概率模型，它通常基于一个语料库来构建。那什么叫做一个句子的概率呢？假设表示由个词按顺序构

风度78·2022-11-24 18:27

Hugging Face——MLM预训练掩码语言模型方法

只要用于预训练的语料库与用于微调的语料库没有太大区别,迁移学习通常会产生很好的结果。但是,在某些情况下,你需要先微调数据上的语言模型,然后再训练特定于任务的head。

Charon_HN·2022-11-24 12:43

手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

他要构建语料库，目前通过Python网络爬虫抓到的数据存在一个csv文件里边，现在要把数据放进txt里，表示不会，然后还有后

Python进阶者·2022-11-24 11:52

NLP入门学习（一）：搜狗新闻语料库的获取与预处理

前言今天是2021年10月6日，从9月份开学好像一直什么都没有学习，可能也只有每天刷点力扣题了吧，一天当中很多的时间都浪费了，本来想的是平平淡淡的过完研究生的生活，但好像发现如果一开始的目标就很低的话，那很可能这个目标完成不了，所以说我的目标就是成为优秀毕业生顺利毕业，与此同时希望自己能找到一个好工作。那么从现在开始，我不仅仅要每天刷力扣题，而且还要准备论文和项目了，java方面的我是不太可能了，

dreamlpx·2022-11-24 10:02

语料库数据处理个案实例（分词和分句、词频统计、排序）

本文来自《基于Python的语料库处理》_雷蕾著。7.1分句和分词7.1.1分句分句（sentencesplitting）就是将字符串按自然句子的形式进行切分。

Triumph19·2022-11-24 10:01

语音处理之 libritts，AIShell

LibriSpeech该数据集为包含文本和语音的有声读物数据集，由VassilPanayotov编写的大约1000小时的16kHz读取英语演讲的语料库。

才大难为用·2022-11-24 09:10

BERT源码解析（上）

还有一个是nextsentenceprediction，判断两个句子是否在文章中互为上下句，然后使用大规模的语料库去预训练。模型结构如下：Bertbase具有12层上图所示的

CReep~·2022-11-23 14:23

论文阅读；Questions Are All You Need to Train a Dense Passage Retriever

训练密集通道检索器所需要的问题arxiv2022论文链接摘要我们介绍了ART，这是一种新的语料库级自动编码方法，用于训练不需要任何标记训练数据的密集检索模型。

张·2022-11-23 13:37

论文阅读Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval

密集文本检索的无监督语料库感知语言模型预训练ACL2022论文链接摘要最近的研究证明了使用微调语言模型（LM）进行密集检索的有效性。

张·2022-11-23 13:30

ERNIE: Enhanced Language Representation with Informative Entities中文

4.1预训练数据集4.2参数设置和训练细节4.5GLUE4.6消融研究5结论ERNIE注：本文为清华和华为的ERNIE模型，百度也有个同名的ERNIE清华ERNIE原论文百度ERNIE原论文摘要在大规模语料库上预训练的

葫芦娃啊啊啊啊·2022-11-23 10:12

详细介绍百度ERNIE：通过知识集成增强表示

若年封尘·2022-11-23 10:27

机器学习——LDA主题模型

LDA主题模型LDA是一种非监督机器学习技术，可以用来识别大规模文档集（documentcollection）或语料库（corpus）中潜藏的主题信息。

weixin_46064807·2022-11-22 23:08

TF-IDF算法原理和公式

一、什么是TF-IDF算法TF-IDF算法是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

CoolSichuan·2022-11-22 18:35

tf idf python_TFIDF算法的python实现

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件

weixin_39533795·2022-11-22 17:29

TF-IDF算法介绍及实现

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会

嘻哈吼嘿呵·2022-11-22 17:24

TF-IDF算法实现

TermFrequency-InverseDocumentFrequency,TF-IDF)是一种用于资讯检索与文本挖掘的常用加权技术●TF-IDF是一种统计方法，用以评估一一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度

VernonJsn·2022-11-22 17:51

tfidf代码实现

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中

望长安于日下·2022-11-22 17:21

TF-IDF 统计算法介绍与代码实现

一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但随着它在语料库中出现的频率成反比下降。

青霄·2022-11-22 17:48

推荐频道

语料库