语料库第16页

情感分析技术

先对语料库的进行情感分析，有助于生成更加自然的，多样化的文本。最近读的论文大多数也大都涉及情感分析，所以想要系统学一下，多了解这一方面的技术。

欢桑·2022-11-24 22:40

深入浅出Word2Vec原理解析

1.1统计语言模型统计语言模型是用来计算一个句子的概率的概率模型，它通常基于一个语料库来构建。那什么叫做一个句子的概率呢？假设表示由个词按顺序构

风度78·2022-11-24 18:27

Hugging Face——MLM预训练掩码语言模型方法

只要用于预训练的语料库与用于微调的语料库没有太大区别,迁移学习通常会产生很好的结果。但是,在某些情况下,你需要先微调数据上的语言模型,然后再训练特定于任务的head。

Charon_HN·2022-11-24 12:43

手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

他要构建语料库，目前通过Python网络爬虫抓到的数据存在一个csv文件里边，现在要把数据放进txt里，表示不会，然后还有后

Python进阶者·2022-11-24 11:52

NLP入门学习（一）：搜狗新闻语料库的获取与预处理

前言今天是2021年10月6日，从9月份开学好像一直什么都没有学习，可能也只有每天刷点力扣题了吧，一天当中很多的时间都浪费了，本来想的是平平淡淡的过完研究生的生活，但好像发现如果一开始的目标就很低的话，那很可能这个目标完成不了，所以说我的目标就是成为优秀毕业生顺利毕业，与此同时希望自己能找到一个好工作。那么从现在开始，我不仅仅要每天刷力扣题，而且还要准备论文和项目了，java方面的我是不太可能了，

dreamlpx·2022-11-24 10:02

语料库数据处理个案实例（分词和分句、词频统计、排序）

本文来自《基于Python的语料库处理》_雷蕾著。7.1分句和分词7.1.1分句分句（sentencesplitting）就是将字符串按自然句子的形式进行切分。

Triumph19·2022-11-24 10:01

语音处理之 libritts，AIShell

LibriSpeech该数据集为包含文本和语音的有声读物数据集，由VassilPanayotov编写的大约1000小时的16kHz读取英语演讲的语料库。

才大难为用·2022-11-24 09:10

BERT源码解析（上）

还有一个是nextsentenceprediction，判断两个句子是否在文章中互为上下句，然后使用大规模的语料库去预训练。模型结构如下：Bertbase具有12层上图所示的

CReep~·2022-11-23 14:23

论文阅读；Questions Are All You Need to Train a Dense Passage Retriever

训练密集通道检索器所需要的问题arxiv2022论文链接摘要我们介绍了ART，这是一种新的语料库级自动编码方法，用于训练不需要任何标记训练数据的密集检索模型。

张·2022-11-23 13:37

论文阅读Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval

密集文本检索的无监督语料库感知语言模型预训练ACL2022论文链接摘要最近的研究证明了使用微调语言模型（LM）进行密集检索的有效性。

张·2022-11-23 13:30

ERNIE: Enhanced Language Representation with Informative Entities中文

4.1预训练数据集4.2参数设置和训练细节4.5GLUE4.6消融研究5结论ERNIE注：本文为清华和华为的ERNIE模型，百度也有个同名的ERNIE清华ERNIE原论文百度ERNIE原论文摘要在大规模语料库上预训练的

葫芦娃啊啊啊啊·2022-11-23 10:12

详细介绍百度ERNIE：通过知识集成增强表示

若年封尘·2022-11-23 10:27

机器学习——LDA主题模型

LDA主题模型LDA是一种非监督机器学习技术，可以用来识别大规模文档集（documentcollection）或语料库（corpus）中潜藏的主题信息。

weixin_46064807·2022-11-22 23:08

TF-IDF算法原理和公式

一、什么是TF-IDF算法TF-IDF算法是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

CoolSichuan·2022-11-22 18:35

tf idf python_TFIDF算法的python实现

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件

weixin_39533795·2022-11-22 17:29

TF-IDF算法介绍及实现

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会

嘻哈吼嘿呵·2022-11-22 17:24

TF-IDF算法实现

TermFrequency-InverseDocumentFrequency,TF-IDF)是一种用于资讯检索与文本挖掘的常用加权技术●TF-IDF是一种统计方法，用以评估一一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度

VernonJsn·2022-11-22 17:51

tfidf代码实现

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中

望长安于日下·2022-11-22 17:21

TF-IDF 统计算法介绍与代码实现

一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但随着它在语料库中出现的频率成反比下降。

青霄·2022-11-22 17:48

维基百科的语料库下载以及信息提取笔记

目录前言一、前提知识1-1、中文维基百科的下载1-2、抽取正文内容，繁体转换为简体1-2-1、抽取正文内容1-2-2、繁体转换为简体1-3、特征工程1-4、训练词向量二、实战训练总结前言中文语料库一般都是极为稀少的

ㄣ知冷煖★·2022-11-22 05:24

自然语言处理学习笔记十一（文本分类）

在文本聚类中，体验了无须标注语料库的便利性，但是无监督学习总归无法按照我们的意志预测出文档的类别，限制了文本聚类的应用场景。为了解决更多的需要将文档分门别类地归入具体的类别中，于是有了文本分类的产生。

犀利哗啦760596103·2022-11-22 04:35

我的NVIDIA开发者之旅——使用NeMo快速构建智能问答系统学习笔记

快速构建智能问答系统学习笔记"我的NVIDIA开发者之旅”|征文活动进行中…智能问答系统是自然语言处理领域的重要任务之一，它是对无序语料信息进行有序、科学的整理，建立基于知识的分类模型;这些模型可以指导新添加的分类语料库和服务信息

不古MrBugu·2022-11-22 02:22

论文：Graph Convolutional Networks for Text Classification

TextGCN：使用图卷积网络进行文本分类，基于词共现和文档词关系为语料库构建一个单独的文本图，word和document的初始向量为one-hot表示。

ren.yz·2022-11-22 02:37

NLP到Word2Vec实战-第一课

文章目录QANLTK一、概述1.定义2.安装NLTK3.安装语料库二、文本处理流程1.Tokenize——长句拆分成小部分2.中英文区别—中文没有空格（1）中文分词——jieba.cut()——一般要与

weixin_47082769·2022-11-21 18:49

Spark 实战，第 6 部分: 基于 Spark ML 的文本分类

引言文本分类是一个典型的机器学习问题，其主要目标是通过对已有语料库文本数据训练得到分类模型，进而对新文本进行类别标签的预测。

AISeekOnline·2022-11-21 14:35

论文研读record1 #ner

Zyuting1·2022-11-21 13:46

【0x0001】文本生成：从零实现的char-RNN

在我兴致勃勃找到他的源码后，却发现不是自己想的那样，原作者并没有使用任何的NLP算法，只是使用程序在语料库中进行的随机摘抄[2]。短短54行代码就实现了这么高大上的功能，我等自然也不能浪费这个创意，

Lonficer·2022-11-21 12:38

词典构造方法之LDA主题模型

词典构造方法之LDA主题模型主题模型LDA原理理解LDA是一种非监督学习技术，可以用来识别大规模文档集（documentcollection）或语料库（corpus）中潜藏的主题信息。

笑傲NLP江湖·2022-11-21 03:03

spacy库的安装与使用_自然语言处理库nltk、spacy安装及配置方法

nltk配置安装nltk库，命令行输入以下命令pip3installnltk有些时候的nltk代码需要语料库才能运行，nltk语料库很庞大,这时候运行下面的python代码，就会下载语料库importnltknltk.download

编剧学徒·2022-11-20 23:12

利用python进行自然语言处理学习笔记——chap2

第二章.获得文本语料与词汇资源语料库和相关资源条件概率分布3.WordNet古登堡语料库：ProjectGutenbergimportnltknltk.corpus.gutenberg#includingfileids

foursight·2022-11-20 22:40

维基百科中文语料分析（附实际评论案例）

这个维基百科中文语料库在网上有很多资源，我就

py学习小白·2022-11-20 17:13

语音识别笔记

语言模型表示一个个词串（如何结合了词典，就可以成为一个个音素串）它们在语料库中出现的概率大小（比如，不合语法的词串（句子）概率接近0，很合乎语法的词串概率大）；3.什么是解码器解码器就是基于Viterbi

zh515858237·2022-11-20 14:27

GPT2模型详解

OpenAI组织在2018年于GPT模型的基础上发布的新预训练模型，其论文原文为language_models_are_unsupervised_multitask_learnersGPT2模型的预训练语料库为超过

zhurui_xiaozhuzaizai·2022-11-19 20:48

gensim Word2Vec 训练和使用(Model一定要加载到内存中，节省时间！！！)

训练模型利用gensim.models.Word2Vec(sentences)建立词向量模型该构造函数执行了三个步骤：建立一个空的模型对象，遍历一次语料库建立词典，第二次遍历语料库建立神经网络模型可以通过分别执行

weixin_30877227·2022-11-19 12:31

论文阅读：Neural Snowball for Few-Shot Relation Learning

名词介绍实例：这里实例指的实际上就是语料库中的句子最终目的针对每一个新关系r，训练得到一个

Accepted_Lam·2022-11-19 10:51

初学NLPday1笔记部分

2.了解两个最常见的语料库：nltk（英文语料库，具有分类，分词多种功能）jieba（中文语料库，这个库是github开源并且在不断更新的一个语料库，随着网络语言的发展，词汇与语料不断增多）3.一条文本的处理流程

WJY991202·2022-11-19 08:04

Vision Transformer（ViT）

论文地址：https://arxiv.org/pdf/2010.11929v2.pdf基于纯自注意力机制的Transform模型，现在在自然语言处理领域占据着首要的地位，它主要是在大型文本语料库上进行预训练

Seven7_Lu·2022-11-19 07:55

[语音识别] kaldi -- aidatatang_200zh脚本解析: run.sh

/path.sh#定义语料库位置和下载路径data=/DATA/disk1/ASRdata_url=www.openslr.org/resources/62#下载数据##输入：语料库位置（$data）数据下载路径

MachineLP·2022-11-19 04:39

学习笔记：情感分析

一、项目目标（一）将Twitter数据集可视化，制作出直方图、词云等；（二）掌握LSTM算法原理；（三）学会利用NLTK语料库进行数据清洗；（四）可以用深度学习进行预测分析。

海盐味的小圆饼·2022-11-19 02:22

高频词汇快背

柯林斯词典有一个高达2.5亿的语料库，从语料库中筛选出了最常用的14450词用五星标注。

treasureB·2022-11-18 14:02

自然语言处理学习笔记七(词性标注)

不同的语料库采用不同的词性标注集，一般含有形容词、动词、名词等常见词性。1.2词性的用处词性的作用就是提供词语的抽象表示，词性支撑许多的高级应用，当下游应用遇到OOV时，可以通过OOV的词性猜测用法。

犀利哗啦760596103·2022-11-17 20:05

nlp-with-transformers系列-04_多语言命名实体识别

当语料库是多语言的时

致Great·2022-11-15 09:14

【Transformer】Syntax-augmented Multilingual BERT for Cross-lingual Transfer 阅读笔记

Syntax-augmentedMultilingualBERTforCross-lingualTransferAbstract近年来，我们发现，通过使用许多语言的大型语料库来预训练多语言文本编码器来促进跨语言迁移学习

Vincy_King·2022-11-15 09:43

《Monolingual and Cross-Lingual Intent Detection without Training Data in Target Languages》论文的研读

我就是我2333·2022-11-15 09:43

论文笔记：Cross-Lingual Semantic Role Labeling with High-Quality Translated Training Corpus

基于高质量翻译训练语料库的跨语言语义角色标注摘要介绍2相关工作3SRLTranslation（SRL翻译）4TheSRLModel4.1WordRepresentation（词语表征）4.2EncodingLayer4.3OutputLayer5Experiments5.1UniversalPropositionBank5.2SRLTranslation5.3Settings5.4Cross-Li

帅帅梁·2022-11-15 09:11

【高级RNN】预训练词嵌入导入文本分类任务——GLOVE模型

使用无监督方法从头训练词向量通常需要极大的语料库。在实践中，我们使用预训练的词嵌入,这些词嵌入是从巨大语料库上训练的，可以通过网络获取。在本文中，我们将展

FallenDarkStar·2022-11-14 12:33

NLP小白学习路线(2)——Glove模型

上一篇我们讲到了，怎么让计算机理解人类的语言，那就是构建让计算机可以理解的one-hot向量，但是由于语料库太庞大，one-hot容易导致维度灾难，并且不能计算词之间的相似性，所以我们引入了WordEmbedding

yuting_·2022-11-14 12:02

NLP ——GloVe

顾名思义，该模型用到了语料库的全局特征，即单词的共现频次矩阵，并且，其优化目标函数是对数线性的，并用回归的形式进行求解。本质上是对共现矩阵进行降维。

Cater Chen·2022-11-14 11:30

NLP的Glove模型

总体上看，GloVe模型是一种对“词-词”矩阵进行分解从而得到词表示的方法Glove模型是基于语料库构建词的共现矩阵，然后基于共现矩阵和GloVe模型对

hxxjxw·2022-11-14 11:26

Nltk——语料库

自带的语料库在nltk.corpus包下，提供了几类标注好的语料

big_matster·2022-11-11 08:47

推荐频道

语料库