语料库第13页

Glove模型详解

目录Glove模型总结Glove模型GloVe(GlobalVectors)模型认为语料库中单词出现的统计(共现矩阵)是学习词向量表示的无监督学习算法的重要资料。

big_matster·2022-12-31 15:49

Glove模型的原理与代码

原理部分1.共现矩阵2.F值的获取3.Glove公式的获取4.损失函数的获取三、代码部分1.词表映射2.词嵌入3.训练函数4.输出结果总结一、背景 GloVe模型即GlobalVectors模型，该模型认为语料库中单词出现的统计

zaiziwamei·2022-12-31 15:15

TJU自然语言处理复习（1）

基于规则的自然语言处理基于统计的自然语言处理n-gram语言模型统计语言模型语料库：统计NLP的知识来源搭配NLP的方法论之争基于深度学习的自然语言处理什么是自然语言处理？自然语言是什么？

重铸计科荣光我辈义不容辞·2022-12-31 08:19

python中文字符串比较模块_python比较字符串相似度，原创度检测工具

8-*-"""基于gensim模块的中文句子相似度计算思路如下：1.文本预处理：中文分词，去除停用词2.计算词频3.创建字典(单词与编号之间的映射)4.将待比较的文档转换为向量(词袋表示方法)5.建立语料库

大不列颠一号·2022-12-30 19:59

【NLP+机器学习】实现对评论的情感倾向分析，预测，评估

文本分类和文本聚类有监督的学习无监督的学习训练集包括输入和由人工标注的输出（x，y）其训练集没有人为标注的输出（x）分类（classify）聚类（cluster）测试文本（语料）来自于nltk库的movie_reviews语料库

samarua·2022-12-30 17:20

AIGC用于智能写作的技术综述-达观数据

这种技术通过分析给定语料库，学习文本的结构和语法，然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容，并且可以用来完成诸如文章写作、报告生成和摘要提取等任务。

DatagrandRS·2022-12-30 10:05

AIGC用于智能写作的技术综述-达观数据

这种技术通过分析给定语料库，学习文本的结构和语法，然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容，并且可以用来完成诸如文章写作、报告生成和摘要提取等任务。

·2022-12-29 16:43

AIGC用于智能写作的技术综述-达观数据

这种技术通过分析给定语料库，学习文本的结构和语法，然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容，并且可以用来完成诸如文章写作、报告生成和摘要提取等任务。

·2022-12-29 15:12

gensim.models word2vec 参数

文章目录前言1、min_count2、sg前言使用gensim.modelsword2vec的一点参数记录1、min_count word2vec保留的最小词频数，当语料库中的词词频小于min_conunt

江_小_白·2022-12-29 14:47

文本语义相似度检测 API 数据接口

1.产品功能秒级分析性能；基于NLP算法智能计算；进行语义上相似度精准检测；底层模型以及语料库持续更新集成中；数据持续更新与维护；全接口支持HTTPS（TLSv1.0/v1.1/v1.2/v1.3）；全面兼容

DevOpenClub·2022-12-29 14:44

自然语言处理功能的全链条式集合，NLPIR大数据语义智能分析平台

随着词表和语料库等研究材料逐渐丰富，词语切分、词性标注、句法分析等技术的进步，自然语言研究不断推出新模型，这些研究的进展也扩展了自然语言的应用领域和场景。

NLPIR大数据·2022-12-29 13:13

NLP 中文智能纠错 API 数据接口

1.产品功能秒级NLP智能纠错性能；NLP加载多个模型进行纠错处理；返回纠正字符以及对应位置索引；底层模型以及语料库持续更新集成中；数据持续更新与维护；全接口支持HTTPS（TLSv1.0/v1.1/v1.2

DevOpenClub·2022-12-29 13:10

华为AI认证＿NLP

实验一：jieba分词importjieba#精确模式print("--------精确模式------")#分词的语料库s="每个词都有两个对应的向量，一个是作为中心词的向量，一个是作为上下文词的向量

熙仪繁华·2022-12-28 14:09

TF-IDF的原理与实际应用

TF-IDF的原理与实际应用一、TF-IDF简介TF-IDF(termfrequency-inversedocumentfrequency)是一种统计方法，用以评估一个字词对于一个文本集或一个语料库中的其中一份文件的重要程度

敷衍zgf·2022-12-28 14:07

TF-IDF原理及应用

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

comli_cn·2022-12-28 14:01

技术干货｜昇思MindSpore NLP模型迁移之LUKE模型——阅读理解任务

这项任务涉及到预测从维基百科的大型实体注释语料库中检索出来的随机隐藏的单词和实体。

昇思MindSpore·2022-12-28 14:01

文本标注工具doccano安装及使用

介绍doccano是docummentanotation的缩写，是一个开源的文本标注工具，我们可以用它为NLP任务的语料库进行打标。它支持情感分析，命名实体识别，文本摘要等任务。

夕由呀·2022-12-28 10:16

自然语言处理：有关单词含义理解、word2vec单词分布式表示的总结

目录一、单词含义理解方法：二、分布式假设（相关概念）：三、word2vec一、单词含义理解方法：1基于同义词词典:单词含义相近的归为同一类，最著名的有WordNet2基于计数的方法:使用corpus语料库

菜鸟爱学习@chong·2022-12-27 21:22

论文研读-AI4VIS-可视化推荐-Table2Analysis/Table2Charts

问题2.1问题抽象1.抽象分析过程2.语言建模2.2存在挑战3Table2Analysis3.1马尔可夫决策3.2DQN动作值近似器3.3启发式波束搜索3.4DQN训练4实验4.1PivotTable语料库

weixin_43413013·2022-12-27 09:00

2022年终总结（年度流水账)

1月份，研一期末周，当时学校封校，每个宿舍凭证出入，可乐是奢侈品，语料库语言学、篇章语言学、定性与定量课程论文一件接一件，元旦凌晨，封在宿舍的大家齐声喊新年快乐！就这样开启了2022。

离群的海豚·2022-12-26 14:14

检索用的指标

2.MAP(meanaverageprecision)在豆瓣的语料库上定义的平均准确率，没有像上面的定义n和k，可能是语料库里规定了n和k（不太确定）。3.MRR(me

苏炘·2022-12-26 12:51

NLP-拼写纠错（spell correction）实战

NLP-拼写纠错1.词典库2.生成错误单词的候选集合-编辑距离3.读取语料库4.构建语言模型-Bigram5.用户输入该错误单词的概率6.测试文本拼写纠错7.结果1.词典库读取本地文件的词典库，存入集合

呆小呆_·2022-12-26 10:02

NLP项目（二）——拼写纠错

目录前言一、数据集介绍1-1、spell-errors.txt1-2、vocab.txt1-3、testdata.txt二、拼写纠错代码Part0：构建词库Part1：生成所有的候选集合Part2：读取语料库

ㄣ知冷煖★·2022-12-26 10:00

中文自然语言处理的完整流程

语料是构成语料库的基本单元。所以，人们简单地用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。

cc_moe·2022-12-26 07:56

doccano在linux系统的安装流程

doccano常用的nlp标注工具，文本分类标注工具，ner标注工具doccano是docummentanotation的缩写，是一个开源的文本标注工具，我们可以用它为NLP任务的语料库进行打标。

贝叶斯巴达·2022-12-25 21:19

北邮数据挖掘文本分类实验

实验要求如下实验一文本数据的分类与分析【实验目的】1.掌握数据预处理的方法，对训练集数据进行预处理；2.掌握文本建模的方法，对语料库的文档进行建模；3.掌握分类算法的原理，基于有监督的机器学习方法，训练文本分类器

反身而诚、·2022-12-25 09:21

NLP-NMT-Transformer图解及论文笔记：Attention Is All You Need

从早期的词典匹配，到词典结合语言学专家知识的规则翻译，再到基于语料库的统计机器翻译，随着计算机运算能力的提升和多语言信息资源的爆发式增长，机器翻译技术逐渐走出象牙塔，开始为普通用户提供实时便捷的翻译服务

饮冰l·2022-12-25 08:59

图神经网络15-Text-Level-GNN:基于文本级GNN的文本分类模型

arxiv.org/pdf/1910.02356.pdf论文代码：https://github.com/yenhao/text-level-gnn发表时间：2019论文简介与动机1）TextGCN为整个数据集/语料库构建一个异构图

致Great·2022-12-24 20:26

2步就能完成的情感分析模型

ABSA（AspectBasedSentimentAnalysis）是一种在给定的语料库中同时提取（co-extracting）表达意见和（事物）属性/方面术语（意见目标）以及它们之间的关系的任务。

极链AI云·2022-12-24 20:53

深度学习（8）：基于BERT算法的文本内容情感分析

BERT是一种对语言表征进行预训练的方法,即是经过大型文本语料库（如维基

流萤数点·2022-12-24 20:22

Chapter 2.2 高频词和关键词提取（二）续

基于sklearn的TF-IDF关键词提取基于sklearn的TF-IDF关键词提取的特点：能够使用jieba库分词能够使用自定义词典（新词、停用词）适用于多文本关键词提取（而非单文本）能够根据导入的语料库计算

Yif18·2022-12-24 20:50

Chapter 2.2 高频词和关键词提取（二）

算法的基本思想TF-IDF算法由TF和IDF两部分组成，是TF算法和IDF算法的综合使用TF（词频）：某词在某文档中出现的次数/该文档的总词数，词频越高表示该词对该文档的表达能力越强IDF（逆文档频次）：log(语料库中的总文档数

Yif18·2022-12-24 20:49

word2vec 的 Negative Sampling(负采样)技巧

假设训练的语料库有个不同的词汇，隐藏层是维，这意味着每训练一次样本(采用随机梯度下降)，中有个神经元要更新，中有个神经元要更新，导致如果语料库非常庞大，计算会非常低效。

看正好六个字·2022-12-24 19:56

【论文笔记】K-BERT: Enabling Language Representation with Knowledge Graph

论文地址：https://arxiv.org/abs/1909.07606v1项目地址：https://github.com/autoliuweijie/K-BERT摘要BERT虽然能够从大规模的语料库中捕获通用的语言表示信息

Nlper_Zhao·2022-12-24 07:31

解决bert-service-start启动报错 TypeError: ‘NoneType’ object is not iterable

为了训练自己语料库的word2vec，使用了bert-as-service首先需要tensorflow>=1.10版本，python>=3.5版本接下来，pipinstallbert-serving-server

theshy_____·2022-12-23 16:52

自然语言处理之文本预处理

1.1定义语料库（Corpus）：一个文档（documents）的集合（collection）例如：维基百科中全部的英文文章文档（Document）：一个或者多个句子（sentence）通常，这些句子是经过理解性组织过的

Wilson_Hank·2022-12-23 07:38

文本特征提取算法-TF-IDF

用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比，跟它在语料库出现的次数成反比。

Sais_Z·2022-12-22 15:54

自然语言处理(NLP)之TF-IDF原理及使用

TF-IDF介绍TF-IDF是NLP中一种常用的统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度，通常用于提取文本的特征，即关键词。

IT之一小佬·2022-12-22 15:54

【NLP学习笔记】使用jieba实现关键词提取

1.1基于TF-IDF算法的关键词提取TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文件频率)是一种统计方法，用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度

虚坏叔叔·2022-12-22 15:21

从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（8）

另外将读取文件、构造语料库等前续步骤，也合并到myDataset类的**init**方法里。优化后新的代码如下：importnumpyasnpimportpandasaspdimportpick

moronism189·2022-12-22 13:11

hmm 流程图_一种基于HMM的中文分词方法与流程

一般地，作为主流的基于词典的中文分词虽然实现简单，但是过于依赖词典，容易造成歧义，导致错误切分，从而使得分词准确率低；同样地，基于统计模型的中文分词虽然在一定程度上能排除歧义，但是分词准确率也依赖于训练语料库

純樂·2022-12-22 06:00

OpenAI 研究员：数据不足时，如何实现监督学习

一般而言，当监督学习任务面临标签数据不足问题时，可以考虑以下四种解决办法：1.预训练+微调：首先在一个大规模无监督数据语料库上对一个强大的任务无关模型进行预训练（例如通过自监督学习在自由文本上对语言模型进行预训练

人工智能学家·2022-12-21 21:05

CS224斯坦福nlp课程学习笔记2-词向量

onehotencoder（词袋模型）每个词表示为一个向量，向量长度为语料库中词的个数，每个向量值只有一个编码为1其余是0杭州[0,0,0,0,0,0,0,1,0,……，0,0,0,0,0,0,0]上海

NLP 小白进阶·2022-12-20 21:15

NLP学习笔记[1] -- 构建词向量模型 -- Word2Vec与词嵌入

(本文包含尝试和其他实验的笔记,篇幅较长,如果不想看细节的话可以直接跳到按手册说明调用word2vec节或者总结部分.)本文使用的的语料库来自狗

冥火·2022-12-20 21:14

利用机器学习进行放假预测

这些操作不仅仅包括获取数据，还能够添加数据，比如：投票管理多个平台的多个账户(如各个电商平台的账号)微信聊天机器人实际的应用远不止上面这些，但是上面的应用只是除开数据本身的应用而已，数据本身的应用也是很广的：机器学习语料库垂直领域的服务

__Miracle__·2022-12-20 18:11

HMM--实践

理论上没有语料库的话，可以使用EM算法求出参数l

qq_43498494·2022-12-20 01:21

手把手教你用R实现标记化（附代码、学习资料、语料库）

作者：RachaelTatman翻译：梁傅淇本文长度为1600字，建议阅读4分钟标记化是自然语言处理中的一个常见的任务。本文教你如何用R来统计单个标记（单个单词）在文本中出现的频率，并将这个过程写成可复用的函数。自然语言处理中的一个常见的任务就是标记化。通常而言，对于像英语这样的语言来说，标记是单个的单词，而标记化则是将一篇文章或者一系列文章分成一个个的单词。这些标记之后会被作为其他类型的分析或者

「已注销」·2022-12-19 14:02

机器学习-文本处理之电影评论多分类情感分析

以下是此类应用的一些示例语言翻译：将句子从一种语言翻译成另一种语言情绪分析：从文本语料库中确定对任何主题或产品等的情绪是积极的、消极的还是中性的垃圾邮件过滤：检测未经请求和不需要的电子邮件/消息。

GawainTky·2022-12-19 10:57

提高方面级情感分析的性能：一种结合词汇图和句法图的方法

该工作提出了一种新颖的体系结构，其目标在于更好地利用语料库级别的单词共现信息以及

PaperWeekly·2022-12-19 10:56

基于语料库的汉语形容词宾语与名词句法语义关系分析

摘要本研究探讨了汉语动词宾语结构中形容词宾语与特定名词之间的句法和语义关系。首先，它表明动词宾语结构可以在句子中充当谓语和修饰语。由于形容词代表名词的属性，动词宾语结构的形容词宾语与特定名词具有属性-实体语义关系。根据句法功能和属性实体语义关系，我们指出形容词宾语与特定名词之间的句法关系主要有主谓关系和修饰语首关系两种。此外，我们将形容词宾语作为转喻表达。最后，我们认为作为宾语的形容词在语义上具有

tao_yue06·2022-12-18 16:22

推荐频道

语料库

Glove模型详解

Glove模型的原理与代码

TJU自然语言处理复习（1）

python中文字符串比较模块_python比较字符串相似度，原创度检测工具

【NLP+机器学习】实现对评论的情感倾向分析，预测，评估

AIGC用于智能写作的技术综述-达观数据

AIGC用于智能写作的技术综述-达观数据

AIGC用于智能写作的技术综述-达观数据

gensim.models word2vec 参数

文本语义相似度检测 API 数据接口

自然语言处理功能的全链条式集合，NLPIR大数据语义智能分析平台

NLP 中文智能纠错 API 数据接口

华为AI认证＿NLP

TF-IDF的原理与实际应用

TF-IDF原理及应用

技术干货｜昇思MindSpore NLP模型迁移之LUKE模型——阅读理解任务

文本标注工具doccano安装及使用

自然语言处理：有关单词含义理解、word2vec单词分布式表示的总结

论文研读-AI4VIS-可视化推荐-Table2Analysis/Table2Charts

2022年终总结（年度流水账)

检索用的指标

NLP-拼写纠错（spell correction）实战

NLP项目（二）——拼写纠错

中文自然语言处理的完整流程

doccano在linux系统的安装流程

北邮数据挖掘文本分类实验

NLP-NMT-Transformer图解及论文笔记：Attention Is All You Need

图神经网络15-Text-Level-GNN:基于文本级GNN的文本分类模型

2步就能完成的情感分析模型

深度学习（8）：基于BERT算法的文本内容情感分析

Chapter 2.2 高频词和关键词提取（二）续

Chapter 2.2 高频词和关键词提取（二）

word2vec 的 Negative Sampling(负采样)技巧

【论文笔记】K-BERT: Enabling Language Representation with Knowledge Graph

解决bert-service-start启动报错 TypeError: ‘NoneType’ object is not iterable

自然语言处理之文本预处理

文本特征提取算法-TF-IDF

自然语言处理(NLP)之TF-IDF原理及使用

【NLP学习笔记】使用jieba实现关键词提取

从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（8）

hmm 流程图_一种基于HMM的中文分词方法与流程

OpenAI 研究员：数据不足时，如何实现监督学习

CS224斯坦福nlp课程学习笔记2-词向量

NLP学习笔记[1] -- 构建词向量模型 -- Word2Vec与词嵌入

利用机器学习进行放假预测

HMM--实践

手把手教你用R实现标记化（附代码、学习资料、语料库）

机器学习-文本处理之电影评论多分类情感分析

提高方面级情感分析的性能：一种结合词汇图和句法图的方法

基于语料库的汉语形容词宾语与名词句法语义关系分析