199801语料库第13页

论文阅读笔记---《TransferNet: An Effective and Transparent Framework for Multi-hop Question Answering over》

这些关系可以用知识图谱中的标签（例如，配偶）或文本语料库中的文本（例如，他们已经结婚26年）来表示。现有模型通常通过预测顺序关系路径或聚合隐藏图特征来推断答案。前者难以优化，后者缺乏可解释性。

Ray.1998·2023-01-05 14:13

语音识别入门第一节：语音识别概述

目录语音识别的定义语音识别的重要性语音交互语音识别的挑战性语音识别的发展历史语音识别的深度学习时代现代语音识别框架语料库与工具包语音识别的定义语音识别：AutomaticSpeechRecognition

安静_xju·2023-01-05 11:49

自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧

不过嘛，正如我们想的那样，肯定是语料库越大越好，但越大呢就训练的时间越长，这也是没办法的事情。我建议大家用GPU来训练，当当当，强烈推荐AI

猫头丁·2023-01-05 10:51

主题模型Gensim入门系列之四：文本相似度查询

入门系列之二：语料和向量空间（3）主题模型Gensim入门系列之三：主题和变换（4）主题模型Gensim入门系列之四：文本相似度查询————————————————————————————本文主要介绍如何从一个语料库中

liuzard·2023-01-05 10:49

gensim入门

简介：gensim是挖掘文档语义结构的工具，通过语料库（文档集），生成表示文本的向量。语料库：语料库是数字文档的集合，是gensim的输入

攀攀的跟屁虫·2023-01-05 10:15

人工智能培训老师讲师叶梓：计算机视觉领域的自监督学习模型——MAE-2

主要方法是在大型文本语料库上进行预训练，然后在较小的特定于任务的数据集上进行微调。Transformer未完，下一篇继续……

大数据AI人工智能专家培训讲师叶梓团队·2023-01-05 09:41

使用全局优化方法识别中文事件因果关系

使用全局优化方法识别中文事件因果关系目录使用全局优化方法识别中文事件因果关系一、语料库标注及基准系统1、因果语料库标注1.显示因果关系2.隐式因果关系3.非因果关系2、基准系统二、全局优化模型1.目标函数

懒人的理想主义·2023-01-04 07:05

彻底搞懂BPE（Byte Pair Encode）原理（附代码实现）

例子1.准备一个语料库（corpus），并统计这个语料库中每个词语的词频，通过“[词频]词语_”的形式存储，这里的“_”表示词语结尾。

无名草鸟·2023-01-03 22:49

nlp知识点总结（上）

壹：语料库一、什么是语料库1.定义语料库（corpus）一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记。2.种类共时语料库与历时语料库。通用语料库与专用语料库。

m0_59989429·2023-01-03 17:01

论文笔记之Distributed Representations of Words and Phrases and their Compositionality

这篇文章是用于解决skip-gram和CBOW两种模型在计算softmax时因为语料库V太大导致计算复杂度偏高的问题。

Ton10·2023-01-03 09:48

Contrastive Domain Adaptation for Question Answering using Limited Text Corpora

ContrastiveDomainAdaptationforQuestionAnsweringusingLimitedTextCorpora基于有限文本语料库的问答对比领域自适应codeAbstract

自然语言处理CS·2023-01-03 09:47

10.3_word2vec-pytorch

我们以10.1节（词嵌入word2vec）中的跳字模型和10.2节（近似训练）中的负采样为例，介绍在语料库上训练词嵌入模型的实现。我们还会介绍一些实现中的技巧，如二次采样（subsampling）。

给算法爸爸上香·2023-01-02 16:20

下载Wikidata并转成TXT文档

1.下载wikidataWikipedia中文语料库链接：wikidata页面里面是不同时间段的数据，本人选择的是20221001目录下的文件。接下来就是要下载好的bz2文件转成txt格式的。

五彩神石·2023-01-02 13:51

英文维基百科Python查询API

问题描述维基百科语料库是做文本挖掘和自然语言处理相关实验的一个非常重要的公开可获取大规模语料库（知识库），有时需要对其进行检索并对获取结果页面的相关信息，如正文文本、标题、页面文本长度等。

Luban250·2023-01-02 13:51

keras.preprocessing.sequence.pad_sequences

fromkeras.preprocessing.textimportTokenizer#文本标记实用类，允许使用两种方法向量化一个文本语料库：将每个文本转化为一个整数序列（每个整数都是词典中标记的索引）

Rouge-Eradiction·2023-01-02 12:22

【机器学习】TF-IDF词袋模型简介

来计算TF-IDF总结引言TF-IDF全称为TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文档频率)，这是一种统计方法，用来评估一个词对于一个文件集或语料库中的其中一份文件的重要程度

Coder_preston·2023-01-02 11:09

用tensorflow快速创建语料库词汇索引的方法

下面介绍用tensorflow快速创建语料库词汇索引的方法用tensorflow快速创建语料库词汇索引功能建立词汇表和word到index，及index到word的map，这就需

szZack·2023-01-01 13:37

学习笔记CB007:分词、命名实体识别、词性标注、句法分析树

基于条件随机场命名实体识别方法属于有监督学习方法，利用已标注大规模语料库训练。命名实体的放射性。命名实体的前后词。特征模板，当前位置前后n个位置字/词/字母/数字/

ahua2886·2022-12-31 19:50

GloVe模型训练

两类学习词向量的家族：1全局矩阵分解方法：像LSA(latentsemanticanalysis)，有效的利用语料库的统计信息，但是在单词类比任务上做的较差。

solitude23·2022-12-31 15:52

Glove模型详解

目录Glove模型总结Glove模型GloVe(GlobalVectors)模型认为语料库中单词出现的统计(共现矩阵)是学习词向量表示的无监督学习算法的重要资料。

big_matster·2022-12-31 15:49

Glove模型的原理与代码

原理部分1.共现矩阵2.F值的获取3.Glove公式的获取4.损失函数的获取三、代码部分1.词表映射2.词嵌入3.训练函数4.输出结果总结一、背景 GloVe模型即GlobalVectors模型，该模型认为语料库中单词出现的统计

zaiziwamei·2022-12-31 15:15

TJU自然语言处理复习（1）

基于规则的自然语言处理基于统计的自然语言处理n-gram语言模型统计语言模型语料库：统计NLP的知识来源搭配NLP的方法论之争基于深度学习的自然语言处理什么是自然语言处理？自然语言是什么？

重铸计科荣光我辈义不容辞·2022-12-31 08:19

python中文字符串比较模块_python比较字符串相似度，原创度检测工具

8-*-"""基于gensim模块的中文句子相似度计算思路如下：1.文本预处理：中文分词，去除停用词2.计算词频3.创建字典(单词与编号之间的映射)4.将待比较的文档转换为向量(词袋表示方法)5.建立语料库

大不列颠一号·2022-12-30 19:59

【NLP+机器学习】实现对评论的情感倾向分析，预测，评估

文本分类和文本聚类有监督的学习无监督的学习训练集包括输入和由人工标注的输出（x，y）其训练集没有人为标注的输出（x）分类（classify）聚类（cluster）测试文本（语料）来自于nltk库的movie_reviews语料库

samarua·2022-12-30 17:20

AIGC用于智能写作的技术综述-达观数据

这种技术通过分析给定语料库，学习文本的结构和语法，然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容，并且可以用来完成诸如文章写作、报告生成和摘要提取等任务。

DatagrandRS·2022-12-30 10:05

AIGC用于智能写作的技术综述-达观数据

这种技术通过分析给定语料库，学习文本的结构和语法，然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容，并且可以用来完成诸如文章写作、报告生成和摘要提取等任务。

·2022-12-29 16:43

AIGC用于智能写作的技术综述-达观数据

这种技术通过分析给定语料库，学习文本的结构和语法，然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容，并且可以用来完成诸如文章写作、报告生成和摘要提取等任务。

·2022-12-29 15:12

gensim.models word2vec 参数

文章目录前言1、min_count2、sg前言使用gensim.modelsword2vec的一点参数记录1、min_count word2vec保留的最小词频数，当语料库中的词词频小于min_conunt

江_小_白·2022-12-29 14:47

文本语义相似度检测 API 数据接口

1.产品功能秒级分析性能；基于NLP算法智能计算；进行语义上相似度精准检测；底层模型以及语料库持续更新集成中；数据持续更新与维护；全接口支持HTTPS（TLSv1.0/v1.1/v1.2/v1.3）；全面兼容

DevOpenClub·2022-12-29 14:44

自然语言处理功能的全链条式集合，NLPIR大数据语义智能分析平台

随着词表和语料库等研究材料逐渐丰富，词语切分、词性标注、句法分析等技术的进步，自然语言研究不断推出新模型，这些研究的进展也扩展了自然语言的应用领域和场景。

NLPIR大数据·2022-12-29 13:13

NLP 中文智能纠错 API 数据接口

1.产品功能秒级NLP智能纠错性能；NLP加载多个模型进行纠错处理；返回纠正字符以及对应位置索引；底层模型以及语料库持续更新集成中；数据持续更新与维护；全接口支持HTTPS（TLSv1.0/v1.1/v1.2

DevOpenClub·2022-12-29 13:10

华为AI认证＿NLP

实验一：jieba分词importjieba#精确模式print("--------精确模式------")#分词的语料库s="每个词都有两个对应的向量，一个是作为中心词的向量，一个是作为上下文词的向量

熙仪繁华·2022-12-28 14:09

TF-IDF的原理与实际应用

TF-IDF的原理与实际应用一、TF-IDF简介TF-IDF(termfrequency-inversedocumentfrequency)是一种统计方法，用以评估一个字词对于一个文本集或一个语料库中的其中一份文件的重要程度

敷衍zgf·2022-12-28 14:07

TF-IDF原理及应用

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

comli_cn·2022-12-28 14:01

技术干货｜昇思MindSpore NLP模型迁移之LUKE模型——阅读理解任务

这项任务涉及到预测从维基百科的大型实体注释语料库中检索出来的随机隐藏的单词和实体。

昇思MindSpore·2022-12-28 14:01

文本标注工具doccano安装及使用

介绍doccano是docummentanotation的缩写，是一个开源的文本标注工具，我们可以用它为NLP任务的语料库进行打标。它支持情感分析，命名实体识别，文本摘要等任务。

夕由呀·2022-12-28 10:16

自然语言处理：有关单词含义理解、word2vec单词分布式表示的总结

目录一、单词含义理解方法：二、分布式假设（相关概念）：三、word2vec一、单词含义理解方法：1基于同义词词典:单词含义相近的归为同一类，最著名的有WordNet2基于计数的方法:使用corpus语料库

菜鸟爱学习@chong·2022-12-27 21:22

论文研读-AI4VIS-可视化推荐-Table2Analysis/Table2Charts

问题2.1问题抽象1.抽象分析过程2.语言建模2.2存在挑战3Table2Analysis3.1马尔可夫决策3.2DQN动作值近似器3.3启发式波束搜索3.4DQN训练4实验4.1PivotTable语料库

weixin_43413013·2022-12-27 09:00

2022年终总结（年度流水账)

1月份，研一期末周，当时学校封校，每个宿舍凭证出入，可乐是奢侈品，语料库语言学、篇章语言学、定性与定量课程论文一件接一件，元旦凌晨，封在宿舍的大家齐声喊新年快乐！就这样开启了2022。

离群的海豚·2022-12-26 14:14

检索用的指标

2.MAP(meanaverageprecision)在豆瓣的语料库上定义的平均准确率，没有像上面的定义n和k，可能是语料库里规定了n和k（不太确定）。3.MRR(me

苏炘·2022-12-26 12:51

NLP-拼写纠错（spell correction）实战

NLP-拼写纠错1.词典库2.生成错误单词的候选集合-编辑距离3.读取语料库4.构建语言模型-Bigram5.用户输入该错误单词的概率6.测试文本拼写纠错7.结果1.词典库读取本地文件的词典库，存入集合

呆小呆_·2022-12-26 10:02

NLP项目（二）——拼写纠错

目录前言一、数据集介绍1-1、spell-errors.txt1-2、vocab.txt1-3、testdata.txt二、拼写纠错代码Part0：构建词库Part1：生成所有的候选集合Part2：读取语料库

ㄣ知冷煖★·2022-12-26 10:00

中文自然语言处理的完整流程

语料是构成语料库的基本单元。所以，人们简单地用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。

cc_moe·2022-12-26 07:56

doccano在linux系统的安装流程

doccano常用的nlp标注工具，文本分类标注工具，ner标注工具doccano是docummentanotation的缩写，是一个开源的文本标注工具，我们可以用它为NLP任务的语料库进行打标。

贝叶斯巴达·2022-12-25 21:19

北邮数据挖掘文本分类实验

实验要求如下实验一文本数据的分类与分析【实验目的】1.掌握数据预处理的方法，对训练集数据进行预处理；2.掌握文本建模的方法，对语料库的文档进行建模；3.掌握分类算法的原理，基于有监督的机器学习方法，训练文本分类器

反身而诚、·2022-12-25 09:21

NLP-NMT-Transformer图解及论文笔记：Attention Is All You Need

从早期的词典匹配，到词典结合语言学专家知识的规则翻译，再到基于语料库的统计机器翻译，随着计算机运算能力的提升和多语言信息资源的爆发式增长，机器翻译技术逐渐走出象牙塔，开始为普通用户提供实时便捷的翻译服务

饮冰l·2022-12-25 08:59

图神经网络15-Text-Level-GNN:基于文本级GNN的文本分类模型

arxiv.org/pdf/1910.02356.pdf论文代码：https://github.com/yenhao/text-level-gnn发表时间：2019论文简介与动机1）TextGCN为整个数据集/语料库构建一个异构图

致Great·2022-12-24 20:26

2步就能完成的情感分析模型

ABSA（AspectBasedSentimentAnalysis）是一种在给定的语料库中同时提取（co-extracting）表达意见和（事物）属性/方面术语（意见目标）以及它们之间的关系的任务。

极链AI云·2022-12-24 20:53

深度学习（8）：基于BERT算法的文本内容情感分析

BERT是一种对语言表征进行预训练的方法,即是经过大型文本语料库（如维基

流萤数点·2022-12-24 20:22

Chapter 2.2 高频词和关键词提取（二）续

基于sklearn的TF-IDF关键词提取基于sklearn的TF-IDF关键词提取的特点：能够使用jieba库分词能够使用自定义词典（新词、停用词）适用于多文本关键词提取（而非单文本）能够根据导入的语料库计算

Yif18·2022-12-24 20:50

推荐频道

199801语料库

论文阅读笔记---《TransferNet: An Effective and Transparent Framework for Multi-hop Question Answering over》

语音识别入门第一节：语音识别概述

自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧

主题模型Gensim入门系列之四：文本相似度查询

gensim入门

人工智能培训老师讲师叶梓：计算机视觉领域的自监督学习模型——MAE-2

使用全局优化方法识别中文事件因果关系

彻底搞懂BPE（Byte Pair Encode）原理（附代码实现）

nlp知识点总结（上）

论文笔记之Distributed Representations of Words and Phrases and their Compositionality

Contrastive Domain Adaptation for Question Answering using Limited Text Corpora

10.3_word2vec-pytorch

下载Wikidata并转成TXT文档

英文维基百科Python查询API

keras.preprocessing.sequence.pad_sequences

【机器学习】TF-IDF词袋模型简介

用tensorflow快速创建语料库词汇索引的方法

学习笔记CB007:分词、命名实体识别、词性标注、句法分析树

GloVe模型训练

Glove模型详解

Glove模型的原理与代码

TJU自然语言处理复习（1）

python中文字符串比较模块_python比较字符串相似度，原创度检测工具

【NLP+机器学习】实现对评论的情感倾向分析，预测，评估

AIGC用于智能写作的技术综述-达观数据

AIGC用于智能写作的技术综述-达观数据

AIGC用于智能写作的技术综述-达观数据

gensim.models word2vec 参数

文本语义相似度检测 API 数据接口

自然语言处理功能的全链条式集合，NLPIR大数据语义智能分析平台

NLP 中文智能纠错 API 数据接口

华为AI认证＿NLP

TF-IDF的原理与实际应用

TF-IDF原理及应用

技术干货｜昇思MindSpore NLP模型迁移之LUKE模型——阅读理解任务

文本标注工具doccano安装及使用

自然语言处理：有关单词含义理解、word2vec单词分布式表示的总结

论文研读-AI4VIS-可视化推荐-Table2Analysis/Table2Charts

2022年终总结（年度流水账)

检索用的指标

NLP-拼写纠错（spell correction）实战

NLP项目（二）——拼写纠错

中文自然语言处理的完整流程

doccano在linux系统的安装流程

北邮数据挖掘文本分类实验

NLP-NMT-Transformer图解及论文笔记：Attention Is All You Need

图神经网络15-Text-Level-GNN:基于文本级GNN的文本分类模型

2步就能完成的情感分析模型

深度学习（8）：基于BERT算法的文本内容情感分析

Chapter 2.2 高频词和关键词提取（二）续