语料库第12页

NLTK语料库nltk.download()安装失败及下载很慢的解决方法

一.解决nltk.download()安装失败importnltknltk.download()下载nltk语料库出现getaddrinfofailed如下错误：这里只需将ServerIndex路径改成

sky2line·2023-01-15 12:36

The ATIS Spoken Language Systems Pilot Corpus

我们描述了ATISATISATIS试点语料库，设计的语料可以测量进展，在口语语言系统中，包括:aspeechandnaturallanguagecompoment.这个尝点标注着全面收集语料和提供指导为未来的努力

big_matster·2023-01-15 06:18

【自然语言处理】Gensim核心概念

2.Corpus：语料库语料库是文档对象的集合。语料库在Gensim中主要有两个作用：作为训练模型的输入。在训练期间，模型使用这个训练语料库来寻找共同的主题，初始化它们的内部模型参数。组织文件。训

皮皮要HAPPY·2023-01-14 08:28

清华刘知远、黄民烈团队力作：一个「PPT」框架，让超大模型调参变简单

通过微调PLM的全部参数，从大规模无标签语料库中获得的多方面知识可以用于处理各种NLP任务

PaperWeekly·2023-01-13 01:49

[调研]一些公开NLP库的效果

2.功能矩阵对比3.性能测试（1）分词数据集选用sighan2005PKU语料库测试集中的1930个样本。结论：整体效果上看，若对精度要求高，对时间要求低，可以采用foolnltk；若对时间有一

女青年学习日记·2023-01-12 17:22

tf-idf的原理及计算

termfrequencyidf;inversedocumentfrequencyTF=某个词在文章中出现的次数/文章的总次数或TF=某个词在文章中出现的次数/该问出现次数最多的词出现的次数IDF=log(语料库的文档总数

会发paper的学渣·2023-01-12 16:24

AISHELL-3: A MULTI-SPEAKER MANDARIN TTS CORPUS AND THE BASELINES 论文理解

0.说明很好的中文多说话人TTS语料,谢谢各位老师们~0.摘要在本文中，我们提出了AISHELL-3，一个大规模和高保真的多说话人普通话语音语料库，可用于训练多说话人文本到语音(TTS)系统。

ruclion·2023-01-12 13:15

机器学习：TF-IDF算法【词频-逆文本频率=TF×IDF】【用以评估一个词对于一个文档集中的其中一份文档的重要】【词频：词或短语在一篇文章中出现的概率】【逆文本频率：总文档数量/该词出现的文档数量】

一、什么是TF-IDFTF-IDF是一种统计方法，用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。可用于关键词提取。

u013250861·2023-01-12 08:44

来，带你从TF-IDF说起搞懂BM25

这篇文章中有一点理解，我么先搬过来：IDF表征的是区分度、稀缺性，用以评估一个单词在语料库中的重要程度，一个词在少数几篇文档中出现的次数越多，它的IDF值越高，如果这个词在大多数文档中都出现了，这个值就不大了

知了爱啃代码·2023-01-12 08:44

TF-IDF与BM25算法原理

1.TF-IDF原理TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的一份文件的重要程度。

orangerfun·2023-01-12 08:13

【NLP工具】hanLP2.1的使用（未完）

借助世界上最大的多语种语料库，HanLP2.1支持包括简繁中英日俄法德在内的1

尊新必威·2023-01-11 18:56

HanLP的分词

importhanlphanlp.pretrained.tok.ALL#语种见名称最后一个字段或相应语料库调用hanlp.load进行加载，模型会自动下载到本地缓存。

Sonhhxg_柒·2023-01-11 18:54

一文看懂 NLP 中的情感分析任务

情感倾向分析的方法主要分为两类：基于情感词典的方法；基于机器学习的方法，如基于大规模语料库的机器学习。前者需要用到标注好的情

深度学习技术前沿·2023-01-09 12:33

想要学习NLP情感分析，你竟然没看过这篇文章！

情感倾向分析的方法主要分为两类：基于情感词典的方法；基于机器学习的方法，如基于大规模语料库的机器学习。前者需要用到标注好的情

csdn人工智能头条·2023-01-09 12:57

Word2Vec之CBOW详解

举个例子，一个corpus（语料库）为“Idrinkcoffeeeveryday”。假设将单词放入数组str，则该数组str长度

Feather_74·2023-01-09 03:42

Quora Question Pairs整理 - 文本相似度计算(unfinished)

具体地，根据语料库获得一个单词集合，集合中保存着语

weixin_30399055·2023-01-08 06:01

基于Python+JavaScript的面向文本分析的交互式主题建模可视化分析系统

本课题的研究背景和意义21.1.1主题模型的发展及研究现状21.1.2目前存在的问题31.1.3本课题的研究意义31.2研究内容和主要工作31.3本文的组织结构3二、核心算法32.1文本预处理42.2大型语料库的内存优化

biyezuopin·2023-01-08 06:00

文本相似度和距离度量

具体地，根据语料库获得一个单

a flying bird·2023-01-08 06:28

bert生成句向量(python)

第一步：安装库pipinstallbert-serving-serverpipinstallbert-serving-client第二步：下载语料库bert中文模型链接：https://storage.googleapis.com

江湖夜雨十年灯丶·2023-01-08 00:40

NLP语料库构建（corpus）

1文本加载文本处理函数学习：re.sub():正则表达式替换函数，对于输入的一个字符串，利用正则表达式（的强大的字符串处理功能），去实现（相对复杂的）字符串替换处理，然后返回被替换后的字符串，实现比普通字符串的replace更加强大的替换功能。importres="大家好，我是一个小白。I'msogladtointroducemyself,andI’m18yearsold.Todayis2020/

自在犹仙·2023-01-07 21:26

python 文本挖掘 TF-IDF 的jieba与sklearn实现

TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文件频率).TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度

English Chan·2023-01-07 15:10

关键词提取-基于python实现tf-idf

关键词提取代码实现：#encoding:utf-8importjiebaimportreimportosimportnumpyasnpclassMyTfIdf:def__init__(self):#语料库中所有文档的每个词的词频的统计

Jason_Honey2·2023-01-07 15:03

文本相似度算法：文本向量化+距离公式

1.1.1词袋模型的步骤第一步：构造词典根据语料库，把所有的词都提取出来，编上序号第二步：独热编码，D维向量记词典大小为D，那么每个文章就是一个D维向量：每个位置上的数字表示对应编号的词在该文章中出现的次数

==樛木==·2023-01-07 07:34

Python分析国家领导人新春贺词建立主题模型

主题建模可以帮助开发人员直观地理解和探索数据，以便更好地挖掘语料库中的主题。成功的主题建模需要多次迭代：清洗数据、读取结果、相应地调整预处理并重试。

今天喝奶茶了嗎·2023-01-06 10:10

解决nltk download(‘brown’)连接尝试失败问题

连接尝试失败1、去下载官方包（http://www.nltk.org/nltk_data/）2、选择其中一个路径，将解压后的文件按照该路径放好再运行一下代码#nltk库提供了直接生成N-gram的方法#以布朗语料库的单词

小白*进阶ing·2023-01-05 21:33

python nltk 安装失败以及download()出错

1、什么是nltk一个完整的⾃然语⾔处理框架⾃带语料库，词性分类库⾃带分类，分词，等等功能有强⼤的社区⽀持框架设计上没有考虑中文使用安装语句pipinstallnltknltk.download()#下载

是鱼儿啊～·2023-01-05 21:33

NLTK语料库nltk.download()安装失败及下载很慢的解决方法

一.解决nltk.download()安装失败importnltknltk.download()下载nltk语料库出现getaddrinfofailed如下错误：这里只需将ServerIndex路径改成

深度学习菜鸟·2023-01-05 21:32

我用 Python 自制成语接龙小游戏，刺激

在https://github.com/pwxcoo/chinese-xinhua项目中可以下载到中华成语的语料库，该项目收录包括14032条歇后语，16142个汉字，264434个词语，31648个成语

程序员婷崽·2023-01-05 20:31

用 Python 自制成语接龙小游戏！

作者：小小明来源：杰哥的IT之旅在https://github.com/pwxcoo/chinese-xinhua项目中可以下载到中华成语的语料库，该项目收录包括14032条歇后语，16142个汉字，264434

Python数据之道·2023-01-05 20:31

用Python 做成语接龙，超简单，有语音，过年和孩子玩

过年和孩子玩成语需要准备的资料：idiom.json文件python3.6安装pyttsx3pandasnumpy在https://github.com/pwxcoo/chinese-xinhua项目中可以下载到中华成语的语料库

搬码工琪老师·2023-01-05 20:29

基于mrpc的文本分类任务Bert源码分析（一）：特征提取

他们主要的工作是预训练出了一个模型，即对一个很大的语料库进行训练，得到相应的词向量。这一步，主要用到mask，transformer等机制。

丹妮与铁王座·2023-01-05 19:10

论文阅读笔记---《TransferNet: An Effective and Transparent Framework for Multi-hop Question Answering over》

这些关系可以用知识图谱中的标签（例如，配偶）或文本语料库中的文本（例如，他们已经结婚26年）来表示。现有模型通常通过预测顺序关系路径或聚合隐藏图特征来推断答案。前者难以优化，后者缺乏可解释性。

Ray.1998·2023-01-05 14:13

语音识别入门第一节：语音识别概述

目录语音识别的定义语音识别的重要性语音交互语音识别的挑战性语音识别的发展历史语音识别的深度学习时代现代语音识别框架语料库与工具包语音识别的定义语音识别：AutomaticSpeechRecognition

安静_xju·2023-01-05 11:49

自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧

不过嘛，正如我们想的那样，肯定是语料库越大越好，但越大呢就训练的时间越长，这也是没办法的事情。我建议大家用GPU来训练，当当当，强烈推荐AI

猫头丁·2023-01-05 10:51

主题模型Gensim入门系列之四：文本相似度查询

入门系列之二：语料和向量空间（3）主题模型Gensim入门系列之三：主题和变换（4）主题模型Gensim入门系列之四：文本相似度查询————————————————————————————本文主要介绍如何从一个语料库中

liuzard·2023-01-05 10:49

gensim入门

简介：gensim是挖掘文档语义结构的工具，通过语料库（文档集），生成表示文本的向量。语料库：语料库是数字文档的集合，是gensim的输入

攀攀的跟屁虫·2023-01-05 10:15

人工智能培训老师讲师叶梓：计算机视觉领域的自监督学习模型——MAE-2

主要方法是在大型文本语料库上进行预训练，然后在较小的特定于任务的数据集上进行微调。Transformer未完，下一篇继续……

大数据AI人工智能专家培训讲师叶梓团队·2023-01-05 09:41

使用全局优化方法识别中文事件因果关系

使用全局优化方法识别中文事件因果关系目录使用全局优化方法识别中文事件因果关系一、语料库标注及基准系统1、因果语料库标注1.显示因果关系2.隐式因果关系3.非因果关系2、基准系统二、全局优化模型1.目标函数

懒人的理想主义·2023-01-04 07:05

彻底搞懂BPE（Byte Pair Encode）原理（附代码实现）

例子1.准备一个语料库（corpus），并统计这个语料库中每个词语的词频，通过“[词频]词语_”的形式存储，这里的“_”表示词语结尾。

无名草鸟·2023-01-03 22:49

nlp知识点总结（上）

壹：语料库一、什么是语料库1.定义语料库（corpus）一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记。2.种类共时语料库与历时语料库。通用语料库与专用语料库。

m0_59989429·2023-01-03 17:01

论文笔记之Distributed Representations of Words and Phrases and their Compositionality

这篇文章是用于解决skip-gram和CBOW两种模型在计算softmax时因为语料库V太大导致计算复杂度偏高的问题。

Ton10·2023-01-03 09:48

Contrastive Domain Adaptation for Question Answering using Limited Text Corpora

ContrastiveDomainAdaptationforQuestionAnsweringusingLimitedTextCorpora基于有限文本语料库的问答对比领域自适应codeAbstract

自然语言处理CS·2023-01-03 09:47

10.3_word2vec-pytorch

我们以10.1节（词嵌入word2vec）中的跳字模型和10.2节（近似训练）中的负采样为例，介绍在语料库上训练词嵌入模型的实现。我们还会介绍一些实现中的技巧，如二次采样（subsampling）。

给算法爸爸上香·2023-01-02 16:20

下载Wikidata并转成TXT文档

1.下载wikidataWikipedia中文语料库链接：wikidata页面里面是不同时间段的数据，本人选择的是20221001目录下的文件。接下来就是要下载好的bz2文件转成txt格式的。

五彩神石·2023-01-02 13:51

英文维基百科Python查询API

问题描述维基百科语料库是做文本挖掘和自然语言处理相关实验的一个非常重要的公开可获取大规模语料库（知识库），有时需要对其进行检索并对获取结果页面的相关信息，如正文文本、标题、页面文本长度等。

Luban250·2023-01-02 13:51

keras.preprocessing.sequence.pad_sequences

fromkeras.preprocessing.textimportTokenizer#文本标记实用类，允许使用两种方法向量化一个文本语料库：将每个文本转化为一个整数序列（每个整数都是词典中标记的索引）

Rouge-Eradiction·2023-01-02 12:22

【机器学习】TF-IDF词袋模型简介

来计算TF-IDF总结引言TF-IDF全称为TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文档频率)，这是一种统计方法，用来评估一个词对于一个文件集或语料库中的其中一份文件的重要程度

Coder_preston·2023-01-02 11:09

用tensorflow快速创建语料库词汇索引的方法

下面介绍用tensorflow快速创建语料库词汇索引的方法用tensorflow快速创建语料库词汇索引功能建立词汇表和word到index，及index到word的map，这就需

szZack·2023-01-01 13:37

学习笔记CB007:分词、命名实体识别、词性标注、句法分析树

基于条件随机场命名实体识别方法属于有监督学习方法，利用已标注大规模语料库训练。命名实体的放射性。命名实体的前后词。特征模板，当前位置前后n个位置字/词/字母/数字/

ahua2886·2022-12-31 19:50

GloVe模型训练

两类学习词向量的家族：1全局矩阵分解方法：像LSA(latentsemanticanalysis)，有效的利用语料库的统计信息，但是在单词类比任务上做的较差。

solitude23·2022-12-31 15:52

推荐频道

语料库

NLTK语料库nltk.download()安装失败及下载很慢的解决方法

The ATIS Spoken Language Systems Pilot Corpus

【自然语言处理】Gensim核心概念

清华刘知远、黄民烈团队力作：一个「PPT」框架，让超大模型调参变简单

[调研]一些公开NLP库的效果

tf-idf的原理及计算

AISHELL-3: A MULTI-SPEAKER MANDARIN TTS CORPUS AND THE BASELINES 论文理解

机器学习：TF-IDF算法【词频-逆文本频率=TF×IDF】【用以评估一个词对于一个文档集中的其中一份文档的重要】【词频：词或短语在一篇文章中出现的概率】【逆文本频率：总文档数量/该词出现的文档数量】

来，带你从TF-IDF说起搞懂BM25

TF-IDF与BM25算法原理

【NLP工具】hanLP2.1的使用（未完）

HanLP的分词

一文看懂 NLP 中的情感分析任务

想要学习NLP情感分析，你竟然没看过这篇文章！

Word2Vec之CBOW详解

Quora Question Pairs整理 - 文本相似度计算(unfinished)

基于Python+JavaScript的面向文本分析的交互式主题建模可视化分析系统

文本相似度和距离度量

bert生成句向量(python)

NLP语料库构建（corpus）

python 文本挖掘 TF-IDF 的jieba与sklearn实现

关键词提取-基于python实现tf-idf

文本相似度算法：文本向量化+距离公式

Python分析国家领导人新春贺词建立主题模型

解决nltk download(‘brown’)连接尝试失败问题

python nltk 安装失败以及download()出错

NLTK语料库nltk.download()安装失败及下载很慢的解决方法

我用 Python 自制成语接龙小游戏，刺激

用 Python 自制成语接龙小游戏！

用Python 做成语接龙，超简单，有语音，过年和孩子玩

基于mrpc的文本分类任务Bert源码分析（一）：特征提取

论文阅读笔记---《TransferNet: An Effective and Transparent Framework for Multi-hop Question Answering over》

语音识别入门第一节：语音识别概述

自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧

主题模型Gensim入门系列之四：文本相似度查询

gensim入门

人工智能培训老师讲师叶梓：计算机视觉领域的自监督学习模型——MAE-2

使用全局优化方法识别中文事件因果关系

彻底搞懂BPE（Byte Pair Encode）原理（附代码实现）

nlp知识点总结（上）

论文笔记之Distributed Representations of Words and Phrases and their Compositionality

Contrastive Domain Adaptation for Question Answering using Limited Text Corpora

10.3_word2vec-pytorch

下载Wikidata并转成TXT文档

英文维基百科Python查询API

keras.preprocessing.sequence.pad_sequences

【机器学习】TF-IDF词袋模型简介

用tensorflow快速创建语料库词汇索引的方法

学习笔记CB007:分词、命名实体识别、词性标注、句法分析树

GloVe模型训练