语料库第17页

深度学习进阶：自然语言处理入门：第2章自然语言和单词的分布式表示

自然语言处理入门第2章自然语言和单词的分布式表示2.1什么是自然语言处理单词含义2.2同义词词典2.2.1 WordNet2.2.2 同义词词典的问题2.3基于计数的方法（*）2.3.1 基于Python的语料库的预处理语料库的准备工作

xiao52x·2022-11-10 10:38

跑实验_word2vector词向量实现_基于搜狗新闻预料+维基百科

文章目录1运行代码0设备环境1.获取语料库2.语料库预处理3.训练4.开动！

surrender2u·2022-11-07 23:26

基于gensim电商标题相似度

包括TF-IDF、word2vec、doc2vec等多种模型实现逻辑利用HanLP对标题进行分词，形成一个二维的列表将二维列表生成预料词典，通过doc2bow稀疏向量，形成语料库词袋模型+TF-IDF模型

欧菲斯集团·2022-11-07 23:54

librispeech 的train-clean-100--简单记录笔记

LibriSpeech：是一个阅读语音语料库，基于LibriVox的公共领域有声读物。

Wsyoneself·2022-11-07 15:46

数据结构与算法代码面试题；将文件藏在图片里的隐写工具；蒙古语语音合成语料库

日报合辑|电子月刊|资料下载|@韩信子CALA：AI为服装设计师提供海量候选稿，或将推动新一波服装DIY浪潮https://ca.la/CALA是一个领先的时装设计界面，可以将设计师的创意快速转化为设计草图、原型和产品，并将整个完整流程统一到了自己的数字平台。作为第一个基于OpenAI的DALL-EAPI的服务，CALA新的生成AI工具已上线并可免费试用。设计人员先从25个列表中选择基础款式（例如

ShowMeAI·2022-11-07 15:28

文本挖掘学习笔记（三）：文档相似度、文档分类和情感分析

注：学习笔记基于文彤老师文本挖掘的系列课程全文基于《射雕英雄传》语料库，下面是读入数据的一个基于Pandas的通用操作框架。

★追梦赤子心★·2022-11-04 11:36

拓端tecdat|python安娜卡列妮娜词云图制作

p=6852知识点普及词频：某个词在该文档中出现的次数停用词：数据处理时过滤掉某些字或词，如：网站、的等语料库：也就是我们要分析的所有文档的集合中文分词：将汉字序列分成一个个单独的词使用第三方库介绍jiebajieba.cut

拓端研究室TRL·2022-11-03 18:17

采用维特比算法完成词性标注（含python代码）

PrEhckKUSrajHGkEw提取码：aehg文章目录“词性标注”的国内外研究现状:一、维特比算法是什么二、训练集介绍三、使用维特比算法进行词性标注（代码）总结“词性标注”的国内外研究现状:自从上世纪60年代Brown语料库建立以来

99.99％·2022-10-30 07:21

什么是 BERT？

BERT是一种预训练语言表示的方法，这意味着我们在大型文本语料库（如维基百科）上训练一个通用的“语言理解”模型，然后将该模型用于我们关心的下游NLP任务（如问题回答）。

Sonhhxg_柒·2022-10-30 03:18

NLP数据预处理与词嵌入

NLP数据预处理与词嵌入NLP数据预处理读入语料库首先准备一个语料库，实际上就是一个txt文件，这里用的是小说timemachine，该语料库比较短小，仅有~3000行，~30000词，比较适合作为toydata

Adenialzz·2022-10-28 05:55

【自然语言处理】词向量

【传统的语义向量表示方法】one-hot：每个词表示为一个很长的向量，向量的维度是词表大小，其中只有一个维度的值为1，其它元素为0.词袋模型(BOW)：将语料库中所有词语装进一个袋子里，不考虑其词法和语序的问题

CC‘s World·2022-10-27 07:22

《Python自然语言处理》第二章习题部分答案

8.在名字语料库上定义一个条件频率分布，看看哪个首字母在男性名字中比在女性名字中更常用从性别入手，首先我们得知道>>>names=nltk.corpus.names>>>names.fileids()[

温涛·2022-10-24 18:09

带你走进 ERNIE

【文言】·2022-10-24 18:59

NLP自然语言处理——文本分类之特征提取

其基本思想是，首先构建包含数据集中所有词的语料库，然后使用与语料库总词数相同的向量表示每个词

Little_Yuu·2022-10-22 22:33

word2vec是如何得到词向量的？

从头开始讲的话，首先有了文本语料库，你需要对语料库进行预处理，这个处理流程与你的语料库种类以及个人目的有关，比如，如果是英文语料库你可能需要大小写转换检查拼写错误等操作，如果是中文日语语料库你需要增加分词处理

元宇宙iwemeta·2022-10-21 20:34

[Pytorch系列-57]：循环神经网络 - gensim.models.word2vec参数详解与构建词向量模型

details/121723021目录第1章gensim概述第2章gensim.models.word2vec参数详解第3章使用gensim.models.word2vec构建向量模型3.0前提3.1语料库

文火冰糖的硅基工坊·2022-10-21 20:28

bcc语料库下载_CCL语料库与BCC语料库各自的特点是什么？

对比、分析语料库的特点，需要从语料来源、规模等，加工处理程度，应用系统提供的功能等几个方面进行(只对比汉语语料库)：1.CCL的语料库有部分口语(北京话调查)语料，包含部分影视作品(如百家讲坛、周星驰电影等

weixin_39886841·2022-10-21 16:24

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度所用数据集：ChnSentiCorp_htl_all.csv语料库即存放稀疏向量的列表。

IT之一小佬·2022-10-21 07:33

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

关键词：吉布斯采样，R，文本分析，主题模型1.引言在机器学习和自然语言处理中，主题模型是生成模型，它们为给定语料库中文档中的术语频率出现提供了概率框架。仅使用术语“频率”假定单

·2022-10-19 15:47

NLP | word2vec图文详解及代码

它的输入是一个文本语料库，它的输出是一组向量：表示该语料库中单词的特征向量。虽然Word2vec不是深度神经网络，但它将文本转换

夏天｜여름이다·2022-10-16 08:13

Transformers预训练模型使用：语言建模 Language Modeling

语言建模是一个将模型拟合到一个语料库的任务，这个语料库可以是特定领域，也可以是通用领域。

HMTT·2022-10-15 07:47

REALM: Retrieval-Augmented Language Model Pre-Training（2020-2-10）

为了以一个模块化或者可翻译的方式来捕捉知识，使用了一个延迟知识检索的预训练增强语言模型在预训练、微调以及推断期间允许模型在大的语料库中（比如Wikipedia）检索文档。

不负韶华ღ·2022-10-14 07:42

Multi-Objective Molecule Generation using Interpretable Substructures

本文提出了一种解决这种复杂性的方法，通过一个子结构语料库来组成分子，称之为分子基本准则，这些子结构是从分子中确定的可能对某个属性有贡献的子结构，这样的方法属于“基于分子碎片”的设计方法。

五小弟·2022-10-12 10:05

情感分析：使用循环神经网络

由于IMDb评论数据集不是很大，使用在大规模语料库上预训练的文本表示可以减少模型的过拟合。我们将使用预训练的Glove模型来表示每个词元，并将这些词元表示送入多层双向循环神经网络以获得文本序

未来影子·2022-10-10 17:22

情感分析：使用循环神经网络

由于IMDb评论数据集不是很大，使用在大规模语料库上预训练的文本表示可以减少模型的过拟合。我们将使用预训练的Glove模型来表示每个词元，并将这些词元表示送入多层双向循环神经网络以获得文本序

未来影子·2022-10-10 17:36

详解利用基于gensim的TF-IDF算法实现基于文本相似度的推荐算法

的基本原理算法思想计算公式相似度计算原理微型图书推荐案例案例背景开发工具数据预处理TF-IDF模型建立TF-IDF计算相似度计算TF-IDF的基本原理算法思想TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度

#码到成功#·2022-10-05 07:03

文本挖掘学习笔记（二）：文档信息向量化与主题关键词提取

注：学习笔记基于文彤老师文本挖掘的系列课程全文基于《射雕英雄传》语料库，下面是读入数据的一个基于Pandas的通用操作框架。

★追梦赤子心★·2022-10-04 14:30

fetch_20newsgroups函数介绍

目录简介数据集特征TopicCategories(20个)Loaders定义使用20newsgroups常用语料库方法简介20newsgroups数据集包括18000多篇新闻文章，涉及到20个Topic

Tina_1024·2022-10-03 07:23

Word2vec词向量文本分析详解

词向量表示中，最有名也是最简单的算法是one-hot，one-hot在处理文本时首先将文本中的词语形成一个不重复的词库，one-hot的维度由词库的大小决定，有多少词语，矩阵就要扩大到多少维，对于庞大的语料库来说

敷衍zgf·2022-10-02 07:55

【COCA】美国当代语料库常用高频词汇20200个（震惊！可直接复制）

COCA数量说明：原来总共是20200个，由于有大量重复的单词，所以把2565个重复的单词清理掉了！最终清理重复后的数量是17635个，详见如下：|the|be|and|of|a|in|to|have|it|I|that|for|you|he|with|on|do|say|this|they|at|but|we|his|from|not|n’t|by|she|or|as|what|go|their

IT农民搬运工·2022-09-27 07:26

科技立项开题讨论

选题方向知识图谱选择优势：领域经验：有以往情感分析处理的成品项目，向知识图谱方向发展更加熟悉与得心应手产出成果：可以以打造产品为导向，开拓出NLP新系列的产品，若开发出，知识图谱系列产品的所有权选择不确定性：语料库是否需要人工标注

HIT_SunJiankun·2022-09-24 11:55

pytorch-词嵌入基础

Word2Vec词嵌入工具的提出正是为了解决上面这个问题，它将每个词表示成一个定长的向量，并通过在语料库上的预训练使得这些向量能较好地表达不同词之间的相似和类比关系，以引

胖虎艾春辉·2022-09-24 07:47

文本情感分析笔记

情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务1.1评价词语的抽取和判别：（1）基于语料库

敷衍zgf·2022-09-22 11:53

[自然语言处理]文本主题相关(TF-IDF/LDA/Sentence-BERT)

Attention3.3Transformer3.4BERTBERTopic实例4参考4.1论文原文4.2开源实现4.3补充理解1TF-IDF常用于挖掘文本关键词：TF(词频)=词在本文的出现次数/文章的总词数IDF(逆文档频率)=log(语料库的文档总数

微博热搜低频用户·2022-09-21 17:39

python文本分类框架_Python 实现小型文本分类系统

查了很多资料，找到一篇适合新手的一篇博文：https://blog.csdn.net/github_36326955/article/details/54891204，本人提供了人工分好类的文章训练集语料库

weixin_39884323·2022-09-08 04:16

文本特征提取之TF-IDF算法（原理+Python代码）

零基础入门数据分析-学术前沿趋势分析目录一、原理介绍二、代码实现2.1数据预处理2.2使用TF-IDF提取特征2.3建立分类模型三、结果解释一、原理介绍TF-IDF方法常用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度

data learning·2022-08-30 07:31

自然语言处理NLP 2022年最新综述：An introduction to Deep Learning in Natural Language Processing

AnintroductiontoDeepLearninginNaturalLanguageProcessing:Models,techniques,andtools摘要深度学习技术在NLP中的应用；NLP研究中的主要资源，包括软件，硬件和受欢迎的语料库

Momahe·2022-08-26 21:41

【一文讲解深度学习】语言自然语言处理（NLP）第一篇

文本分类语言生成问答（QA）系统机器翻译（MT）NLP的发展历程快速发展期（1957~1970）低速发展期（1971~1993）复苏融合期（1994年至今）NLP的困难与挑战语言歧义NLP相关知识构成语料库常用语料库介绍传统

苏州程序大白·2022-08-24 07:17

利用机器学习进行房价预测

这些操作不仅仅包括获取数据，还能够添加数据，比如：投票管理多个平台的多个账户(如各个电商平台的账号)微信聊天机器人实际的应用远不止上面这些，但是上面的应用只是除开数据本身的应用而已，数据本身的应用也是很广的：机器学习语料库垂直领域的服务

__Miracle__·2022-08-20 19:32

一起来学自然语言处理----语料库和词汇资源

语料库和词汇资源1、自然语言工具包（NLTK）2、获取文本语料1.语料库古腾堡语料库网络和聊天文本布朗语料库路透社语料库就职演说语料库标注文本语料库在其他语言的语料库语料库结构载入自己的语料库2.条件频率分布理解条件频率分布使用双连词生成随机文本

小陈步吃人·2022-08-16 17:58

【20220412】文献翻译4：交互中的手势和语言概述

3.1交际环境中的手势3.2传递意义3.3制作手势和语言4.时间协调的重要性4.1手势和语言的时间互动4.2手势和声音的相似性、差异性、互动性4.3测量时间上的协调性5.应用、注释、工具和语料库5.1手势注解

Yang SiCheng·2022-08-10 07:46

如何在jieba分词中加自定义词典_Pyspark Word2Vec + jieba 训练词向量流程

摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程.工具:python,pyspark,jieba,pandas,numpy数据格式

weixin_39779537·2022-08-08 21:18

基于tensorflow2+textCNN的中文垃圾邮件分类

目录一、邮件数据集二、文本分类三、Text-CNN四、搭建Text-CNN模型五、实验结果一、邮件数据集本文进行文本分类任务的中文邮件数据来源于由国际文本检索会议提供一个公开的垃圾邮件语料库，点我下载。

唯余木叶下弦声·2022-08-03 19:08

tensorflow2.0 基于LSTM模型的文本生成

模型分析实验过程文本预处理编解码模型LSTM模型设置实验代码实验结果总结致谢实验基本要求tensorflow2.0及以上版本实验背景在自然语言处理(NLP)领域，大多对话机器人的对话形成都会采用基于语料库和深度神经网络生成模型进行回答和交流

CW96·2022-07-28 17:35

python文本分析与挖掘（三）-词频统计

实现功能：前一篇文章我介绍了文本分析与挖掘的第一步和第二步（具体可参加前两篇文章），即构建语料库和中文分词，这篇文章将在此基础上进行词频统计。

不再依然07·2022-07-27 07:48

Sentence-BERT+Milvus实现智能问答系统

该系统与普通的问答系统不同，本系统根据用户所选择的语料库的不用切换应用领域，极大的方便了用户的使用。

CityD·2022-07-21 13:33

Word2Vec 使用总结

简单的说，它在给定的语料库上训练一个模型，然后会输出所有出现在语料库上的单词的向量表示，这个向量称为"wordembedding"。

javastart·2022-07-21 07:16

Word2Vec可视化展示

这个概念相对简单：通过一个句子一个句子地在语料库中循环去拟合一个模型，根据预先定义的窗口中的相邻单词预测当前单词。为此，它使用了一个神经网络，但实际上最后我们并不使用预测的结果。

Eureka丶·2022-07-21 07:09

论文写作必备

https://www.home-for-researchers.com/static/index.html#/AI写作助手：可以自建语料库搜索全文内容场景写作工具：有很多转接词和句子可以参考句型https

Reyuwei·2022-07-20 11:43

python文本统计_Python文本挖掘: 词频统计，词云图

结巴分词中自带了一个叫做dict.txt的词典，里面包含词，词条出现次数（基于人民日报等语料库）

weixin_39562998·2022-07-18 11:19

推荐频道

语料库

深度学习进阶：自然语言处理入门：第2章 自然语言和单词的分布式表示

跑实验_word2vector词向量实现_基于搜狗新闻预料+维基百科

基于gensim电商标题相似度

librispeech 的train-clean-100--简单记录笔记

数据结构与算法代码面试题；将文件藏在图片里的隐写工具；蒙古语语音合成语料库

文本挖掘学习笔记（三）：文档相似度、文档分类和情感分析

拓端tecdat|python安娜卡列妮娜词云图制作

采用维特比算法完成词性标注（含python代码）

什么是 BERT？

NLP数据预处理与词嵌入

【自然语言处理】 词向量

《Python自然语言处理》第二章习题部分答案

带你走进 ERNIE

NLP自然语言处理——文本分类之特征提取

word2vec是如何得到词向量的？

[Pytorch系列-57]：循环神经网络 - gensim.models.word2vec参数详解与构建词向量模型

bcc语料库下载_CCL语料库与BCC语料库各自的特点是什么？

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

NLP | word2vec图文详解及代码

Transformers预训练模型使用：语言建模 Language Modeling

REALM: Retrieval-Augmented Language Model Pre-Training（2020-2-10）

Multi-Objective Molecule Generation using Interpretable Substructures

情感分析：使用循环神经网络

情感分析：使用循环神经网络

详解利用基于gensim的TF-IDF算法实现基于文本相似度的推荐算法

文本挖掘学习笔记（二）：文档信息向量化与主题关键词提取

fetch_20newsgroups函数介绍

Word2vec词向量文本分析详解

【COCA】美国当代语料库常用高频词汇20200个（震惊！可直接复制）

科技立项开题讨论

pytorch-词嵌入基础

文本情感分析笔记

[自然语言处理]文本主题相关(TF-IDF/LDA/Sentence-BERT)

python文本分类框架_Python 实现小型文本分类系统

文本特征提取之TF-IDF算法（原理+Python代码）

自然语言处理NLP 2022年最新综述：An introduction to Deep Learning in Natural Language Processing

【一文讲解深度学习】语言自然语言处理（NLP）第一篇

利用机器学习进行房价预测

一起来学自然语言处理----语料库和词汇资源

【20220412】文献翻译4：交互中的手势和语言概述

如何在jieba分词中加自定义词典_Pyspark Word2Vec + jieba 训练词向量流程

基于tensorflow2+textCNN的中文垃圾邮件分类

tensorflow2.0 基于LSTM模型的文本生成

python文本分析与挖掘（三）-词频统计

Sentence-BERT+Milvus实现智能问答系统

Word2Vec 使用总结

Word2Vec可视化展示

论文写作必备

python文本统计_Python文本挖掘: 词频统计，词云图

深度学习进阶：自然语言处理入门：第2章自然语言和单词的分布式表示

【自然语言处理】词向量