语料第31页

基于gensim电商标题相似度

包括TF-IDF、word2vec、doc2vec等多种模型实现逻辑利用HanLP对标题进行分词，形成一个二维的列表将二维列表生成预料词典，通过doc2bow稀疏向量，形成语料库词袋模型+TF-IDF模型

欧菲斯集团·2022-11-07 23:54

librispeech 的train-clean-100--简单记录笔记

LibriSpeech：是一个阅读语音语料库，基于LibriVox的公共领域有声读物。

Wsyoneself·2022-11-07 15:46

数据结构与算法代码面试题；将文件藏在图片里的隐写工具；蒙古语语音合成语料库

日报合辑|电子月刊|资料下载|@韩信子CALA：AI为服装设计师提供海量候选稿，或将推动新一波服装DIY浪潮https://ca.la/CALA是一个领先的时装设计界面，可以将设计师的创意快速转化为设计草图、原型和产品，并将整个完整流程统一到了自己的数字平台。作为第一个基于OpenAI的DALL-EAPI的服务，CALA新的生成AI工具已上线并可免费试用。设计人员先从25个列表中选择基础款式（例如

ShowMeAI·2022-11-07 15:28

Keras深度学习实战（34）——构建聊天机器人

模型与数据集分析1.1命名实体识别1.2数据集分析1.3模型分析2.实现聊天机器人2.1命名实体提取模型2.2意图提取模型2.3模型整合小结系列链接0.前言随着自然语言处理技术的飞速发展以及互联网上对话语料的不断积累

盼小辉丶·2022-11-06 09:17

文本挖掘学习笔记（三）：文档相似度、文档分类和情感分析

注：学习笔记基于文彤老师文本挖掘的系列课程全文基于《射雕英雄传》语料库，下面是读入数据的一个基于Pandas的通用操作框架。

★追梦赤子心★·2022-11-04 11:36

拓端tecdat|python安娜卡列妮娜词云图制作

p=6852知识点普及词频：某个词在该文档中出现的次数停用词：数据处理时过滤掉某些字或词，如：网站、的等语料库：也就是我们要分析的所有文档的集合中文分词：将汉字序列分成一个个单独的词使用第三方库介绍jiebajieba.cut

拓端研究室TRL·2022-11-03 18:17

基于Bert语言模型的中文短文本分类

敷衍zgf·2022-11-03 08:33

采用维特比算法完成词性标注（含python代码）

PrEhckKUSrajHGkEw提取码：aehg文章目录“词性标注”的国内外研究现状:一、维特比算法是什么二、训练集介绍三、使用维特比算法进行词性标注（代码）总结“词性标注”的国内外研究现状:自从上世纪60年代Brown语料库建立以来

99.99％·2022-10-30 07:21

bert获得词向量_Bert输入输出是什么

从名字中可以看出，BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation，即：文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP

weixin_39934640·2022-10-30 03:20

什么是 BERT？

BERT是一种预训练语言表示的方法，这意味着我们在大型文本语料库（如维基百科）上训练一个通用的“语言理解”模型，然后将该模型用于我们关心的下游NLP任务（如问题回答）。

Sonhhxg_柒·2022-10-30 03:18

自然语言处理入门——文本预处理

自然语言处理入门内容大纲：文本预处理经典序列模型RNN及其变体Transformer迁移学习文本预处理认识文本预处理作用：文本语料在输送给模型前一般需要一系列的预处理工作，才能符合模型输入要求，如将文本转换成模型需要的张量

Lanciberrr·2022-10-28 05:30

自然语言处理:数据集预处理词向量嵌入

1原始数据提取问答数据集并保存原始数据剪切即把如下格式的问答语句转换成正常的问答语料.从原始数据中提取完整的对话,并处理成问答格式,最终将问题和答案数据分开保存.原始数据EM呵呵M是王若猫的。

天然玩家·2022-10-28 05:55

NLP数据预处理与词嵌入

NLP数据预处理与词嵌入NLP数据预处理读入语料库首先准备一个语料库，实际上就是一个txt文件，这里用的是小说timemachine，该语料库比较短小，仅有~3000行，~30000词，比较适合作为toydata

Adenialzz·2022-10-28 05:55

深度学习----命名实体识别（CRF及变种）

文章目录1、NER简介2.深度学习方法在NER中的应用2.1BiLSTM-CRF2.2IDCNN-CRF3.实战应用3.1语料准备3.2数据增强3.3实例4.总结~~~~~~~~近几年来，基于神经网络的深度学习方法在计算机视觉

sakura小樱·2022-10-27 17:18

【自然语言处理】词向量

【传统的语义向量表示方法】one-hot：每个词表示为一个很长的向量，向量的维度是词表大小，其中只有一个维度的值为1，其它元素为0.词袋模型(BOW)：将语料库中所有词语装进一个袋子里，不考虑其词法和语序的问题

CC‘s World·2022-10-27 07:22

bert获得词向量_词向量详解：从word2vec、glove、ELMo到BERT

各种词向量的特点：One-hot：维度灾难and语义鸿沟矩阵分解(LSA)：利用全局语料特征，但SVD求解计算

weixin_39589557·2022-10-25 07:09

让陪伴机器人不再「直男」，读懂更多情绪 | 香港理工大学李嫣然

团队通过真人多轮情感支持对话中的中文语料数据挖掘语言背

智源社区·2022-10-25 07:53

《Python自然语言处理》第二章习题部分答案

8.在名字语料库上定义一个条件频率分布，看看哪个首字母在男性名字中比在女性名字中更常用从性别入手，首先我们得知道>>>names=nltk.corpus.names>>>names.fileids()[

温涛·2022-10-24 18:09

带你走进 ERNIE

【文言】·2022-10-24 18:59

论文研读-文献聚类可视化-文献聚类结果可视分析方法研究

文献聚类结果可视分析方法研究1论文概述1.1摘要1.2引言1.3脉络2可视分析框架2.1框架概述2.2框架组成3可视化设计3.1语料结构可视化3.2语料内容可视化3.3聚类结果调整和优化4系统实现及案例分析

weixin_43413013·2022-10-23 07:58

自然语言处理学习笔记-lecture5-语言模型02

语言模型的自适应问题：在训练语言模型时所采用的语料往往来自多种不同的领域，这些综合性语料难以反映不同领域之间在语言使用规律上的差异，而语言模型恰恰对于训练文本的类型、主题和风格等都十分敏感;n元语言模型的独立性假设的前提是一个文本中的当前词出现的概率只与它前面相邻的

尔呦·2022-10-22 22:05

NLP自然语言处理——文本分类之特征提取

其基本思想是，首先构建包含数据集中所有词的语料库，然后使用与语料库总词数相同的向量表示每个词

Little_Yuu·2022-10-22 22:33

T5 PEGASUS：开源一个中文生成式预训练模型

诚然，mT5做中文生成任务也是一个可用的方案，但缺乏完全由中文语料训练出来模型总感觉有点别扭，于是决心要搞一个出来。经过反复斟酌测试，我们决定以mT5为基础架构和初始

PaperWeekly·2022-10-22 22:30

word2vec是如何得到词向量的？

从头开始讲的话，首先有了文本语料库，你需要对语料库进行预处理，这个处理流程与你的语料库种类以及个人目的有关，比如，如果是英文语料库你可能需要大小写转换检查拼写错误等操作，如果是中文日语语料库你需要增加分词处理

元宇宙iwemeta·2022-10-21 20:34

基于pytorch实现Word2Vec（skip-gram+Negative Sampling）

目录word2vec简介语料处理数据预处理训练模型近似训练法参数设定预测及可视化word2vec简介2013年，Google团队发表了word2vec工具。

乌云tail·2022-10-21 20:03

[Pytorch系列-57]：循环神经网络 - gensim.models.word2vec参数详解与构建词向量模型

details/121723021目录第1章gensim概述第2章gensim.models.word2vec参数详解第3章使用gensim.models.word2vec构建向量模型3.0前提3.1语料库

文火冰糖的硅基工坊·2022-10-21 20:28

bcc语料库下载_CCL语料库与BCC语料库各自的特点是什么？

对比、分析语料库的特点，需要从语料来源、规模等，加工处理程度，应用系统提供的功能等几个方面进行(只对比汉语语料库)：1.CCL的语料库有部分口语(北京话调查)语料，包含部分影视作品(如百家讲坛、周星驰电影等

weixin_39886841·2022-10-21 16:24

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度所用数据集：ChnSentiCorp_htl_all.csv语料库即存放稀疏向量的列表。

IT之一小佬·2022-10-21 07:33

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

关键词：吉布斯采样，R，文本分析，主题模型1.引言在机器学习和自然语言处理中，主题模型是生成模型，它们为给定语料库中文档中的术语频率出现提供了概率框架。仅使用术语“频率”假定单

·2022-10-19 15:47

NLP | word2vec图文详解及代码

它的输入是一个文本语料库，它的输出是一组向量：表示该语料库中单词的特征向量。虽然Word2vec不是深度神经网络，但它将文本转换

夏天｜여름이다·2022-10-16 08:13

NLP中的数据增强方法！

当训练数据量不充分，或者分布单一的情况下，数据增强可以快速扩充语料以避免过拟合的问题。同时，数据增强也可以提升模型的鲁棒性，避免微弱的变化使得模型无法泛化到相

数学是算法的灵魂·2022-10-16 07:16

Transformers预训练模型使用：语言建模 Language Modeling

语言建模是一个将模型拟合到一个语料库的任务，这个语料库可以是特定领域，也可以是通用领域。

HMTT·2022-10-15 07:47

REALM: Retrieval-Augmented Language Model Pre-Training（2020-2-10）

为了以一个模块化或者可翻译的方式来捕捉知识，使用了一个延迟知识检索的预训练增强语言模型在预训练、微调以及推断期间允许模型在大的语料库中（比如Wikipedia）检索文档。

不负韶华ღ·2022-10-14 07:42

Multi-Objective Molecule Generation using Interpretable Substructures

本文提出了一种解决这种复杂性的方法，通过一个子结构语料库来组成分子，称之为分子基本准则，这些子结构是从分子中确定的可能对某个属性有贡献的子结构，这样的方法属于“基于分子碎片”的设计方法。

五小弟·2022-10-12 10:05

情感分析：使用循环神经网络

由于IMDb评论数据集不是很大，使用在大规模语料库上预训练的文本表示可以减少模型的过拟合。我们将使用预训练的Glove模型来表示每个词元，并将这些词元表示送入多层双向循环神经网络以获得文本序

未来影子·2022-10-10 17:22

情感分析：使用循环神经网络

由于IMDb评论数据集不是很大，使用在大规模语料库上预训练的文本表示可以减少模型的过拟合。我们将使用预训练的Glove模型来表示每个词元，并将这些词元表示送入多层双向循环神经网络以获得文本序

未来影子·2022-10-10 17:36

分类算法学习（python）

数据集调用方式：load_xxxx()鸢尾花数据集150*4load_iris()手写数字load_digits()fetch_xxx()路透社新闻语料数据集fetch_rev1()(较大的数据集)实例

m0_64016875·2022-10-10 07:14

基于TF-IDF+语义相似度的长文本相似度计算

词向量的训练：词向量的训练主要分为两部分：1、对中文语料进行数据预处理；2、利用gensim模块训练词向量。中文语料处理：在用

Steven灬·2022-10-05 07:16

详解利用基于gensim的TF-IDF算法实现基于文本相似度的推荐算法

的基本原理算法思想计算公式相似度计算原理微型图书推荐案例案例背景开发工具数据预处理TF-IDF模型建立TF-IDF计算相似度计算TF-IDF的基本原理算法思想TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度

#码到成功#·2022-10-05 07:03

文本挖掘学习笔记（二）：文档信息向量化与主题关键词提取

注：学习笔记基于文彤老师文本挖掘的系列课程全文基于《射雕英雄传》语料库，下面是读入数据的一个基于Pandas的通用操作框架。

★追梦赤子心★·2022-10-04 14:30

fetch_20newsgroups函数介绍

目录简介数据集特征TopicCategories(20个)Loaders定义使用20newsgroups常用语料库方法简介20newsgroups数据集包括18000多篇新闻文章，涉及到20个Topic

Tina_1024·2022-10-03 07:23

Word2vec词向量文本分析详解

词向量表示中，最有名也是最简单的算法是one-hot，one-hot在处理文本时首先将文本中的词语形成一个不重复的词库，one-hot的维度由词库的大小决定，有多少词语，矩阵就要扩大到多少维，对于庞大的语料库来说

敷衍zgf·2022-10-02 07:55

【COCA】美国当代语料库常用高频词汇20200个（震惊！可直接复制）

COCA数量说明：原来总共是20200个，由于有大量重复的单词，所以把2565个重复的单词清理掉了！最终清理重复后的数量是17635个，详见如下：|the|be|and|of|a|in|to|have|it|I|that|for|you|he|with|on|do|say|this|they|at|but|we|his|from|not|n’t|by|she|or|as|what|go|their

IT农民搬运工·2022-09-27 07:26

科技立项开题讨论

选题方向知识图谱选择优势：领域经验：有以往情感分析处理的成品项目，向知识图谱方向发展更加熟悉与得心应手产出成果：可以以打造产品为导向，开拓出NLP新系列的产品，若开发出，知识图谱系列产品的所有权选择不确定性：语料库是否需要人工标注

HIT_SunJiankun·2022-09-24 11:55

pytorch-词嵌入基础

Word2Vec词嵌入工具的提出正是为了解决上面这个问题，它将每个词表示成一个定长的向量，并通过在语料库上的预训练使得这些向量能较好地表达不同词之间的相似和类比关系，以引

胖虎艾春辉·2022-09-24 07:47

NLP点滴——文本相似度

而有了文本之间相似性的度量方式，我们便可以利用划分法的K-means、基于密度的DBSCAN或者是基于模型的概率方法进行文本之间的聚类分析；另一方面，我们也可以利用文本之间的相似性对大规模语料进行去重预处理

R15010198466·2022-09-24 07:48

文本相似度

而有了文本之间相似性的度量方式，我们便可以利用划分法的K-means、基于密度的DBSCAN或者是基于模型的概率方法进行文本之间的聚类分析；另一方面，我们也可以利用文本之间的相似性对大规模语料进行去重预处理

SheenChi·2022-09-24 07:48

文本情感分析笔记

情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务1.1评价词语的抽取和判别：（1）基于语料库

敷衍zgf·2022-09-22 11:53

[自然语言处理]文本主题相关(TF-IDF/LDA/Sentence-BERT)

Attention3.3Transformer3.4BERTBERTopic实例4参考4.1论文原文4.2开源实现4.3补充理解1TF-IDF常用于挖掘文本关键词：TF(词频)=词在本文的出现次数/文章的总词数IDF(逆文档频率)=log(语料库的文档总数

微博热搜低频用户·2022-09-21 17:39

推荐频道

语料

基于gensim电商标题相似度

librispeech 的train-clean-100--简单记录笔记

数据结构与算法代码面试题；将文件藏在图片里的隐写工具；蒙古语语音合成语料库

Keras深度学习实战（34）——构建聊天机器人

文本挖掘学习笔记（三）：文档相似度、文档分类和情感分析

拓端tecdat|python安娜卡列妮娜词云图制作

基于Bert语言模型的中文短文本分类

采用维特比算法完成词性标注（含python代码）

bert获得词向量_Bert输入输出是什么

什么是 BERT？

自然语言处理入门——文本预处理

自然语言处理:数据集预处理词向量嵌入

NLP数据预处理与词嵌入

深度学习----命名实体识别（CRF及变种）

【自然语言处理】 词向量

bert获得词向量_词向量详解：从word2vec、glove、ELMo到BERT

让陪伴机器人不再「直男」，读懂更多情绪 | 香港理工大学李嫣然

《Python自然语言处理》第二章习题部分答案

带你走进 ERNIE

论文研读-文献聚类可视化-文献聚类结果可视分析方法研究

自然语言处理学习笔记-lecture5-语言模型02

NLP自然语言处理——文本分类之特征提取

T5 PEGASUS：开源一个中文生成式预训练模型

word2vec是如何得到词向量的？

基于pytorch实现Word2Vec（skip-gram+Negative Sampling）

[Pytorch系列-57]：循环神经网络 - gensim.models.word2vec参数详解与构建词向量模型

bcc语料库下载_CCL语料库与BCC语料库各自的特点是什么？

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据

NLP | word2vec图文详解及代码

NLP中的数据增强方法！

Transformers预训练模型使用：语言建模 Language Modeling

REALM: Retrieval-Augmented Language Model Pre-Training（2020-2-10）

Multi-Objective Molecule Generation using Interpretable Substructures

情感分析：使用循环神经网络

情感分析：使用循环神经网络

分类算法学习（python）

基于TF-IDF+语义相似度的长文本相似度计算

详解利用基于gensim的TF-IDF算法实现基于文本相似度的推荐算法

文本挖掘学习笔记（二）：文档信息向量化与主题关键词提取

fetch_20newsgroups函数介绍

Word2vec词向量文本分析详解

【COCA】美国当代语料库常用高频词汇20200个（震惊！可直接复制）

科技立项开题讨论

pytorch-词嵌入基础

NLP点滴——文本相似度

文本相似度

推荐系统（3)—基于标签的推荐系统（Python）

文本情感分析笔记

[自然语言处理]文本主题相关(TF-IDF/LDA/Sentence-BERT)

【自然语言处理】词向量