E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
基于gensim电商标题相似度
包括TF-IDF、word2vec、doc2vec等多种模型实现逻辑利用HanLP对标题进行分词,形成一个二维的列表将二维列表生成预料词典,通过doc2bow稀疏向量,形成
语料
库词袋模型+TF-IDF模型
欧菲斯集团
·
2022-11-07 23:54
python
人工智能
深度学习
librispeech 的train-clean-100--简单记录笔记
LibriSpeech:是一个阅读语音
语料
库,基于LibriVox的公共领域有声读物。
Wsyoneself
·
2022-11-07 15:46
dataset
语音识别
人工智能
数据结构与算法代码面试题;将文件藏在图片里的隐写工具;蒙古语语音合成
语料
库
日报合辑|电子月刊|资料下载|@韩信子CALA:AI为服装设计师提供海量候选稿,或将推动新一波服装DIY浪潮https://ca.la/CALA是一个领先的时装设计界面,可以将设计师的创意快速转化为设计草图、原型和产品,并将整个完整流程统一到了自己的数字平台。作为第一个基于OpenAI的DALL-EAPI的服务,CALA新的生成AI工具已上线并可免费试用。设计人员先从25个列表中选择基础款式(例如
ShowMeAI
·
2022-11-07 15:28
ShowMeAI资讯日报
⛽
首席AI资讯收纳官
人工智能
深度学习
python
数据结构
算法
Keras深度学习实战(34)——构建聊天机器人
模型与数据集分析1.1命名实体识别1.2数据集分析1.3模型分析2.实现聊天机器人2.1命名实体提取模型2.2意图提取模型2.3模型整合小结系列链接0.前言随着自然语言处理技术的飞速发展以及互联网上对话
语料
的不断积累
盼小辉丶
·
2022-11-06 09:17
深度学习
keras
文本挖掘学习笔记(三):文档相似度、文档分类和情感分析
注:学习笔记基于文彤老师文本挖掘的系列课程全文基于《射雕英雄传》
语料
库,下面是读入数据的一个基于Pandas的通用操作框架。
★追梦赤子心★
·
2022-11-04 11:36
python
大数据
数据分析
pandas
拓端tecdat|python安娜卡列妮娜词云图制作
p=6852知识点普及词频:某个词在该文档中出现的次数停用词:数据处理时过滤掉某些字或词,如:网站、的等
语料
库:也就是我们要分析的所有文档的集合中文分词:将汉字序列分成一个个单独的词使用第三方库介绍jiebajieba.cut
拓端研究室TRL
·
2022-11-03 18:17
拓端
拓端tecdat
拓端数据
python
pandas
数据分析
基于Bert语言模型的中文短文本分类
利用爬虫从微博客户端中获取热门评论,做为训练
语料
。二、添加自定义类MyDataProcessor添加自定义类MyDataProcessor,完成训练和测试
语料
的文件读取和预处理工作。
敷衍zgf
·
2022-11-03 08:33
源程序
自然语言处理NLP
bert
语言模型
深度学习
采用维特比算法完成词性标注(含python代码)
PrEhckKUSrajHGkEw提取码:aehg文章目录“词性标注”的国内外研究现状:一、维特比算法是什么二、训练集介绍三、使用维特比算法进行词性标注(代码)总结“词性标注”的国内外研究现状:自从上世纪60年代Brown
语料
库建立以来
99.99%
·
2022-10-30 07:21
python
自然语言处理
jupyter
bert获得词向量_Bert输入输出是什么
从名字中可以看出,BERT模型的目标是利用大规模无标注
语料
训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP
weixin_39934640
·
2022-10-30 03:20
bert获得词向量
什么是 BERT?
BERT是一种预训练语言表示的方法,这意味着我们在大型文本
语料
库(如维基百科)上训练一个通用的“语言理解”模型,然后将该模型用于我们关心的下游NLP任务(如问题回答)。
Sonhhxg_柒
·
2022-10-30 03:18
自然语言处理(NLP)
bert
自然语言处理
深度学习
自然语言处理入门——文本预处理
自然语言处理入门内容大纲:文本预处理经典序列模型RNN及其变体Transformer迁移学习文本预处理认识文本预处理作用:文本
语料
在输送给模型前一般需要一系列的预处理工作,才能符合模型输入要求,如将文本转换成模型需要的张量
Lanciberrr
·
2022-10-28 05:30
NLP
自然语言处理
python
机器学习
自然语言处理:数据集预处理词向量嵌入
1原始数据提取问答数据集并保存原始数据剪切即把如下格式的问答语句转换成正常的问答
语料
.从原始数据中提取完整的对话,并处理成问答格式,最终将问题和答案数据分开保存.原始数据EM呵呵M是王若猫的。
天然玩家
·
2022-10-28 05:55
#
自然语言处理
词频统计
数字映射
NLP数据预处理与词嵌入
NLP数据预处理与词嵌入NLP数据预处理读入
语料
库首先准备一个
语料
库,实际上就是一个txt文件,这里用的是小说timemachine,该
语料
库比较短小,仅有~3000行,~30000词,比较适合作为toydata
Adenialzz
·
2022-10-28 05:55
自然语言处理
自然语言处理
人工智能
深度学习----命名实体识别(CRF及变种)
文章目录1、NER简介2.深度学习方法在NER中的应用2.1BiLSTM-CRF2.2IDCNN-CRF3.实战应用3.1
语料
准备3.2数据增强3.3实例4.总结~~~~~~~~近几年来,基于神经网络的深度学习方法在计算机视觉
sakura小樱
·
2022-10-27 17:18
机器学习
人工智能
深度学习
自然语言处理
NLP
命名实体识别
NER
【自然语言处理】 词向量
【传统的语义向量表示方法】one-hot:每个词表示为一个很长的向量,向量的维度是词表大小,其中只有一个维度的值为1,其它元素为0.词袋模型(BOW):将
语料
库中所有词语装进一个袋子里,不考虑其词法和语序的问题
CC‘s World
·
2022-10-27 07:22
自然语言处理
词向量
BERT
ELMo
GPT
word2vec
bert获得词向量_词向量详解:从word2vec、glove、ELMo到BERT
各种词向量的特点:One-hot:维度灾难and语义鸿沟矩阵分解(LSA):利用全局
语料
特征,但SVD求解计算
weixin_39589557
·
2022-10-25 07:09
bert获得词向量
让陪伴机器人不再「直男」,读懂更多情绪 | 香港理工大学李嫣然
团队通过真人多轮情感支持对话中的中文
语料
数据挖掘语言背
智源社区
·
2022-10-25 07:53
大数据
编程语言
python
机器学习
人工智能
《Python自然语言处理》第二章习题部分答案
8.在名字
语料
库上定义一个条件频率分布,看看哪个首字母在男性名字中比在女性名字中更常用从性别入手,首先我们得知道>>>names=nltk.corpus.names>>>names.fileids()[
温涛
·
2022-10-24 18:09
学习
python
nlp
list
算法
带你走进 ERNIE
相关工作2.1上下文无关表示2.2上下文感知表示2.3异构数据3.方法3.1transformer编码器3.2知识整合3.2.1基本级别的掩码3.2.2短语级别的掩码3.2.3实体级别的掩码4实验4.1异构
语料
库的预训练
【文言】
·
2022-10-24 18:59
深度学习
自然语言处理
论文研读-文献聚类可视化-文献聚类结果可视分析方法研究
文献聚类结果可视分析方法研究1论文概述1.1摘要1.2引言1.3脉络2可视分析框架2.1框架概述2.2框架组成3可视化设计3.1
语料
结构可视化3.2
语料
内容可视化3.3聚类结果调整和优化4系统实现及案例分析
weixin_43413013
·
2022-10-23 07:58
文献聚类可视化
可视化
大数据
数据挖掘
自然语言处理学习笔记-lecture5-语言模型02
语言模型的自适应问题:在训练语言模型时所采用的
语料
往往来自多种不同的领域,这些综合性
语料
难以反映不同领域之间在语言使用规律上的差异,而语言模型恰恰对于训练文本的类型、主题和风格等都十分敏感;n元语言模型的独立性假设的前提是一个文本中的当前词出现的概率只与它前面相邻的
尔呦
·
2022-10-22 22:05
自然语言处理
NLP自然语言处理——文本分类之特征提取
其基本思想是,首先构建包含数据集中所有词的
语料
库,然后使用与
语料
库总词数相同的向量表示每个词
Little_Yuu
·
2022-10-22 22:33
NLP学习笔记
神经网络
深度学习
机器学习
人工智能
算法
T5 PEGASUS:开源一个中文生成式预训练模型
诚然,mT5做中文生成任务也是一个可用的方案,但缺乏完全由中文
语料
训练出来模型总感觉有点别扭,于是决心要搞一个出来。经过反复斟酌测试,我们决定以mT5为基础架构和初始
PaperWeekly
·
2022-10-22 22:30
算法
自然语言处理
机器学习
人工智能
深度学习
word2vec是如何得到词向量的?
从头开始讲的话,首先有了文本
语料
库,你需要对
语料
库进行预处理,这个处理流程与你的
语料
库种类以及个人目的有关,比如,如果是英文
语料
库你可能需要大小写转换检查拼写错误等操作,如果是中文日语
语料
库你需要增加分词处理
元宇宙iwemeta
·
2022-10-21 20:34
短视频
云计算
NN
deep
learning
neural
network
基于pytorch实现Word2Vec(skip-gram+Negative Sampling)
目录word2vec简介
语料
处理数据预处理训练模型近似训练法参数设定预测及可视化word2vec简介2013年,Google团队发表了word2vec工具。
乌云tail
·
2022-10-21 20:03
NLP
pytorch
word2vec
深度学习
[Pytorch系列-57]:循环神经网络 - gensim.models.word2vec参数详解与构建词向量模型
details/121723021目录第1章gensim概述第2章gensim.models.word2vec参数详解第3章使用gensim.models.word2vec构建向量模型3.0前提3.1
语料
库
文火冰糖的硅基工坊
·
2022-10-21 20:28
人工智能-PyTorch
pytorch
rnn
word2vec
gensim
词向量
bcc
语料
库下载_CCL
语料
库与BCC
语料
库各自的特点是什么?
对比、分析
语料
库的特点,需要从
语料
来源、规模等,加工处理程度,应用系统提供的功能等几个方面进行(只对比汉语
语料
库):1.CCL的
语料
库有部分口语(北京话调查)
语料
,包含部分影视作品(如百家讲坛、周星驰电影等
weixin_39886841
·
2022-10-21 16:24
bcc语料库下载
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度所用数据集:ChnSentiCorp_htl_all.csv
语料
库即存放稀疏向量的列表。
IT之一小佬
·
2022-10-21 07:33
自然语言处理
自然语言处理
nlp
python
机器学习
深度学习
R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据
关键词:吉布斯采样,R,文本分析,主题模型1.引言在机器学习和自然语言处理中,主题模型是生成模型,它们为给定
语料
库中文档中的术语频率出现提供了概率框架。仅使用术语“频率”假定单
·
2022-10-19 15:47
NLP | word2vec图文详解及代码
它的输入是一个文本
语料
库,它的输出是一组向量:表示该
语料
库中单词的特征向量。虽然Word2vec不是深度神经网络,但它将文本转换
夏天|여름이다
·
2022-10-16 08:13
-
NLP
-
自然语言处理
word2vec
人工智能
NLP中的数据增强方法!
当训练数据量不充分,或者分布单一的情况下,数据增强可以快速扩充
语料
以避免过拟合的问题。同时,数据增强也可以提升模型的鲁棒性,避免微弱的变化使得模型无法泛化到相
数学是算法的灵魂
·
2022-10-16 07:16
手把手带你学python
自然语言语言处理
人工智能
深度学习
人工智能
机器学习
自然语言处理
Transformers预训练模型使用:语言建模 Language Modeling
语言建模是一个将模型拟合到一个
语料
库的任务,这个
语料
库可以是特定领域,也可以是通用领域。
HMTT
·
2022-10-15 07:47
#
Transformers
语言模型
自然语言处理
pytorch
人工智能
深度学习
REALM: Retrieval-Augmented Language Model Pre-Training(2020-2-10)
为了以一个模块化或者可翻译的方式来捕捉知识,使用了一个延迟知识检索的预训练增强语言模型在预训练、微调以及推断期间允许模型在大的
语料
库中(比如Wikipedia)检索文档。
不负韶华ღ
·
2022-10-14 07:42
深度学习
语言模型
深度学习
自然语言处理
Multi-Objective Molecule Generation using Interpretable Substructures
本文提出了一种解决这种复杂性的方法,通过一个子结构
语料
库来组成分子,称之为分子基本准则,这些子结构是从分子中确定的可能对某个属性有贡献的子结构,这样的方法属于“基于分子碎片”的设计方法。
五小弟
·
2022-10-12 10:05
学习日记
情感分析:使用循环神经网络
由于IMDb评论数据集不是很大,使用在大规模
语料
库上预训练的文本表示可以减少模型的过拟合。我们将使用预训练的Glove模型来表示每个词元,并将这些词元表示送入多层双向循环神经网络以获得文本序
未来影子
·
2022-10-10 17:22
深度学习
rnn
深度学习
人工智能
情感分析:使用循环神经网络
由于IMDb评论数据集不是很大,使用在大规模
语料
库上预训练的文本表示可以减少模型的过拟合。我们将使用预训练的Glove模型来表示每个词元,并将这些词元表示送入多层双向循环神经网络以获得文本序
未来影子
·
2022-10-10 17:36
深度学习
分类算法学习(python)
数据集调用方式:load_xxxx()鸢尾花数据集150*4load_iris()手写数字load_digits()fetch_xxx()路透社新闻
语料
数据集fetch_rev1()(较大的数据集)实例
m0_64016875
·
2022-10-10 07:14
机器学习
python
分类
机器学习
算法
基于TF-IDF+语义相似度的长文本相似度计算
词向量的训练:词向量的训练主要分为两部分:1、对中文
语料
进行数据预处理;2、利用gensim模块训练词向量。中文
语料
处理:在用
Steven灬
·
2022-10-05 07:16
文本相似度
详解利用基于gensim的TF-IDF算法实现基于文本相似度的推荐算法
的基本原理算法思想计算公式相似度计算原理微型图书推荐案例案例背景开发工具数据预处理TF-IDF模型建立TF-IDF计算相似度计算TF-IDF的基本原理算法思想TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度
#码到成功#
·
2022-10-05 07:03
推荐算法
自然语言处理
自然语言处理NLP
推荐算法
文本相似度
gensim
TF-IDF
文本挖掘学习笔记(二):文档信息向量化与主题关键词提取
注:学习笔记基于文彤老师文本挖掘的系列课程全文基于《射雕英雄传》
语料
库,下面是读入数据的一个基于Pandas的通用操作框架。
★追梦赤子心★
·
2022-10-04 14:30
python
大数据
pandas
fetch_20newsgroups函数介绍
目录简介数据集特征TopicCategories(20个)Loaders定义使用20newsgroups常用
语料
库方法简介20newsgroups数据集包括18000多篇新闻文章,涉及到20个Topic
Tina_1024
·
2022-10-03 07:23
NLP
python
自然语言处理
sklearn
语言模型
nlp
Word2vec词向量文本分析详解
词向量表示中,最有名也是最简单的算法是one-hot,one-hot在处理文本时首先将文本中的词语形成一个不重复的词库,one-hot的维度由词库的大小决定,有多少词语,矩阵就要扩大到多少维,对于庞大的
语料
库来说
敷衍zgf
·
2022-10-02 07:55
自然语言处理NLP
笔记
源程序
python
人工智能
机器学习
【COCA】美国当代
语料
库常用高频词汇20200个(震惊!可直接复制)
COCA数量说明:原来总共是20200个,由于有大量重复的单词,所以把2565个重复的单词清理掉了!最终清理重复后的数量是17635个,详见如下:|the|be|and|of|a|in|to|have|it|I|that|for|you|he|with|on|do|say|this|they|at|but|we|his|from|not|n’t|by|she|or|as|what|go|their
IT农民搬运工
·
2022-09-27 07:26
English
COCA高频单词
COCA英语语料库
COCA单词表
COCA核心词汇
COCA英语分频词汇
科技立项开题讨论
选题方向知识图谱选择优势:领域经验:有以往情感分析处理的成品项目,向知识图谱方向发展更加熟悉与得心应手产出成果:可以以打造产品为导向,开拓出NLP新系列的产品,若开发出,知识图谱系列产品的所有权选择不确定性:
语料
库是否需要人工标注
HIT_SunJiankun
·
2022-09-24 11:55
python
自然语言处理
pytorch-词嵌入基础
Word2Vec词嵌入工具的提出正是为了解决上面这个问题,它将每个词表示成一个定长的向量,并通过在
语料
库上的预训练使得这些向量能较好地表达不同词之间的相似和类比关系,以引
胖虎艾春辉
·
2022-09-24 07:47
机器学习
自然语言处理
深度学习
神经网络
python
机器学习
人工智能
NLP点滴——文本相似度
而有了文本之间相似性的度量方式,我们便可以利用划分法的K-means、基于密度的DBSCAN或者是基于模型的概率方法进行文本之间的聚类分析;另一方面,我们也可以利用文本之间的相似性对大规模
语料
进行去重预处理
R15010198466
·
2022-09-24 07:48
人工智能
大数据
数据结构与算法
文本相似度
而有了文本之间相似性的度量方式,我们便可以利用划分法的K-means、基于密度的DBSCAN或者是基于模型的概率方法进行文本之间的聚类分析;另一方面,我们也可以利用文本之间的相似性对大规模
语料
进行去重预处理
SheenChi
·
2022-09-24 07:48
NLP
文本相似度
推荐系统(3)—基于标签的推荐系统(Python)
例如:豆瓣的电影标签、书籍标签;网易云音乐的音乐标签;bilibili视频标签;抖音等短视频APP;3数据标注与关键词提取关键词是指能够反映文本
语料
主题的词语或短语。
weightOneMillion
·
2022-09-22 17:54
机器学习
sklearn
机器学习
python
文本情感分析笔记
情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务1.1评价词语的抽取和判别:(1)基于
语料
库
敷衍zgf
·
2022-09-22 11:53
文本挖掘
机器学习
自然语言处理
深度学习
[自然语言处理]文本主题相关(TF-IDF/LDA/Sentence-BERT)
Attention3.3Transformer3.4BERTBERTopic实例4参考4.1论文原文4.2开源实现4.3补充理解1TF-IDF常用于挖掘文本关键词:TF(词频)=词在本文的出现次数/文章的总词数IDF(逆文档频率)=log(
语料
库的文档总数
微博热搜低频用户
·
2022-09-21 17:39
机器学习
自然语言处理
上一页
27
28
29
30
31
32
33
34
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他