E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
【自然语言处理】 词向量
【传统的语义向量表示方法】one-hot:每个词表示为一个很长的向量,向量的维度是词表大小,其中只有一个维度的值为1,其它元素为0.词袋模型(BOW):将
语料
库中所有词语装进一个袋子里,不考虑其词法和语序的问题
CC‘s World
·
2022-10-27 07:22
自然语言处理
词向量
BERT
ELMo
GPT
word2vec
bert获得词向量_词向量详解:从word2vec、glove、ELMo到BERT
各种词向量的特点:One-hot:维度灾难and语义鸿沟矩阵分解(LSA):利用全局
语料
特征,但SVD求解计算
weixin_39589557
·
2022-10-25 07:09
bert获得词向量
让陪伴机器人不再「直男」,读懂更多情绪 | 香港理工大学李嫣然
团队通过真人多轮情感支持对话中的中文
语料
数据挖掘语言背
智源社区
·
2022-10-25 07:53
大数据
编程语言
python
机器学习
人工智能
《Python自然语言处理》第二章习题部分答案
8.在名字
语料
库上定义一个条件频率分布,看看哪个首字母在男性名字中比在女性名字中更常用从性别入手,首先我们得知道>>>names=nltk.corpus.names>>>names.fileids()[
温涛
·
2022-10-24 18:09
学习
python
nlp
list
算法
带你走进 ERNIE
相关工作2.1上下文无关表示2.2上下文感知表示2.3异构数据3.方法3.1transformer编码器3.2知识整合3.2.1基本级别的掩码3.2.2短语级别的掩码3.2.3实体级别的掩码4实验4.1异构
语料
库的预训练
【文言】
·
2022-10-24 18:59
深度学习
自然语言处理
论文研读-文献聚类可视化-文献聚类结果可视分析方法研究
文献聚类结果可视分析方法研究1论文概述1.1摘要1.2引言1.3脉络2可视分析框架2.1框架概述2.2框架组成3可视化设计3.1
语料
结构可视化3.2
语料
内容可视化3.3聚类结果调整和优化4系统实现及案例分析
weixin_43413013
·
2022-10-23 07:58
文献聚类可视化
可视化
大数据
数据挖掘
自然语言处理学习笔记-lecture5-语言模型02
语言模型的自适应问题:在训练语言模型时所采用的
语料
往往来自多种不同的领域,这些综合性
语料
难以反映不同领域之间在语言使用规律上的差异,而语言模型恰恰对于训练文本的类型、主题和风格等都十分敏感;n元语言模型的独立性假设的前提是一个文本中的当前词出现的概率只与它前面相邻的
尔呦
·
2022-10-22 22:05
自然语言处理
NLP自然语言处理——文本分类之特征提取
其基本思想是,首先构建包含数据集中所有词的
语料
库,然后使用与
语料
库总词数相同的向量表示每个词
Little_Yuu
·
2022-10-22 22:33
NLP学习笔记
神经网络
深度学习
机器学习
人工智能
算法
T5 PEGASUS:开源一个中文生成式预训练模型
诚然,mT5做中文生成任务也是一个可用的方案,但缺乏完全由中文
语料
训练出来模型总感觉有点别扭,于是决心要搞一个出来。经过反复斟酌测试,我们决定以mT5为基础架构和初始
PaperWeekly
·
2022-10-22 22:30
算法
自然语言处理
机器学习
人工智能
深度学习
word2vec是如何得到词向量的?
从头开始讲的话,首先有了文本
语料
库,你需要对
语料
库进行预处理,这个处理流程与你的
语料
库种类以及个人目的有关,比如,如果是英文
语料
库你可能需要大小写转换检查拼写错误等操作,如果是中文日语
语料
库你需要增加分词处理
元宇宙iwemeta
·
2022-10-21 20:34
短视频
云计算
NN
deep
learning
neural
network
基于pytorch实现Word2Vec(skip-gram+Negative Sampling)
目录word2vec简介
语料
处理数据预处理训练模型近似训练法参数设定预测及可视化word2vec简介2013年,Google团队发表了word2vec工具。
乌云tail
·
2022-10-21 20:03
NLP
pytorch
word2vec
深度学习
[Pytorch系列-57]:循环神经网络 - gensim.models.word2vec参数详解与构建词向量模型
details/121723021目录第1章gensim概述第2章gensim.models.word2vec参数详解第3章使用gensim.models.word2vec构建向量模型3.0前提3.1
语料
库
文火冰糖的硅基工坊
·
2022-10-21 20:28
人工智能-PyTorch
pytorch
rnn
word2vec
gensim
词向量
bcc
语料
库下载_CCL
语料
库与BCC
语料
库各自的特点是什么?
对比、分析
语料
库的特点,需要从
语料
来源、规模等,加工处理程度,应用系统提供的功能等几个方面进行(只对比汉语
语料
库):1.CCL的
语料
库有部分口语(北京话调查)
语料
,包含部分影视作品(如百家讲坛、周星驰电影等
weixin_39886841
·
2022-10-21 16:24
bcc语料库下载
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度所用数据集:ChnSentiCorp_htl_all.csv
语料
库即存放稀疏向量的列表。
IT之一小佬
·
2022-10-21 07:33
自然语言处理
自然语言处理
nlp
python
机器学习
深度学习
R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据
关键词:吉布斯采样,R,文本分析,主题模型1.引言在机器学习和自然语言处理中,主题模型是生成模型,它们为给定
语料
库中文档中的术语频率出现提供了概率框架。仅使用术语“频率”假定单
·
2022-10-19 15:47
NLP | word2vec图文详解及代码
它的输入是一个文本
语料
库,它的输出是一组向量:表示该
语料
库中单词的特征向量。虽然Word2vec不是深度神经网络,但它将文本转换
夏天|여름이다
·
2022-10-16 08:13
-
NLP
-
自然语言处理
word2vec
人工智能
NLP中的数据增强方法!
当训练数据量不充分,或者分布单一的情况下,数据增强可以快速扩充
语料
以避免过拟合的问题。同时,数据增强也可以提升模型的鲁棒性,避免微弱的变化使得模型无法泛化到相
数学是算法的灵魂
·
2022-10-16 07:16
手把手带你学python
自然语言语言处理
人工智能
深度学习
人工智能
机器学习
自然语言处理
Transformers预训练模型使用:语言建模 Language Modeling
语言建模是一个将模型拟合到一个
语料
库的任务,这个
语料
库可以是特定领域,也可以是通用领域。
HMTT
·
2022-10-15 07:47
#
Transformers
语言模型
自然语言处理
pytorch
人工智能
深度学习
REALM: Retrieval-Augmented Language Model Pre-Training(2020-2-10)
为了以一个模块化或者可翻译的方式来捕捉知识,使用了一个延迟知识检索的预训练增强语言模型在预训练、微调以及推断期间允许模型在大的
语料
库中(比如Wikipedia)检索文档。
不负韶华ღ
·
2022-10-14 07:42
深度学习
语言模型
深度学习
自然语言处理
Multi-Objective Molecule Generation using Interpretable Substructures
本文提出了一种解决这种复杂性的方法,通过一个子结构
语料
库来组成分子,称之为分子基本准则,这些子结构是从分子中确定的可能对某个属性有贡献的子结构,这样的方法属于“基于分子碎片”的设计方法。
五小弟
·
2022-10-12 10:05
学习日记
情感分析:使用循环神经网络
由于IMDb评论数据集不是很大,使用在大规模
语料
库上预训练的文本表示可以减少模型的过拟合。我们将使用预训练的Glove模型来表示每个词元,并将这些词元表示送入多层双向循环神经网络以获得文本序
未来影子
·
2022-10-10 17:22
深度学习
rnn
深度学习
人工智能
情感分析:使用循环神经网络
由于IMDb评论数据集不是很大,使用在大规模
语料
库上预训练的文本表示可以减少模型的过拟合。我们将使用预训练的Glove模型来表示每个词元,并将这些词元表示送入多层双向循环神经网络以获得文本序
未来影子
·
2022-10-10 17:36
深度学习
分类算法学习(python)
数据集调用方式:load_xxxx()鸢尾花数据集150*4load_iris()手写数字load_digits()fetch_xxx()路透社新闻
语料
数据集fetch_rev1()(较大的数据集)实例
m0_64016875
·
2022-10-10 07:14
机器学习
python
分类
机器学习
算法
基于TF-IDF+语义相似度的长文本相似度计算
词向量的训练:词向量的训练主要分为两部分:1、对中文
语料
进行数据预处理;2、利用gensim模块训练词向量。中文
语料
处理:在用
Steven灬
·
2022-10-05 07:16
文本相似度
详解利用基于gensim的TF-IDF算法实现基于文本相似度的推荐算法
的基本原理算法思想计算公式相似度计算原理微型图书推荐案例案例背景开发工具数据预处理TF-IDF模型建立TF-IDF计算相似度计算TF-IDF的基本原理算法思想TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度
#码到成功#
·
2022-10-05 07:03
推荐算法
自然语言处理
自然语言处理NLP
推荐算法
文本相似度
gensim
TF-IDF
文本挖掘学习笔记(二):文档信息向量化与主题关键词提取
注:学习笔记基于文彤老师文本挖掘的系列课程全文基于《射雕英雄传》
语料
库,下面是读入数据的一个基于Pandas的通用操作框架。
★追梦赤子心★
·
2022-10-04 14:30
python
大数据
pandas
fetch_20newsgroups函数介绍
目录简介数据集特征TopicCategories(20个)Loaders定义使用20newsgroups常用
语料
库方法简介20newsgroups数据集包括18000多篇新闻文章,涉及到20个Topic
Tina_1024
·
2022-10-03 07:23
NLP
python
自然语言处理
sklearn
语言模型
nlp
Word2vec词向量文本分析详解
词向量表示中,最有名也是最简单的算法是one-hot,one-hot在处理文本时首先将文本中的词语形成一个不重复的词库,one-hot的维度由词库的大小决定,有多少词语,矩阵就要扩大到多少维,对于庞大的
语料
库来说
敷衍zgf
·
2022-10-02 07:55
自然语言处理NLP
笔记
源程序
python
人工智能
机器学习
【COCA】美国当代
语料
库常用高频词汇20200个(震惊!可直接复制)
COCA数量说明:原来总共是20200个,由于有大量重复的单词,所以把2565个重复的单词清理掉了!最终清理重复后的数量是17635个,详见如下:|the|be|and|of|a|in|to|have|it|I|that|for|you|he|with|on|do|say|this|they|at|but|we|his|from|not|n’t|by|she|or|as|what|go|their
IT农民搬运工
·
2022-09-27 07:26
English
COCA高频单词
COCA英语语料库
COCA单词表
COCA核心词汇
COCA英语分频词汇
科技立项开题讨论
选题方向知识图谱选择优势:领域经验:有以往情感分析处理的成品项目,向知识图谱方向发展更加熟悉与得心应手产出成果:可以以打造产品为导向,开拓出NLP新系列的产品,若开发出,知识图谱系列产品的所有权选择不确定性:
语料
库是否需要人工标注
HIT_SunJiankun
·
2022-09-24 11:55
python
自然语言处理
pytorch-词嵌入基础
Word2Vec词嵌入工具的提出正是为了解决上面这个问题,它将每个词表示成一个定长的向量,并通过在
语料
库上的预训练使得这些向量能较好地表达不同词之间的相似和类比关系,以引
胖虎艾春辉
·
2022-09-24 07:47
机器学习
自然语言处理
深度学习
神经网络
python
机器学习
人工智能
NLP点滴——文本相似度
而有了文本之间相似性的度量方式,我们便可以利用划分法的K-means、基于密度的DBSCAN或者是基于模型的概率方法进行文本之间的聚类分析;另一方面,我们也可以利用文本之间的相似性对大规模
语料
进行去重预处理
R15010198466
·
2022-09-24 07:48
人工智能
大数据
数据结构与算法
文本相似度
而有了文本之间相似性的度量方式,我们便可以利用划分法的K-means、基于密度的DBSCAN或者是基于模型的概率方法进行文本之间的聚类分析;另一方面,我们也可以利用文本之间的相似性对大规模
语料
进行去重预处理
SheenChi
·
2022-09-24 07:48
NLP
文本相似度
推荐系统(3)—基于标签的推荐系统(Python)
例如:豆瓣的电影标签、书籍标签;网易云音乐的音乐标签;bilibili视频标签;抖音等短视频APP;3数据标注与关键词提取关键词是指能够反映文本
语料
主题的词语或短语。
weightOneMillion
·
2022-09-22 17:54
机器学习
sklearn
机器学习
python
文本情感分析笔记
情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务1.1评价词语的抽取和判别:(1)基于
语料
库
敷衍zgf
·
2022-09-22 11:53
文本挖掘
机器学习
自然语言处理
深度学习
[自然语言处理]文本主题相关(TF-IDF/LDA/Sentence-BERT)
Attention3.3Transformer3.4BERTBERTopic实例4参考4.1论文原文4.2开源实现4.3补充理解1TF-IDF常用于挖掘文本关键词:TF(词频)=词在本文的出现次数/文章的总词数IDF(逆文档频率)=log(
语料
库的文档总数
微博热搜低频用户
·
2022-09-21 17:39
机器学习
自然语言处理
python文本分类框架_Python 实现小型文本分类系统
查了很多资料,找到一篇适合新手的一篇博文:https://blog.csdn.net/github_36326955/article/details/54891204,本人提供了人工分好类的文章训练集
语料
库
weixin_39884323
·
2022-09-08 04:16
python文本分类框架
乐府 ——预训练语言模型在诗词对联生成中的应用
押韵方面具有严格的要求常规的诗歌对联生成模型加入规则对格式进行限制GPTGPT(包括GPT-2、GPT-3)是由OpenAI推出的大规模预训练语言模型,其具备强大的文本生成能力乐府作诗机训练流程第一步:在大规模中文
语料
上预训练中文
Necther
·
2022-09-05 07:39
语言模型
自然语言处理
深度学习
自然语言处理——使用Transformer构建语言模型
#语言模型的训练
语料
一般来自于文章,对应的源文本和目标文本形如:src1="Icando"tgt1="candoit"src2="candoit",tgt2="doit"语言模型能解决的问题:根据语言模型的定义
Lanciberrr
·
2022-09-05 07:02
NLP
自然语言处理
transformer
语言模型
BERT模型解析
BidirectionalEncoderRepresentationfromTransformers(BERT)[1],即双向Transformer的Encoder表示,是2018年提出的一种基于上下文的预训练模型,通过大量
语料
学习到每个词的一般性
zhiyong_will
·
2022-09-02 10:04
深度学习Deep
Learning
bert
深度学习
自然语言处理
NLP学习笔记-FastText文本分类(四)
例如,如果希望聊天机器人能够播报当前的时间,那么我们就需要准备关于询问时间的
语料
,同时其目标值就是一个新的类别。在训练后
吃一口桃酥
·
2022-09-02 07:28
笔记
nlp
python
深度学习
机器学习
霍夫曼树
文本特征提取之TF-IDF算法(原理+Python代码)
零基础入门数据分析-学术前沿趋势分析目录一、原理介绍二、代码实现2.1数据预处理2.2使用TF-IDF提取特征2.3建立分类模型三、结果解释一、原理介绍TF-IDF方法常用来评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度
data learning
·
2022-08-30 07:31
python
机器学习
人工智能
深度学习
自然语言处理
word2vec详解
关键字
语料
向量模型文本分词词向量化向量距离一、word2vec的概念解释word2vec是一种将单词转换为向量形式的工具。
欧菲斯集团
·
2022-08-30 02:13
深度学习
word2vec
人工智能
nlp
自然语言处理NLP 2022年最新综述:An introduction to Deep Learning in Natural Language Processing
AnintroductiontoDeepLearninginNaturalLanguageProcessing:Models,techniques,andtools摘要深度学习技术在NLP中的应用;NLP研究中的主要资源,包括软件,硬件和受欢迎的
语料
库
Momahe
·
2022-08-26 21:41
自然语言处理
深度学习
自然语言处理
【一文讲解深度学习】语言自然语言处理(NLP)第一篇
文本分类语言生成问答(QA)系统机器翻译(MT)NLP的发展历程快速发展期(1957~1970)低速发展期(1971~1993)复苏融合期(1994年至今)NLP的困难与挑战语言歧义NLP相关知识构成
语料
库常用
语料
库介绍传统
苏州程序大白
·
2022-08-24 07:17
深度学习
深度学习
NLP
shell脚本批量将文件复制到指定的文件夹下
由于线上文件比较多,选择特定的文件拿下线下进行
语料
标注,如果指定的文件数量太多,一个个复制就很麻烦。所以写一个shell脚本进行批量操作。
·
2022-08-22 18:10
机器学习服务文本翻译能力升级,中文直译模型让译文表达更地道!
中文直译模型让文本翻译能力升级当前主流的翻译模式大都以
语料
资源较为丰富的英文作为中间语言进行“桥接”翻译,但是经英文转移后翻译精度有所损失,且计算资源加倍执行效果降低。为了响应“一
·
2022-08-22 09:35
利用机器学习进行房价预测
这些操作不仅仅包括获取数据,还能够添加数据,比如:投票管理多个平台的多个账户(如各个电商平台的账号)微信聊天机器人实际的应用远不止上面这些,但是上面的应用只是除开数据本身的应用而已,数据本身的应用也是很广的:机器学习
语料
库垂直领域的服务
__Miracle__
·
2022-08-20 19:32
随笔
机器学习
爬虫
python
发现新词 | NLP之无监督方式构建词库(二)
文章目录一、数据介绍二、实验代码三、分析一、数据介绍 本文针对一万多条商品名称
语料
来进行实验,数据格式如下:二、实验代码 代码部分参考:基于切词的新词发现。
跟乌龟赛跑
·
2022-08-18 20:19
#
自然语言处理(NLP)
自然语言处理
python
无监督发现新词
BERT详解(4)---fine-tuning
第一个阶段叫做:Pre-training,跟WordEmbedding类似,利用现有无标记的
语料
训
orangerfun
·
2022-08-18 07:23
自然语言处理
python
深度学习
机器学习
人工智能
自然语言处理
上一页
28
29
30
31
32
33
34
35
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他