E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
词向量
语言模型主流
词向量
模型bert4keras字级bert4keras文档中心bert4keras/examplesatmaster·bojone/bert4keras·GitHubmirrors/bojone/bert4keras
tikatika
·
2023-06-09 20:57
NLP
语言模型
深度学习
机器学习
自然语言处理
概率图模型1-朴素贝叶斯之垃圾短信分类
概率图模型1-朴素贝叶斯之垃圾短信分类1.数据加载2.
词向量
3.TF-IDF转换4.数据集分割5.建模6.预测垃圾短信分类项目:(1)数据加载(2)
词向量
(3)统计词频即TF-IDF、通过词频判断类别即是否是垃圾短信
阿值学长
·
2023-06-09 18:16
概率图模型
机器学习
sklearn
人工智能
tf-idf
python
NLP学习笔记五-simple RNN
simpleRNN的单元结构图如下:其中A就是我们需要学习的参数矩阵,ht−1h_{t-1}ht−1是我们上个单元得到的向量,xtx_{t}xt是当前单元输入的
词向量
,当前
词向量
xtx_{t}xt和h_
Mr Gao
·
2023-06-09 06:37
自然语言处理
自然语言处理
学习
笔记
降维常用方法SVD、PCA、CCA、NMF
最近在学习一些自然语言处理方面的知识,在学习的过程中发现,
词向量
构成的矩阵多为稀疏矩阵,信息比较分散,必须通过降维的方法将信息集中起来,从而方便后续的分析。
dearbobby
·
2023-06-09 00:08
算法
机器学习
数据挖掘
人工智能课程笔记:自然语言处理与循环神经网络
文章目录1.语言处理技术1.1.自然语言处理概述1.2.自然语言处理的研究内容1.3.自然语言处理的应用2.
词向量
学习2.1.与
词向量
有关的基本概念2.2.CNN文本分类模型3.循环神经网络3.1.基础的循环神经网络
北岛寒沫
·
2023-06-08 10:17
人工智能
人工智能
笔记
自然语言处理
word2vec模型(1) - 背景
word2vec主要解决的问题是,把词典中的词表示成一个
词向量
(或词嵌入,wordembedding,把词嵌入到一个向量空间中),这个向量是低维的、稠密的。
EternalX
·
2023-06-07 23:35
word2vec中文相似词计算和聚类的使用说明及c语言源码
word2vec相关基础知识、下载安装参考前文:word2vec
词向量
中文文本相似度计算目录:word2vec使用说明及源码介绍1.下载地址2.中文语料3.参数介绍4.计算相似词语5.三个词预测语义语法关系
Eastmount
·
2023-06-07 21:12
知识图谱
web数据挖掘及NLP
word2vec
词向量
相似度
聚类
基础介绍
新闻推荐_特征工程
在使用gensim训练word2vec的时候,有几个比较重要的参数size:表示
词向量
的维度。window:决定了目标词会与多远距离的上下文产生关系。
58506fd3fbed
·
2023-06-07 12:44
夹角余弦or相关系数?(nlp/word2vec之重大发现)
现在,想用word2vec
词向量
来计算两个句子相似度,想法是:句子分词,分词后的
词向量
相加作为句子的语义向量,然后将两个句子的
zoulala
·
2023-06-07 03:20
python实现中文文本分类(一)jieba分词
3.构建
词向量
空间:统计文本词频,生成文本的
词向量
空间。4.权重策略——TF-IDF方法:使用TF-IDF发现特征词,并抽取为反映文档主题的特征。5.分类器:使用算法训练分类器。
野生胡萝卜
·
2023-06-07 00:59
机器学习学习笔记
python
深度学习
nlp-语言表示模型
语言表示模型四种语言表示模型BOWOne-HotCountTFIDFN-gram方法共现矩阵主题模型LDALSA静态
词向量
NNLMword2vecfasttextGlove动态
词向量
elmoRNN序列依赖问题文本表示方法优缺点参考文献四种语言表示模型语言表示模型有很多种方式
90后程序猿_llj
·
2023-06-07 00:58
自然语言处理
nlp
2023/6/4周报
基于训练文档的统计量构造一个图,并将文档向量用单
词向量
的加权和表示。然后在测试过程中进行单向GCN传播。实验证明,文章模型优于最先进的方法。在深度
白小李
·
2023-06-06 21:54
深度学习
人工智能
机器学习
embedding之word2vec
Word2Vec其实就是通过学习文本来用
词向量
的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射,将单词从原先所属的空间映射到新的多维
不可能打工
·
2023-04-21 20:34
第四章(1):
词向量
定义与意义
第四章(1):
词向量
定义与意义目录第四章(1):
词向量
定义与意义前言1.词的表示1.1离散表示1.1.1One-Hot独热编码1.1.2ngram特征表示1.2分布式表示2.意义前言在自然语言处理的领域中
安静到无声
·
2023-04-21 11:50
机器学习
人工智能
深度学习
【NLP论文笔记】Glove: Global Vectors for Word Representation(Glove
词向量
理解)
该论文提出的Glove
词向量
也是自Word2vec推出后另一个比较有影响力的
词向量
生成方法。本笔记主要为方便初学者快速入门,以及自我回顾。
蘑菇轰炸机
·
2023-04-21 01:52
【博学谷学习记录】超强总结,用心分享丨人工智能 自然语言处理 BERT、GPT、ELMO对比学习简记
的并行化能力以及长语句捕捉语义依赖和结构依赖.BERT实现了双向Transformer并为后续的微调任务留出足够的空间.缺点BERT模型太大,太慢.BERT模型中的中文模型是以字为基本token单位的,无法利用
词向量
鹏晓星
·
2023-04-20 20:03
学习笔记
人工智能
自然语言处理
学习
word2vec 中的SkipGram 和CBOW的区别
当训练完成之后,每个词都会作为中心词,把周围词的
词向量
进行了调整
吹洞箫饮酒杏花下
·
2023-04-20 02:08
词的表示方法——
词向量
词的表示方法:一、one-hot(最简单)独热编码是一种将单词转化为稀疏向量的方法,其中每个单词都表示为一个只有一个元素为1其余元素均为0的向量,其维度由词库的大小决定。。例如,对于包含4个单词的词汇表[tapple,banana,orange,peach]单词“banana”的独热编码为[0,1,0,0]。缺点:(1)纬度灾难,有多少个词语我们的维度就多大,对于庞大的语料库来说,存储量和计算量都
我是小蔡呀~~~
·
2023-04-20 00:38
乱七八糟
机器学习
人工智能
RNNLM
Embedding层:将单词ID转化为单词的分布式表示(单
词向量
)。RNN层:向下一层(上方)输出隐藏状态,同时也向下一时刻的RNN层(右边)输出隐藏状态。
算法技术博客
·
2023-04-19 18:32
学习笔记
rnn
神经网络
基于词嵌入的逻辑回归文本分类
简述逻辑回归(LogisticRegression)原理,并用torch实现逻辑回归文本分类,原始数据一共有100条句子,每个样本是一条句子,每个句子有50个单词,每个单词用长为50的
词向量
表示。
高山莫衣
·
2023-04-19 11:31
pytorch
逻辑回归
分类
机器学习
GloVe
词向量
自定义函数实现
词向量
降维
glove.6B.100d')LABEL.build_vocab(train_data)pretrained_embedding=TEXT.vocab.vectors上面代码加载了glove.6B.100d
词向量
高山莫衣
·
2023-04-19 11:31
pytorch
深度学习
python
机器学习
word2vec原理
1.背景 2013年,Google开源了一款用于
词向量
计算的工具—word2vec,引起了工业界和学术界的关注。
独影月下酌酒
·
2023-04-18 15:45
推荐系统
推荐算法
word2vec
机器学习
人工智能
NLP 学习4
基于深度学习的文本分类1-fastTextFastTextFastText是一种典型的深度学习
词向量
的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding
Cxgoal
·
2023-04-18 01:19
Pytorch学习记录-torchtext学习Field
主要包括三个方面使用torchtext进行文本预处理使用Keras和PyTorch构建数据集进行文本预处理使用gensim加载预训练的
词向量
,并使用PyTorch实现语言模型和torchvision类似
我的昵称违规了
·
2023-04-18 00:13
如何训练并使用GloVe
词向量
模型
在
词向量
的选择方面,好像大部分研究人员用比较流行的Word2vec比较多,而忽略了GloVe这一个强力的
词向量
,网上相关资料也比较少。
菜菜鑫
·
2023-04-17 23:20
基于PaddlePaddle的
词向量
实战 | 深度学习基础任务教程系列
词向量
是自然语言处理中常见的一个操作,是搜索引擎、广告系统、推荐系统等互联网服务背后常见的基础技术。在这些互联网服务里,我们经常要比较两个词或者两段文本之间的相关性。
weixin_44353800
·
2023-04-17 19:42
Python框架
paddlepaddle
深度学习
机器学习
Prompt之文本生成详解教程
prompt在生成方面的应用从两个方面进行介绍:评估手段具体任务评估手段生成任务的评估手段主要分为四种类型:1).基于N-gram匹配2).基于编辑距离3).基于
词向量
4).基于可学习方式。
奇奇.,
·
2023-04-17 17:48
自然语言处理
word2vec
神经网络
深度学习
语音识别
利用TF-IDF进行句子相似度计算
1前言在NLP机器学习任务中,一个首要的步骤就是将
词向量
化,也称为词编码。对于词编码,目前主要存在两类方法,一是词袋方法,二是分布式表示;前者又称为one-hot编码,是传统的经典方法。
烛之文
·
2023-04-17 08:59
NLP入门(1)— 从NNLM到Word2Vec
这一篇博客将要介绍早期NLP发展阶段使用到的模型,随后引出至今为止依然在使用的
词向量
。数学基础贝叶斯公式贝叶斯公式是英国数学家贝叶斯(ThomasBayes)提出来的,用来描述两个条件概率之间的关系。
机计复计机
·
2023-04-17 07:01
人工智能
自然语言处理
神经网络
机器学习
深度学习
PaddlePaddle NLP学习笔记1
词向量
文章目录1.语言模型LanguageModel1.1语言模型是什么1.2语言模型计算什么1.3n-gramLanguageModel2.神经网络语言模型NNLM2.1N-gram模型的问题3.
词向量
3.1
xi柚xiao白
·
2023-04-17 01:28
PaddlePaddle学习
自然语言处理
paddlepaddle
学习
人工智能
python
NLP入门之——Word2Vec
词向量
Skip-Gram模型代码实现(Pytorch版)
简单来说,Word2Vec其实就是通过学习文本语料来用
词向量
的方式表示词的语义信息,即通过一个高维向量空间使得语义上相似的单
lym-ucas
·
2023-04-16 10:46
数据分析与机器学习
Python
自然语言处理
word2vec
pytorch
自然语言处理N天-AllenNLP学习(完整实例,预测论文发表场合-中篇)
去除停用词,建立词典,加载各种预训练
词向量
,Sentence->WordID->WordEmbedding的过程(TobiasLee:文本预处理方法
我的昵称违规了
·
2023-04-15 06:29
文本相似度计算(切词、生成
词向量
,使用余弦相似度计算)
项目需求有多个文本,分别是正负样本,使用余弦相似度计算负样本与正样本的样本相似度,若准确率高,后期可判断新加样本与正样本的相似度。输入如下所示:contentlabel今天下午,在龙口市诸由观镇涧村张常鸿家的大院里。1呼啦呼啦,巴拉巴拉小魔仙1张常鸿的爸爸张振俭告诉记者,从4月份以后就再没有见到张常鸿了。0张常鸿2000年2月14日出生于山东烟台龙口市。0大家好0在上午举行的资格赛中,选手将以跪射
奋斗的妹子
·
2023-04-15 04:24
文本数据处理
自然语言处理
【人工智能概论】011文本数据处理——切词器Tokenizer
因此希望把每个字(词)切分开,转换成数字索引编号,以便于后续做
词向量
编码处理。这就需要切词器
小白的努力探索
·
2023-04-14 03:46
【人工智能概论】
人工智能
Word2vec
预备知识:LR、贝叶斯公式、赫夫曼编码、统计语言模型、n-gram模型、神经概率语言模型、
词向量
、词袋模型、softmax、负采样,可以参考word2vec中的原理Word2vec将词映射到K维向量空间
rssivy
·
2023-04-14 00:39
深度学习NLP领域文本生成总结
文章目录前言一、神经网络与深度学习二、神经网络的过拟合与正则化三、深度学习的优化算法四、卷积神经网络五、循环神经网络从第五章开始重点就将在NLP领域了六、长短期记忆网络七、自然语言处理与
词向量
八、word2vec
欢桑
·
2023-04-13 02:16
深度学习
自然语言处理
机器学习
2019-02 文本的预处理
文本的预处理操作大致分为:去除停用词、映射成索引、补全或截断、随机打乱、加载预训练
词向量
1.StopWords##对于英文来说,用nltk有整理一些fromnltk.corpusimportstopwordsstop
Hugo_Ng_7777
·
2023-04-12 00:16
Glove
词向量
转载自http://www.fanyeong.com/2018/02/19/glove-in-detail/Glove
词向量
出自于论文《Glove:GlobalVectorsforWordRepresentation
Luuuuuua
·
2023-04-11 07:44
pytorch 使用pre-trained预训练
词向量
(Glove、Wordvec)
假设使用Glove.6B.300d(400k的vocab_size),后续有时间会把下面这个写成一个可传参function,加到tool_box.py里面importpickleimportbcolzimportnumpyasnproot_dir=embed_path.rsplit(".",1)[0]+".dat"out_dir_word=embed_path.rsplit(".",1)[0]+"
Reza.
·
2023-04-10 21:26
深度学习
pytorch
深度学习
机器学习
pytorch从glove
词向量
源文件中生成embedding并载入
首先是下载glove文件格式为txt,每一行开头是单词,后面是100个float类型数,空格隔开,因此我们载入这个文件,并取出每一行defget_numpy_word_embed(word2ix):row=0file='zhs_wiki_glove.vectors.100d.txt'path='/home/socialbird/platform/aion-autonlp/Downloads'who
机器玄学实践者
·
2023-04-10 21:55
NLP
nlp
词向量
glove
pytorch
中文预训练
【Pytorch基础教程37】Glove
词向量
训练及TSNE可视化
首先基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学习
词向量
。
山顶夕景
·
2023-04-10 21:17
#
自然语言处理
深度学习
自然语言处理
预训练词向量
深度学习
【nlp学习】中文命名实体识别(待补充)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、中文分词二、命名实体识别1.数据处理2.训练3.使用预训练的
词向量
4.测试训练好的模型5.准确度判断Result前言参考资料
璐宝是我
·
2023-04-10 17:37
自然语言处理
人工智能
文本分类part1
3.构建文本分类项目中文文本分类技术和流程:3.1预处理:去噪3.2中文分词:分词,去除停用词3.3构建
词向量
空间:统计文本词频,生成文本
词向量
空间
璐瑶97
·
2023-04-10 07:11
keras 生成句子向量
词向量
_GitHub - bulong/nlp_xiaojiang: XLNET句向量-相似度(text xlnet embedding),自然语言处理(nlp),闲聊机器人.
nlp_xiaojiangAugmentText-回译(效果比较好)-EDA(同义词替换、插入、交换和删除)(效果还行)-HMM-marko(质量较差)-syntax(依存句法、句法、语法书)(简单句还可)-seq2seq(深度学习同义句生成,效果不理想,seq2seq代码大都是[https://github.com/qhduan/just_another_seq2seq]的,效果不理想)Chat
weixin_39604280
·
2023-04-10 06:12
keras
生成句子向量
词向量
windows下使用word2vec训练维基百科中文语料全攻略!(一)
训练一个聊天机器人的很重要的一步是
词向量
训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为
词向量
,时下最火的
词向量
训练模型是word2vec,所以,今天小编文文带你使用维基百科训练
词向量
LeadAI学院
·
2023-04-10 06:10
4.无监督算法 SimCLR
有点像
词向量
预训练模型,这个框架可以作为很多视觉相关的任务的预训练模型,可以在少量标注样本的情况下,拿到比较好的结果。
xz1308579340
·
2023-04-10 01:52
无监督/自监督/弱监督
SimCLR
无监督
自监督
对比学习
tensorflow中embedding_lookup()用法
withtf.Session()assess:sess.run(tf.global_variables_initializer())print(sess.run(embedding))第一个参数w是所有词汇的
词向量
62ba53cbc93c
·
2023-04-09 20:20
Transformer笔记01
这是原论文结构图,左边是encoders,右边是decoders,原论文n=6下面先看左边的encoder输入12字,然后按字切分,每个字切为长度512字节的
词向量
。
chy响当当
·
2023-04-08 05:35
transformer
深度学习
自然语言处理
BERT使用手册
transformers是huggingface提供的预训练模型库,可以轻松调用API来得到你的
词向量
。
晓柒NLP与药物设计
·
2023-04-07 10:26
BERT发展史(二)语言模型
那么一个理想的
词向量
应该是什么样呢?想象一下,我们身处于一个充满词语的空间,这个空间中,相似的词语们组成一个“家族”抱团取暖,它们的距离比较近;不相
LITD
·
2023-04-06 16:57
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他