E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
vocab
李沐55_循环神经网络RNN简洁实现——自学笔记
importtorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2lbatch_size,num_steps=32,35train_iter,
vocab
Rrrrrr900
·
2024-09-11 20:54
rnn
深度学习
神经网络
pytorch
循环神经网络
python
李沐
BERT开源代码分析(一)——dataset数据加载模块
并提出自己的一些见解基本注释已经穿插在代码块中,另外一些看法单独拿出来说1.
vocab
.py#导包importpickleimporttqdmfromcollectionsimportCounterclassTorchVocab
时光诺言
·
2024-02-14 01:23
机器学习—NLP领域
bert
人工智能
深度学习
python
nlp
ValueError: The model‘s
vocab
size is set to -1 in params.json. 部署llama-2-chat-7B
部署llama-2-chat-7B模型时,遇到以下问题输入以下命令python3convert.py--outfile./models/llama-2-7b-chat../llama/llama-2-7b-chat/出现以下问题。Traceback(mostrecentcalllast):File"/home/zack/llama.cpp/convert.py",line1658,inmain(s
qq_45719856
·
2024-02-12 03:22
llama
linux
json
语言模型
Finetune时更改tokenizer词表
当前词表对分词操作不理想,因此选择修改tokenizer词表~在special_tokens中添加不想被拆分开的单词或者文字special_tokens=[]withopen("待添加词所在文件","r")asf_
vocab
Alicesla
·
2024-02-09 19:20
python
pytorch
nlp
[玩转AIGC]LLaMA2训练中文文章撰写神器(数据准备,数据处理,模型训练,模型推理)
2)将数据集进行合并3、数据集处理之模型(llama2)训练(train.py)格式三、训练一个tokenizer四、使用训练的tokenizer预编码输入数据五、训练llama2模型1、修改参数1)
vocab
_size2
六五酥
·
2024-01-17 18:07
玩转AIGC
AIGC
单词和单词编号对应字典的写法
最近看到两种实现,第一种是用循环,第二种很值得借鉴:#
vocab
:['xx','xx',...]word_to_idx={word:ifori,wordinenumerate(
vocab
)}idx_to_word
__心似大海__
·
2024-01-15 07:10
小技巧
NLP
huggingface实战bert-base-chinese模型(训练+预测)
文章目录前言一、bert模型词汇映射说明二、bert模型输入解读1、input_ids说明2、attention_mask说明3、token_type_ids说明4、模型输入与
vocab
映射内容二、huggingface
tangjunjun-owen
·
2024-01-09 11:50
huggingface
bert
人工智能
深度学习
huggingface
nlp
opennmt安装踩坑记录
两种安装方式:1、pipinstall这种安装方式装的opennmt是1.2.0版本,会导致onmt_build_
vocab
等命令无法识别。
p_w
·
2024-01-08 18:33
CharRNN实现简单的文本生成
importnumpyasnpimportreimporttorchclassTextConverter(object):def__init__(self,text_path,max_
vocab
=5000
一壶浊酒..
·
2024-01-07 00:47
自然语言处理
深度学习
python
开发语言
自然语言处理
nlp
Stable Diffusion Webui在Linux服务器第一次运行不能连接huggingface
host='huggingface.co',port=443):Maxretriesexceededwithurl:/openai/clip-vit-large-patch14/resolve/main/
vocab
.json
Moriton
·
2024-01-05 21:35
stable
diffusion
[tf]定义默认初始化的方式,
withtf.variable_scope()指定统一的initializer,那么在模型里面的话就self.src_embedding=tf.get_variable("src_emb",[SRC_
VOCAB
_SIZE
VanJordan
·
2024-01-05 20:29
import pyLDAvis as gensimvis报错
odule'pyLDAvis.gensim_models'hasnoattribute'enable_notebook'(2)prepare()missing2requiredpositionalarguments:'
vocab
'and'term_frequency
MilkLeong
·
2024-01-05 11:13
自然语言处理
python
nlp
Python统计文本的单词数和句子数
envpythonimportnumpyimportjsonimportsysimportfileinputfromcollectionsimportOrderedDictimporttorch#计算pt文件下的单词数##计算源端的词汇##src_
vocab
_a
Pr 彭儒
·
2024-01-05 03:13
深度学习工具
Keras实现Transformer
importnumpyasnpfromkeras.modelsimportModelfromkeras.layersimportInput,Dense,Embedding,MultiHeadAttentionfromkeras.optimizersimportAdam#定义模型参数
vocab
_size
缘起性空、
·
2024-01-01 12:20
keras
深度学习
机器学习
transformer
【模型整体的结构1】2021-04-28
#五个部分结构图#1模型参数(超参数)data{'name':'aishell','
vocab
':'egs/aishell/data/text2.txt','batch_size':8,'dataset_type
star星陨
·
2023-12-30 07:49
Transformer实现的一个Demo
utf-8importtorchimporttorch.nnasnnimportnumpyasnpimportmathclassConfig(object):def__init__(self):self.
vocab
_size
极乐净土0822
·
2023-12-29 16:10
transformer
python
深度学习
【PyTorch】torch.data.Field 参数与方法详解 & Embedding 层浅谈
文章目录Field类功能.构造参数.成员函数build_
vocab
.Embedding.Field类功能.Field\rmFieldField类对可以用张量Tensor\rmTensorTensor表示的常见文本处理数据类型进行处理
Anova.YJ
·
2023-12-27 11:24
PyTorch
GPT每预测一个token就要调用一次模型
不久以前我以为是调用一次通过看代码是输出多少个token就调用多少次,如图所示:我理解为分类模型预测下一个token可以理解为分类模型,类别是
vocab
的所有token,每一次调用都是在分类为什么不能一次输出呢从数学维度来讲
Takoony
·
2023-12-26 05:40
gpt
人工智能
gemsim Doc2Vec infer_vector()输入相同的句子,得到不同的向量
造成这个原因是因为Doc2Vec是不关注
vocab
的顺序的word_vocabs=[model.
vocab
[w]forwindoc_wordsifwinmodel.vocabandmodel.
vocab
hi_lan
·
2023-12-17 17:10
AttributeError: Can‘t get attribute ‘WordVocab‘ on <module ‘__main__‘ from ‘genetic_algorithm.py‘>
文件的文件结构和里面的数据,于是就用pickle.load打开,但是出现了AttributeError:Can'tgetattribute'WordVocab'on'WordVocab':withopen(
vocab
_path
Billie使劲学
·
2023-12-16 20:59
BUG
前端
python
【FunASR】Paraformer语音识别-中文-通用-16k-离线-large-onnx
模型亮点模型文件:damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-
vocab
8404-pytorchParaformer-large
太空眼睛
·
2023-12-15 18:00
人工智能
语音识别
达摩院
docker
长音频
语音转写
离线
FunASR
1 NLP分类之:FastText
spm=1001.2014.3001.5503数据集合:0NLP:数据获取与EDA-CSDN博客词嵌入向量文件:embedding_SougouNews.npz词典文件:
vocab
.pkl1模型基于fastText
汀沿河
·
2023-12-04 09:40
#
6
自然语言处理
自然语言处理
人工智能
手撕transformer-基于numpy实现
具体的转换过程如下:词嵌入:首先,我们有一个嵌入矩阵,其大小为(
vocab
_size,
AlgorithmWillBeFine
·
2023-12-02 10:36
transformer
numpy
深度学习
人工智能
计算机视觉
nlp
[nlp] id2str的
vocab
.json转换为str2id
importjson#加载包含ID对应字符串的JSON文件withopen("base_
vocab
.json","r",encoding='utf-8')asfile:id_to_str=json.load
心心喵
·
2023-12-01 16:03
nlp
前端
[论文笔记] tiktoken中的gpt4 tokenizer
只有
vocab
.json是不ok的,只能encode单字节的字符,对于中文这种会encode之后tokens,ids都是[]。
心心喵
·
2023-12-01 16:31
论文笔记
论文阅读
人工智能|机器学习——循环神经网络的简洁实现
importtorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2lbatch_size,num_steps=32,35train_iter,
vocab
博士僧小星
·
2023-11-26 17:25
#
机器学习【算法】
人工智能
人工智能
机器学习
rnn
循环神经网络
nn.Embedding
nn.Embedding具有一个权重(.weight),形状是(
vocab
_size,embedding_dim)Embedding层的输入形状是batch_size×seq_len(seq_len是输入序列长度
佛系调参
·
2023-11-24 15:15
自然语言处理
大模型
embedding
BERT|add tokens后tokenizer一直加载中...
原因:有说是词典太大,耗时hours才加载出来(我也没有真的等到过)暂时的解决办法:打印出新加的added_tokens.json文件中的词,手动(或代码)加到
vocab
.txt最后一个词的末尾;#printaddedtokensimportosimpo
柯薇求何
·
2023-11-23 14:11
人工智能-循环神经网络的简洁实现
importtorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2lbatch_size,num_steps=32,35train_iter,
vocab
白云如幻
·
2023-11-22 16:07
代码笔记
人工智能
深度学习
人工智能
rnn
深度学习
动手学深度学习——循环神经网络的简洁实现(代码详解)
importtorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2lbatch_size,num_steps=32,35train_iter,
vocab
緈福的街口
·
2023-11-19 01:30
深度学习
深度学习
rnn
人工智能
笔记53:torch.nn.rnn() 函数详解
参数解释:(1)input_size():即输入信息Xt的每个序列的独热编码向量的长度,即len(
vocab
)(2)hidden_size():即隐变量h的维度(维度是多少,就代表用几个数字存储该序列的历史信息
恨晨光熹微
·
2023-11-17 08:35
笔记
rnn
深度学习
nn.Embedding()的原理
nn.Embedding()的原理:定义一个Embedding:embeddings=nn.Embedding(num_embeddings=10,embedding_dim=3)
vocab
_size:
LSCBAiotAigc
·
2023-11-16 11:01
python
人工智能
embedding
深度学习
人工智能
seq2seq(tf2.0版本)
state=(c_state,hidden_state),output就是最后一个词语细胞的state中的hidden_state'''embedding_units=256units=1024input_
vocab
_size
nio006
·
2023-11-13 06:59
深度学习
GPT2Config
参数:
vocab
_size(:obj:`int`,`optional`,默认为50257):GPT-2模型的词汇量。定义在调用:class:`~tran
hibernate2333
·
2023-11-12 07:35
NLP
深度学习
人工智能
机器学习
论文辅助笔记:t2vec models.py
1EncoderDecoder1.1_init_classEncoderDecoder(nn.Module):def__init__(self,
vocab
_size,embedding_size,hidden_size
UQI-LIUWJ
·
2023-11-03 05:38
论文笔记
pytorch学习
笔记
python
机器学习
pytorch0.4.1报错Padding_idx must be within num_embeddings
self.embedding=nn.Embedding(self.
vocab
_size+2,self.embedding_dim,padding_idx=self.
vocab
_size+1)self.embedding.weight
Re0
·
2023-11-03 04:30
写一个多机多卡训练GPT的代码
的多机多卡训练的示例代码:importtorchimporttorch.nnasnnimporttorch.optimasoptim#定义GPT模型classGPT(nn.Module):def__init__(self,
vocab
_size
无声远望
·
2023-11-02 16:45
深度学习
pytorch
python
人工智能
机器学习
解决‘BaichuanTokenizer‘ object has no attribute ‘sp_model‘,无需重装transformers和torch
https://github.com/baichuan-inc/Baichuan2/issues/204中所说:修改下tokenization_baichuan.py,把super()修改到最后执行self.
vocab
_file
夏离
·
2023-11-01 18:10
python
语言模型
Spacy的依存分析
Vocab
:存储词汇表和语言共享的数据。词汇表使用Lexeme对象和StringStore对象来表示。Lexeme
Dawn_www
·
2023-10-31 11:17
自然语言处理
nlp
spacy 用已经token化,分词的list 列表作为输入
2022/1/11更新针对新版3.0处理importspacynlp=spacy.load('en_core_web_sm')fromspacy.tokensimportDocdoc=Doc(nlp.
vocab
5jerry
·
2023-10-31 11:47
NLP
nlp
spacy
python
列表
python 笔记:h5py 读取HDF5文件
文件可以看作是“dataset”和“group”二合一的容器dataset:数据集,像numpy数组一样工作group:包含了其它dataset和其它group2读取文件以t2vec的data/porto-
vocab
-dist-cell100
UQI-LIUWJ
·
2023-10-28 21:38
python库整理
笔记
python 深度学习 解决遇到的报错问题6
HTTPSConnectionPool(host='huggingface.co',port=443):Maxretriesexceededwithurl:/bert-base-uncased/resolve/main/
vocab
.txt
水w
·
2023-10-22 04:01
#
深度学习
python
开发语言
深度学习
怎么让英文大语言模型支持中文?--构建中文tokenization--继续预训练--指令微调
原始的llama模型对中文的支持不太友好,接下来本文将讲解如何去扩充
vocab
里面的词以对中文进行token化。1.2如何对原始数据预处理?每一行为一句或多句话。
zhurui_xiaozhuzaizai
·
2023-10-19 13:27
自然语言处理
语言模型
人工智能
自然语言处理
语言模型编码中/英文句子格式详解
文章目录前言一、Bert的
vocab
.txt内容查看二、BERT模型转换方法(
vocab
.txt)三、
vocab
内容与模型转换对比四、中文编码总结前言最近一直在学习多模态大模型相关内容,特别是图像CV与语言
tangjunjun-owen
·
2023-10-15 14:30
语言模型-多模态大模型
语言模型
人工智能
自然语言处理
《动手学深度学习 Pytorch版》 8.5 循环神经网络的从零开始实现
matplotlibinlineimportmathimporttorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2lbatch_size,num_steps=32,35train_iter,
vocab
AncilunKiang
·
2023-10-15 08:28
《动手学深度学习
Pytorch版》学习笔记
深度学习
pytorch
rnn
《动手学深度学习 Pytorch版》 8.6 循环神经网络的简洁实现
importtorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2lbatch_size,num_steps=32,35train_iter,
vocab
AncilunKiang
·
2023-10-15 08:51
《动手学深度学习
Pytorch版》学习笔记
深度学习
pytorch
rnn
遇到argument of type ‘Word2Vec‘ is not iterable不要慌。。。
报这个错我这里的原因是word2vec构造出来的模型不能遍历原来代码:ifwordinmodel:(model就是用word2vec构造出来的)应该修改成:
vocab
=model.wvifwordinvocab
昊温柔
·
2023-10-14 14:32
每次自闭又解闭
word2vec
人工智能
nlp
自动训练Embedding词向量和手动训练Embedding词向量
word_vector.bin文件然后调用:embedding=nn.Embedding.from_pretrained(word_vector.bin)自动训练词向量self.embed=nn.Embedding(
vocab
_size
Hi洛一
·
2023-10-09 01:35
人工智能
Python
人工智能
机器学习
深度学习
nlp
STEP-2:RNN:GRU、LSTM-Pytorch
结构,来自教学平台的图片GRU结构示意图LSTM结构,来自教学平台的图片LSTM结构示意图二者的具体实现如下#导入Pytorchimporttorchimporttorch.nnasnn#定义GRU层,
vocab
_siz
可恶小林子
·
2023-10-06 04:26
报错解决MaxRetryError(“HTTPSConnectionPool(host=‘huggingface.co‘, port=443
HTTPSConnectionPool(host='huggingface.co',port=443):Maxretriesexceededwithurl:/bert-base-uncased/resolve/main/
vocab
.txt
HumbleSwage
·
2023-10-03 22:39
服务器
linux
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他