vocab

李沐55_循环神经网络RNN简洁实现——自学笔记

importtorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2lbatch_size,num_steps=32,35train_iter,vocab

Rrrrrr900·2024-09-11 20:54

BERT开源代码分析（一）——dataset数据加载模块

并提出自己的一些见解基本注释已经穿插在代码块中，另外一些看法单独拿出来说1.vocab.py#导包importpickleimporttqdmfromcollectionsimportCounterclassTorchVocab

时光诺言·2024-02-14 01:23

ValueError: The model‘s vocab size is set to -1 in params.json. 部署llama-2-chat-7B

部署llama-2-chat-7B模型时，遇到以下问题输入以下命令python3convert.py--outfile./models/llama-2-7b-chat../llama/llama-2-7b-chat/出现以下问题。Traceback(mostrecentcalllast):File"/home/zack/llama.cpp/convert.py",line1658,inmain(s

qq_45719856·2024-02-12 03:22

Finetune时更改tokenizer词表

当前词表对分词操作不理想，因此选择修改tokenizer词表～在special_tokens中添加不想被拆分开的单词或者文字special_tokens=[]withopen("待添加词所在文件","r")asf_vocab

Alicesla·2024-02-09 19:20

[玩转AIGC]LLaMA2训练中文文章撰写神器（数据准备，数据处理，模型训练，模型推理）

2）将数据集进行合并3、数据集处理之模型（llama2）训练（train.py）格式三、训练一个tokenizer四、使用训练的tokenizer预编码输入数据五、训练llama2模型1、修改参数1）vocab_size2

六五酥·2024-01-17 18:07

单词和单词编号对应字典的写法

最近看到两种实现，第一种是用循环，第二种很值得借鉴：#vocab：['xx','xx',...]word_to_idx={word:ifori,wordinenumerate(vocab)}idx_to_word

__心似大海__·2024-01-15 07:10

huggingface实战bert-base-chinese模型(训练+预测)

文章目录前言一、bert模型词汇映射说明二、bert模型输入解读1、input_ids说明2、attention_mask说明3、token_type_ids说明4、模型输入与vocab映射内容二、huggingface

tangjunjun-owen·2024-01-09 11:50

opennmt安装踩坑记录

两种安装方式：1、pipinstall这种安装方式装的opennmt是1.2.0版本，会导致onmt_build_vocab等命令无法识别。

p_w·2024-01-08 18:33

CharRNN实现简单的文本生成

importnumpyasnpimportreimporttorchclassTextConverter(object):def__init__(self,text_path,max_vocab=5000

一壶浊酒..·2024-01-07 00:47

Stable Diffusion Webui在Linux服务器第一次运行不能连接huggingface

host='huggingface.co',port=443):Maxretriesexceededwithurl:/openai/clip-vit-large-patch14/resolve/main/vocab.json

Moriton·2024-01-05 21:35

[tf]定义默认初始化的方式，

withtf.variable_scope()指定统一的initializer，那么在模型里面的话就self.src_embedding=tf.get_variable("src_emb",[SRC_VOCAB_SIZE

VanJordan·2024-01-05 20:29

import pyLDAvis as gensimvis报错

odule'pyLDAvis.gensim_models'hasnoattribute'enable_notebook'（2）prepare()missing2requiredpositionalarguments:'vocab'and'term_frequency

MilkLeong·2024-01-05 11:13

Python统计文本的单词数和句子数

envpythonimportnumpyimportjsonimportsysimportfileinputfromcollectionsimportOrderedDictimporttorch#计算pt文件下的单词数##计算源端的词汇##src_vocab_a

Pr 彭儒·2024-01-05 03:13

Keras实现Transformer

importnumpyasnpfromkeras.modelsimportModelfromkeras.layersimportInput,Dense,Embedding,MultiHeadAttentionfromkeras.optimizersimportAdam#定义模型参数vocab_size

缘起性空、·2024-01-01 12:20

【模型整体的结构1】2021-04-28

#五个部分结构图#1模型参数（超参数）data{'name':'aishell','vocab':'egs/aishell/data/text2.txt','batch_size':8,'dataset_type

star星陨·2023-12-30 07:49

Transformer实现的一个Demo

utf-8importtorchimporttorch.nnasnnimportnumpyasnpimportmathclassConfig(object):def__init__(self):self.vocab_size

极乐净土0822·2023-12-29 16:10

【PyTorch】torch.data.Field 参数与方法详解 & Embedding 层浅谈

文章目录Field类功能.构造参数.成员函数build_vocab.Embedding.Field类功能.Field\rmFieldField类对可以用张量Tensor\rmTensorTensor表示的常见文本处理数据类型进行处理

Anova.YJ·2023-12-27 11:24

GPT每预测一个token就要调用一次模型

不久以前我以为是调用一次通过看代码是输出多少个token就调用多少次，如图所示：我理解为分类模型预测下一个token可以理解为分类模型，类别是vocab的所有token，每一次调用都是在分类为什么不能一次输出呢从数学维度来讲

Takoony·2023-12-26 05:40

gemsim Doc2Vec infer_vector()输入相同的句子，得到不同的向量

造成这个原因是因为Doc2Vec是不关注vocab的顺序的word_vocabs=[model.vocab[w]forwindoc_wordsifwinmodel.vocabandmodel.vocab

hi_lan·2023-12-17 17:10

AttributeError: Can‘t get attribute ‘WordVocab‘ on ＜module ‘main‘ from ‘genetic_algorithm.py‘＞

文件的文件结构和里面的数据，于是就用pickle.load打开，但是出现了AttributeError:Can'tgetattribute'WordVocab'on'WordVocab':withopen(vocab_path

Billie使劲学·2023-12-16 20:59

【FunASR】Paraformer语音识别-中文-通用-16k-离线-large-onnx

模型亮点模型文件:damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorchParaformer-large

太空眼睛·2023-12-15 18:00

1 NLP分类之：FastText

spm=1001.2014.3001.5503数据集合：0NLP:数据获取与EDA-CSDN博客词嵌入向量文件：embedding_SougouNews.npz词典文件：vocab.pkl1模型基于fastText

汀沿河·2023-12-04 09:40

手撕transformer-基于numpy实现

具体的转换过程如下：词嵌入:首先，我们有一个嵌入矩阵，其大小为(vocab_size,

AlgorithmWillBeFine·2023-12-02 10:36

[nlp] id2str的vocab.json转换为str2id

importjson#加载包含ID对应字符串的JSON文件withopen("base_vocab.json","r",encoding='utf-8')asfile:id_to_str=json.load

心心喵·2023-12-01 16:03

[论文笔记] tiktoken中的gpt4 tokenizer

只有vocab.json是不ok的，只能encode单字节的字符，对于中文这种会encode之后tokens,ids都是[]。

心心喵·2023-12-01 16:31

人工智能|机器学习——循环神经网络的简洁实现

importtorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2lbatch_size,num_steps=32,35train_iter,vocab

博士僧小星·2023-11-26 17:25

nn.Embedding

nn.Embedding具有一个权重（.weight），形状是（vocab_size,embedding_dim)Embedding层的输入形状是batch_size×seq_len（seq_len是输入序列长度

佛系调参·2023-11-24 15:15

BERT|add tokens后tokenizer一直加载中...

原因：有说是词典太大，耗时hours才加载出来（我也没有真的等到过）暂时的解决办法：打印出新加的added_tokens.json文件中的词，手动（或代码）加到vocab.txt最后一个词的末尾；#printaddedtokensimportosimpo

柯薇求何·2023-11-23 14:11

人工智能-循环神经网络的简洁实现

importtorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2lbatch_size,num_steps=32,35train_iter,vocab

白云如幻·2023-11-22 16:07

动手学深度学习——循环神经网络的简洁实现（代码详解）

importtorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2lbatch_size,num_steps=32,35train_iter,vocab

緈福的街口·2023-11-19 01:30

笔记53：torch.nn.rnn() 函数详解

参数解释：（1）input_size()：即输入信息Xt的每个序列的独热编码向量的长度，即len(vocab)（2）hidden_size()：即隐变量h的维度（维度是多少，就代表用几个数字存储该序列的历史信息

恨晨光熹微·2023-11-17 08:35

nn.Embedding()的原理

nn.Embedding()的原理：定义一个Embedding：embeddings=nn.Embedding(num_embeddings=10,embedding_dim=3)vocab_size:

LSCBAiotAigc·2023-11-16 11:01

seq2seq（tf2.0版本）

state=(c_state,hidden_state)，output就是最后一个词语细胞的state中的hidden_state'''embedding_units=256units=1024input_vocab_size

nio006·2023-11-13 06:59

GPT2Config

参数：vocab_size(:obj:`int`,`optional`,默认为50257)：GPT-2模型的词汇量。定义在调用:class:`~tran

hibernate2333·2023-11-12 07:35

论文辅助笔记：t2vec models.py

1EncoderDecoder1.1_init_classEncoderDecoder(nn.Module):def__init__(self,vocab_size,embedding_size,hidden_size

UQI-LIUWJ·2023-11-03 05:38

pytorch0.4.1报错Padding_idx must be within num_embeddings

self.embedding=nn.Embedding(self.vocab_size+2,self.embedding_dim,padding_idx=self.vocab_size+1)self.embedding.weight

Re0·2023-11-03 04:30

写一个多机多卡训练GPT的代码

的多机多卡训练的示例代码：importtorchimporttorch.nnasnnimporttorch.optimasoptim#定义GPT模型classGPT(nn.Module):def__init__(self,vocab_size

无声远望·2023-11-02 16:45

解决‘BaichuanTokenizer‘ object has no attribute ‘sp_model‘，无需重装transformers和torch

https://github.com/baichuan-inc/Baichuan2/issues/204中所说：修改下tokenization_baichuan.py，把super()修改到最后执行self.vocab_file

夏离·2023-11-01 18:10

Spacy的依存分析

Vocab：存储词汇表和语言共享的数据。词汇表使用Lexeme对象和StringStore对象来表示。Lexeme

Dawn_www·2023-10-31 11:17

spacy 用已经token化，分词的list 列表作为输入

2022/1/11更新针对新版3.0处理importspacynlp=spacy.load('en_core_web_sm')fromspacy.tokensimportDocdoc=Doc(nlp.vocab

5jerry·2023-10-31 11:47

python 笔记：h5py 读取HDF5文件

文件可以看作是“dataset”和“group”二合一的容器dataset:数据集，像numpy数组一样工作group:包含了其它dataset和其它group2读取文件以t2vec的data/porto-vocab-dist-cell100

UQI-LIUWJ·2023-10-28 21:38

python 深度学习解决遇到的报错问题6

HTTPSConnectionPool(host='huggingface.co',port=443):Maxretriesexceededwithurl:/bert-base-uncased/resolve/main/vocab.txt

水w·2023-10-22 04:01

怎么让英文大语言模型支持中文？--构建中文tokenization--继续预训练--指令微调

原始的llama模型对中文的支持不太友好，接下来本文将讲解如何去扩充vocab里面的词以对中文进行token化。1.2如何对原始数据预处理？每一行为一句或多句话。

zhurui_xiaozhuzaizai·2023-10-19 13:27

语言模型编码中/英文句子格式详解

文章目录前言一、Bert的vocab.txt内容查看二、BERT模型转换方法(vocab.txt)三、vocab内容与模型转换对比四、中文编码总结前言最近一直在学习多模态大模型相关内容，特别是图像CV与语言

tangjunjun-owen·2023-10-15 14:30

《动手学深度学习 Pytorch版》 8.5 循环神经网络的从零开始实现

matplotlibinlineimportmathimporttorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2lbatch_size,num_steps=32,35train_iter,vocab

AncilunKiang·2023-10-15 08:28

《动手学深度学习 Pytorch版》 8.6 循环神经网络的简洁实现

importtorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2lbatch_size,num_steps=32,35train_iter,vocab

AncilunKiang·2023-10-15 08:51

遇到argument of type ‘Word2Vec‘ is not iterable不要慌。。。

报这个错我这里的原因是word2vec构造出来的模型不能遍历原来代码：ifwordinmodel:（model就是用word2vec构造出来的）应该修改成：vocab=model.wvifwordinvocab

昊温柔·2023-10-14 14:32

自动训练Embedding词向量和手动训练Embedding词向量

word_vector.bin文件然后调用：embedding=nn.Embedding.from_pretrained(word_vector.bin)自动训练词向量self.embed=nn.Embedding(vocab_size

Hi洛一·2023-10-09 01:35

STEP-2:RNN:GRU、LSTM-Pytorch

结构，来自教学平台的图片GRU结构示意图LSTM结构，来自教学平台的图片LSTM结构示意图二者的具体实现如下#导入Pytorchimporttorchimporttorch.nnasnn#定义GRU层，vocab_siz

可恶小林子·2023-10-06 04:26

报错解决MaxRetryError(“HTTPSConnectionPool(host=‘huggingface.co‘, port=443

HTTPSConnectionPool(host='huggingface.co',port=443):Maxretriesexceededwithurl:/bert-base-uncased/resolve/main/vocab.txt

HumbleSwage·2023-10-03 22:39

推荐频道

vocab

李沐55_循环神经网络RNN简洁实现——自学笔记

BERT开源代码分析（一）——dataset数据加载模块

ValueError: The model‘s vocab size is set to -1 in params.json. 部署llama-2-chat-7B

Finetune时更改tokenizer词表

[玩转AIGC]LLaMA2训练中文文章撰写神器（数据准备，数据处理，模型训练，模型推理）

单词和单词编号对应字典的写法

huggingface实战bert-base-chinese模型(训练+预测)

opennmt安装踩坑记录

CharRNN实现简单的文本生成

Stable Diffusion Webui在Linux服务器第一次运行不能连接huggingface

[tf]定义默认初始化的方式，

import pyLDAvis as gensimvis报错

Python统计文本的单词数和句子数

Keras实现Transformer

【模型整体的结构1】2021-04-28

Transformer实现的一个Demo

【PyTorch】torch.data.Field 参数与方法详解 & Embedding 层浅谈

GPT每预测一个token就要调用一次模型

gemsim Doc2Vec infer_vector()输入相同的句子，得到不同的向量

AttributeError: Can‘t get attribute ‘WordVocab‘ on ＜module ‘__main__‘ from ‘genetic_algorithm.py‘＞

【FunASR】Paraformer语音识别-中文-通用-16k-离线-large-onnx

1 NLP分类之：FastText

手撕transformer-基于numpy实现

[nlp] id2str的vocab.json转换为str2id

[论文笔记] tiktoken中的gpt4 tokenizer

人工智能|机器学习——循环神经网络的简洁实现

nn.Embedding

BERT|add tokens后tokenizer一直加载中...

人工智能-循环神经网络的简洁实现

动手学深度学习——循环神经网络的简洁实现（代码详解）

笔记53：torch.nn.rnn() 函数详解

nn.Embedding()的原理

seq2seq（tf2.0版本）

GPT2Config

论文辅助笔记：t2vec models.py

pytorch0.4.1报错Padding_idx must be within num_embeddings

写一个多机多卡训练GPT的代码

解决‘BaichuanTokenizer‘ object has no attribute ‘sp_model‘，无需重装transformers和torch

Spacy的依存分析

spacy 用已经token化，分词的list 列表作为输入

python 笔记：h5py 读取HDF5文件

python 深度学习 解决遇到的报错问题6

怎么让英文大语言模型支持中文？--构建中文tokenization--继续预训练--指令微调

语言模型编码中/英文句子格式详解

《动手学深度学习 Pytorch版》 8.5 循环神经网络的从零开始实现

《动手学深度学习 Pytorch版》 8.6 循环神经网络的简洁实现

遇到argument of type ‘Word2Vec‘ is not iterable不要慌。。。

自动训练Embedding词向量和手动训练Embedding词向量

STEP-2:RNN:GRU、LSTM-Pytorch

报错解决MaxRetryError(“HTTPSConnectionPool(host=‘huggingface.co‘, port=443

AttributeError: Can‘t get attribute ‘WordVocab‘ on ＜module ‘main‘ from ‘genetic_algorithm.py‘＞

python 深度学习解决遇到的报错问题6