tokenizer

Llama 3.2入门基础教程（非常详细），Llama 3.2微调、部署以及多模态训练入门到精通，收藏这一篇就够了！

Tokenizer变成了128K的词表，使用了GQA，不在是原来的只在Llama2-70B里使用了。所以说，最大的改变就是词表与GQA。然后在训练上变化比较大，参数变大了，400B的还没放出来

中年猿人·2025-03-03 17:49

实体识别处理--在给定的文本中识别特定类型的实体

代码结构和模块分析1.导入必要的库importtorchfromtorchimportnnfromtransformersimportBertTokenizer,BertModelfro

风清扬【coder】·2025-03-01 21:04

Exception:data did not match any variant of untagged enum PyPreTokenizerTypeWrapper at line 69 解决方案

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Exception:datadidn

爱编程的喵喵·2025-02-28 08:34

深度学习-133-LangGraph之应用实例(二)使用面向过程和面向对象的两种编程方式构建带记忆的聊天机器人

面向过程编程2.1不裁剪历史信息2.1.1创建图2.1.2调用图2.2裁剪历史信息2.2.1创建图2.2.2调用图3面向对象编程3.1定义类MyState3.2定义类AIChat3.3应用4附录4.1问题及解决tokenizer4.2

皮皮冰燃·2025-02-26 10:02

告别复杂分词：Transformers轻松搞定文本处理

今天这篇文章将带你一起走进一个深受AI界热爱的工具——Transformers库，特别是AutoTokenizer的神奇功能。这个工具可以让你轻松处理文本，节省时间，还能保证高效准确。

星际编程喵·2025-02-25 09:08

20250221 NLP

1.向量和嵌入https://zhuanlan.zhihu.com/p/634237861encoder的输入就是向量，提前嵌入为向量二.多模态文本嵌入向量过程1.文本预处理文本tokenizer之前需要预处理吗

AI-lala·2025-02-25 07:50

java菜鸟教程学习（完整版）

查找字符串最后一次出现的位置3.Java实例-删除字符串中的一个字符4.Java实例-字符串替换5.Java实例-字符串反转6.Java实例-字符串查找7.Java实例-字符串分割8.Java实例-字符串分割(StringTokenizer

·2025-02-22 20:45

java 输入输出模板

*;importjava.util.StringTokenizer;publicclassMain{publicstaticvoidmain(String[]args){InputStreaminputStream

wangzhuo0978·2025-02-18 15:16

deepseek+python,离线api，持续对话

功能：通过start开启新对话，stop结束对话，exit退出程序，并且可持续对话代码fromtransformersimportAutoModelForCausalLM,AutoTokenizer,BitsAndBytesConfigimporttorch

守着黎明看日出·2025-02-16 05:43

前端大模型入门：编码(Tokenizer)和嵌入(Embedding)解析

本文介绍了大规模语言模型（LLM）中的两个核心概念：Tokenizer和Embedding。

大模型玩家·2025-02-06 03:38

不同模型对 Emoji 和普通文本的处理表现，Emoji的向量嵌入（含测试代码）

验证代码fromtransformersimportAutoTokenizer#测试的模型列表models=["bert-base-uncased",#BERT"vinai/bertweet-base"

2301_79306982·2025-02-02 13:41

pytorch基于 Transformer 预训练模型的方法实现词嵌入（tiansz/bert-base-chinese）

frommodelscope.hub.snapshot_downloadimportsnapshot_downloadfromtransformersimportBertTokenizer,Be

纠结哥_Shrek·2025-02-01 15:05

修改训练配置记录

在train.py代码的设置训练配置中：trainer=SFTTrainer(model=model,tokenizer=tokenizer,train_dataset=dataset,dataset_text_field

positive546·2025-01-31 18:42

词表设计：特殊Token区域与共享去区域的深入探讨

在自然语言处理（NLP）中，Tokenizer的设计对于模型性能有着至关重要的影响。

东方佑·2025-01-30 14:44

Transformers库的模板困境：apply_chat_template的版本变迁与解决方案

目录问题现状低版本（4.43及以下）的简便方式高版本的报错问题原因分析旧版本的实现逻辑新版本的变化解决办法问题现状在使用Transformers库中的tokenizer处理模型输入时，我们经常需要将输入文本格式化为模型可以理解的格式

Gaffey大杂烩·2025-01-28 22:02

gradio可视化对话框（）

fromtransformersimportAutoModel,AutoTokenizerimportgradioasgrimportmdtex2html#-*-coding:utf-8-*-importosimporttorchimportinterfaceAllfromdatetimeimportdatetimeimporttimeimportinference_LLaVaimportshut

@小张不嚣张·2025-01-24 20:58

使用 Tokenizers 分割文本：深入了解与实践

本文将介绍如何使用不同的tokenizer来分割文本，并提供实用代码示例。技术背景介绍自然语言处理中的tokenization是指将文本拆分为更小的、可管理的单元，称为tokens。使用tok

AWsggdrg·2025-01-24 03:42

Gradio + Transformers** 实现带记忆功能的对话系统完整代码示例

Gradio+Transformers实现带记忆功能的对话系统完整代码示例，无需额外数据库依赖：importgradioasgrimportnumpyasnpfromtransformersimportAutoTokenizer

大霸王龙·2025-01-23 03:42

论文阅读--Qwen2&2.5技术报告

Qwen21引言所有模型都是在超过7trilliontoken（7万亿）的高质量、大规模数据集上预训练的2Tokenizer&Model2.1Tokenizer沿用Qwen（Bai等人，2023a）的做法

__如果·2025-01-22 17:55

Jetson显卡上运行Qwen2-1.5b模型时报错“RuntimeError triu_tril_cuda_template not implemented for ‘BFloat16‘”

RuntimeErrortriu_tril_cuda_templatenotimplementedfor‘BFloat16’”问题描述：CUDA_DEVICE="cuda:0"model_name_or_path='/qwen2-1.5b-instruct'Tokenizer

wang151038606·2025-01-19 00:31

《CPython Internals》阅读笔记：p96-p96

一、技术总结1.parser-tokenizerp92,Creatingaconcretesyntaxtreeusingaparser-tokenizer,orlexer.p96,CPythonhasaparser-tokenizermodule

·2025-01-16 18:01

大模型微调 - 基于预训练大语言模型的对话生成任务训练代码

基于预训练大语言模型的对话生成任务训练代码flyfish模型扮演堂吉诃德这个角色，回答关于自我介绍的问题importtorchfromdatasetsimportDatasetfrommodelscopeimportAutoTokenizer

西笑生·2024-09-14 05:00

大模型LLM面试常见算法题-包括Attention和Transformer常见面试题

Tokenizer的实现方法及原理解释一下大模型的涌现能力？解释langchainAgent的概念langchain有哪些替代方案？RLHF完整训练过程是什么？为什么RLHF的效果这么好?

剑圣土豆·2024-09-10 15:57

gpt-2语言模型训练

然后把需要处理的数据丢给模型去训练，这个模型我是直接从GPT2的网站下载下来的依赖的必要文件截图如下：二、具体代码样例实现：importosimportpandasaspdfromtransformersimportGPT2Tokenizer

谷隐凡二·2024-09-10 09:48

解决Can‘t load tokenizer for ‘bert-base-chinese‘.问题

报错提示：OSError:Can'tloadtokenizerfor'bert-base-chinese'.Ifyouweretryingtoloaditfrom'https://huggingface.co

CSDNhdlg·2024-09-10 05:51

GLM-4 (1) - 推理+概览

-SelfAttentionGLM-4(5)-API&FunctionCallingGLM-4(6)-KVCache/Prefill&Decode文章目录系列文章目录前言一、环境安装&跑通demo二、Tokenizer

戴昊光·2024-09-07 02:38

字节&约翰斯·霍普金斯&上交提出iBOT框架，基于MIM进行自监督训练，在ImageNet-1K上达到86.3%的微调精度！...

在这项工作中，作者研究了maskedimagemodeling（MIM），并指出了使用语义上有意义的视觉标记器（visualtokenizer）的优势和挑战。

我爱计算机视觉·2024-09-06 07:00

总结：大模型技术栈---算法与原理

原文地址：大模型技术栈-算法与原理1.tokenizer方法word-levelchar-levelsubword-levelBPEWordPieceUniLMSentencePieceByteBPE2

lichunericli·2024-08-31 22:26

Bert中文预训练模型（Bert-base-chinese）

使用importtorchfromtransformersimportBertTokenizer,BertModel#第一步：离线下载#fromtran

好好学习Py·2024-08-30 22:14

大模型训练和推理

文章目录一、NLP基础1.Tokenizer2.positionencoding3.注意力机制与transformer架构二、大模型训练1.SFT训练2.RLHF训练3.分布式并行训练技术（1）模型并行

李明朔·2024-08-30 01:27

Spark MLlib 数据预处理－特征变换

2019独角兽企业重金招聘Python工程师标准>>>Tokenizer（分词器）算法介绍：Tokenization将文本划分为独立个体（通常为单词）。

weixin_33841722·2024-08-29 14:40

android sqlite 分词,sqlite3自定义分词器

虽然sqlite在fts3_tokenizer.h中提供了各种接口供用户自定义分词器，但其并未提供c函数供用户来注册自定义的分词器，分词器的注册必须使用sql语句来完成。

雷幺幺·2024-08-27 09:50

安装BLIP2模型时报错：Can‘t load tokenizer for ‘bert-base-uncased‘. If you were trying to load it from ‘h ...

报错的信息如下所示：OSError:Can'tloadtokenizerfor'bert-base-uncased'.Ifyouweretryingtoloaditfrom'https://huggingface.co

David_jiahuan·2024-08-24 02:58

Can‘t load tokenizer for ‘bert-base-uncased‘

先下载https://storage.googleapis.com/bert_models/2020_02_20/uncased_L-12_H-768_A-12.zip我上传了一个：https://download.csdn.net/download/LEE18254290736/89652982?spm=1001.2014.3001.5501下载完了解压缩。之后在项目工程新建一个文件夹，命名为b

JensLee·2024-08-24 02:27

【学习总结】Python transformers AutoTokenizer encode 出现的 101 和 102

1.代码展示：fromtransformersimportAutoTokenizer,AutoModelmodel_name="bert-base-chinese"tokenizer=AutoTokenizer.from_pretrained

爱学习的小道长·2024-03-14 14:10

关于MediaEval数据集的Dataset构建（Text部分-使用PLM BERT）

importrandomimportnumpyasnpimportpandasaspdimporttorchfromtransformersimportBertModel,BertTokenizerfromtqdm.autoimporttqdmfromtorch.utils.dataimportDatasetimportre

Coisíní℘·2024-03-04 18:42

ElasticSearch分词器和相关性详解

目录ES分词器详解基本概念分词发生时期分词器的组成切词器：Tokenizer词项过滤器：TokenFilter停用词同义词字符过滤器：CharacterFilterHTML标签过滤器：HTMLStripCharacterFilter

山鸟与鱼！·2024-02-19 22:42

peft库编写逻辑分析

LLaMa+prefix为例）Peft库加载finetune模型分析Peft生成代码importtorchfrompeftimportPeftModelfromtransformersimport(LlamaTokenizer

瓶子好亮·2024-02-19 15:17

NLP快速入门

p=1&vd_source=3f265bbf5a1f54aab2155d9cc1250219参考文档链接1：NLP知识点：Tokenizer分词器-掘金(juejin.cn)一、分词分词是什么？

Knoka705·2024-02-15 09:10

使用模型Helsinki-NLP/opus-mt-en-zh实现英译中

googlecodlab运行需要5秒fromtransformersimportAutoModel,AutoTokenizer,MarianMTModelfromhuggingface_hub.hf_apiimportHfFolderHfFolder.save_token

hehui0921·2024-02-14 11:18

在pipeline中使用distilbert-base-uncased-finetuned-sst-2-english模型做sentiment-analysis情感分析

googlecolab运行成功：fromtransformersimportAutoTokenizer,AutoModel,pipelinefromhuggingface_hub.hf_apiimportHfFolderHfFolder.save_token

hehui0921·2024-02-14 11:48

huggingface pipeline零训练样本分类Zero-Shot Classification的实现

('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')fromtransformersimportMBartForConditionalGeneration,MBart50TokenizerFastfromtransformersi

hehui0921·2024-02-14 11:47

大模型Tokenizer知识

Byte-PairEncoding(BPE)如何构建词典？Byte-PairEncoding（BPE）是一种常用的无监督分词方法，用于将文本分解为子词或字符级别的单位。BPE的词典构建过程如下：初始化词典：将每个字符视为一个初始的词。例如，对于输入文本"helloworld"，初始词典可以包含{'h','e','l','o','w','r','d'}。统计词频：对于每个词，统计其在文本中的频率。例

lichunericli·2024-02-13 21:39

Stable Diffusion WebUI linux部署问题

当我部署好环境后，准备大张旗鼓开搞时，进入项目地址运行pythonlaunch.py后发现下面连接着的报错是OSError:Can'tloadtokenizerfor'openai/clip-vit-large-patch14

SuperB666·2024-02-13 14:58

huggingface pipeline使用模型THUDM/chatglm3-6b

fromtransformersimportAutoTokenizer,AutoModelfromtransformersimportAutoModelForSeq2SeqLMfromhuggingface_hub.hf_apiimportHfFolderHfFolder.save_token

hehui0921·2024-02-13 09:36

使用模型bigscience/mt0-large实现中文到英文的翻译

cpu版本fromtransformersimportAutoTokenizer,AutoModelfromhuggingface_hub.hf_apiimportHfFolderHfFolder.save_token