SentencePiece

基于Transformer实现机器翻译（日译中）

本文将详细介绍如何使用PyTorch、Torchtext、SentencePiece以及JupyterNotebook构建一个日语到中文的机器翻译模型。

觉今是昨非·2025-06-09 16:01

Windows安装sentencepiece报错： python setup.py egg_info did not run successfully

在pipinstallsentencepiece报错：pythonsetup.pyegg_infodidnotrunsuccessfully解决办法：setuptools更新库pipinstall--upgradesetuptools若还报错：UpdatetheVERSIONargumentvalue.Or,usethe...syntaxtotellCMakethattheprojectrequi

代码手艺人老羊·2025-04-13 01:11

NLP任务之翻译

pipinstallsentencepiece-iSimpleIndex#sentencepiece开源工具，可以更好的生成词向量1加载预训练模型的分词器fromtransformersim

Hiweir ··2025-04-06 19:57

手动实现一个迷你Llama：使用SentencePiece实现自己的tokenizer

自己训练一个tokenizertokenizer需要的模块SentencePiece库tokenizer类中的初始化函数tokenizer类中的encode函数tokenizer类中的decode函数完整代码训练函数数据分片临时文件

KangkangLoveNLP·2025-04-04 04:59

sentencePiece入门小结

环境搭建1.安装C++源码版step1安装环境依赖ubuntu系统：sudoapt-getinstallcmakebuild-essentialpkg-configlibgoogle-perftools-devcentos系统：sudoyuminstallcmakepkg-configgperfools-devel注：如果之前安装过cmake，但是3.1以下的，会编译不成功，因此需要安装更高版本的

六神就是我·2024-09-08 01:17

WordPiece和SentencePiece区别

BERT（BidirectionalEncoderRepresentationsfromTransformers）模型的分词器通常使用子词级别的分词方法，其中最常用的分词器包括WordPiece和SentencePiece

hema12138·2024-01-15 08:26

Subwords Tokenizer方法介绍: BPE, Byte-level BPE, WordPiece, Unigram, SentencePiece

transformerstokenizer的文档目录Byte-PairEncoding(BPE)[^1]出发点原理应用Byte-levelBPE[^2]出发点原理应用WordPiece[^3]原理应用Unigram[^4]原理SentencePiece

ShawnXuu·2024-01-04 16:43

[玩转AIGC]LLaMA2之如何跑llama2.c的chat模式

之前文件如下：[玩转AIGC]sentencepiece训练一个Tokenize

六五酥·2023-12-29 14:00

随机分词与tokenizer(BPE-＞BBPE-＞Wordpiece-＞Unigram-＞sentencepiece-＞bytepiece)

0tokenizer综述根据不同的切分粒度可以把tokenizer分为:基于词的切分，基于字的切分和基于subword的切分。基于subword的切分是目前的主流切分方式。subword的切分包括:BPE(/BBPE),WordPiece和Unigram三种分词模型。其中WordPiece可以认为是一种特殊的BPE。完整的分词流程包括：文本归一化，预切分，基于分词模型的切分，后处理。Sentenc

zhurui_xiaozhuzaizai·2023-12-16 03:56

tokenizers Tokenizer类

分词方式主要有word-level、subword-level、char-level三种，其中，subword-level分词方式又有四种不同实现的方法：BPE、Unigram、WordPiece、SentencePiece

不负韶华ღ·2023-11-21 23:57

NLP-分词器：SentencePiece【参考Chinese-LLaMA-Alpaca在通用中文语料上训练的20K中文词表并与原版LLaMA模型的32K词表进行合并的代码】

背景随着ChatGPT迅速出圈，最近几个月开源的大模型也是遍地开花。目前，开源的大语言模型主要有三大类：ChatGLM衍生的大模型（wenda、ChatSQL等）、LLaMA衍生的大模型（Alpaca、Vicuna、BELLE、Phoenix、Chimera等）、Bloom衍生的大模型（Bloomz、BELLE、Phoenix等）。其中，ChatGLM-6B主要以中英双语进行训练，LLaMA主要以

u013250861·2023-11-16 17:00

LLM大模型之基于SentencePiece扩充LLaMa中文词表实践

LLM大模型之基于SentencePiece扩充LLaMa中文词表实践目前大模型的词表和分词器都是基于SentencePiece工具实现的，比如LLaMa，BLOOM，ChatGLM，Baichuan等

Glan格蓝·2023-11-16 17:56

LLaMA模型之中文词表的蜕变

在将LLaMA系列模型用于中文语言时需要进行中文词表扩充，基于sentencepiece工具训练，产生新的词表，然后与原始词表合并得到一个新词表。本文将LL

hj_caas·2023-11-16 17:25

基于sentencepiece工具和unicode编码两种编码分词的word2vec（CBOW，Skip-gram）词向量训练，并结合TextCNN模型，替换初始词向量进行文本分类任务

基于sentencepiece工具和unicode编码两种编码分词的word2vec（CBOW，Skip-gram）词向量训练，并结合TextCNN模型，替换初始词向量进行文本分类任务博主这次做的实验很难

Mr Gao·2023-11-02 22:25

LLaMA加载时遇见：ValueError: Tokenizer class LLaMATokenizer does not exist or is not currently imported.

pipinstalltransformers[sentencepiece]

hj_caas·2023-11-02 08:30

【深度学习】【NLP】如何得到一个分词器，如何训练自定义分词器：从基础到实践

分词算法使用Python训练分词器步骤1：选择分词算法步骤2：准备训练语料步骤3：配置分词器参数步骤4：训练分词器步骤5：测试和使用分词器代码示例：使用SentencePiece训练分词器分词算法的训练要素

XD742971636·2023-10-27 16:53

pip:Could not find a version that satisfies the requirement sentencepiece (from versions: none)

一、问题：在安装albert的python环境时出现如下错误ERROR:Couldnotfindaversionthatsatisfiestherequirementsentencepiece(fromversions:none)ERROR:Nomatchingdistributionfoundforsentencepiece错误原因：出现这个问题的原因是python国内网络不稳定，直接导致报错解

空城老祖·2023-10-26 19:30

大语言模型之十五-预训练和监督微调中文LLama-2

这篇博客是继《大语言模型之十二SentencePiece扩充LLama2中文词汇》、《大语言模型之十三LLama2中文推理》和《大语言模型之十四-PEFT的LoRA》前面博客演示了中文词汇的扩充以及给予

shichaog·2023-10-04 01:07

BPE、WordPiece和SentencePiece

1.背景与基础在使用GPTBERT模型输入词语常常会先进行tokenize，tokenize具体目标与粒度是什么呢？tokenize也有许多类别及优缺点，这篇文章总结一下各个方法及实际案例。tokenize的目标是把输入的文本流，切分成一个个子串，每个子串相对有完整的语义，便于学习embedding表达和后续模型的使用。tokenize有三种粒度：word/subword/charword/词，词

Jarkata·2023-10-03 22:05

大语言模型之十三 LLama2中文推理

在《大语言模型之十二SentencePiece扩充LLama2中文词汇》一文中已经扩充好了中文词汇表，接下来就是使用整理的中文语料对模型进行预训练了。这里先跳过预训练环节。

shichaog·2023-09-29 16:52

大语言模型之十二 SentencePiece扩充LLama2中文词汇

大语言模型的发展潜力已经毋庸置疑了，如何让中文大语言模型更适合中小公司使用这是一道难题。在模型的选择上我们倾向于选择国外的LLama或者BLoom之类的，而不是百川之类的中文大模型，原因在于从基建到框架到数据国外的开源资料非常多，比如HuggingfaceTransformer、微软的DeepSpeed、meta的LLama、Pytorch，Google的colab、TensorFlow、BERT

shichaog·2023-09-28 07:50

利用sentencepiece训练中文分词器，并与LLaMA分词器合并

零、数据下载、处理#!/usr/bin/envpython#-*-coding:utf-8_*-"""@description:搜集多个数据集合并数据集todo"""importglobfromtqdmimporttqdmimportjsonimportjsonimportosfromtqdmimporttqdmfromzhconvimportconvert#===================

u013250861·2023-09-27 14:21

LLM-大模型训练-步骤(一)：词表扩充【sentencepiece】

在通用中文语料上训练了基于sentencepiece的20K中文词表并与原版LLaMA模型的32K词表进行合并排除重复的token后，得到的最终中文LLaMA词表大小为49953需要注意的是，在fine-tune

u013250861·2023-09-23 22:37

[NLP] LLM---扩充词表LLama2-构建中文tokenization

使用SentencePiece的除了从0开始训练大模型的土豪和大公司外，大部分应该都是使用其为当前开源的大模型扩充词表，比如为LLama扩充通用中文词表（通用中文词表，或者垂直领域词表）。

舒克与贝克·2023-09-13 17:24

使用自己的领域数据扩充baichuan模型词表（其他模型也一样）

环境jsonlines==3.1.0sentencepiece==0.1.99transformers==4.28.1项目结构其中tokenization_baichuan.py是直接从百川模型文件夹里复制过来的

ToTensor·2023-09-01 10:44

安装google后找不到google包的问题解决

问题描述安装包google：conda：官方源没尝试，国内源（清华）找不到对应的包pip：可以安装但是安装后，在使用时依然返回错误，调用sentencepiece时其引用依然找不到google包问题原因首先确定

masteryi-0018·2023-08-29 21:23

SentencePiece android ndk编译

LLaMa等LLM语言模型一般使用SentencePiecetokenizer，在端侧部署需要编译和使用其c++版本。在安卓平台使用NDK编译CMakeLists.txt需要进行一些修改：src/CMakeLists.txt如下位置加上log依赖，否则提示androidlog相关符号不存在。此外，入口处的CMakeLists.txt加上set(CMAKE_CXX_FLAGS_RELEASE"${C

Luchang-Li·2023-08-02 03:59

[玩转AIGC]sentencepiece训练一个Tokenizer(标记器)

目录一、前言二、安装三、自己训练一个tokenizer四、模型运行五、拓展一、前言前面我们介绍了一种字符编码方式【如何训练一个中英翻译模型】LSTM机器翻译seq2seq字符编码（一）这种方式是对一个一个字符编码，丢失了很多信息比如“机器学习训练”，会被编码为“机”，“器”，“学”，“习”，“训”，“练”，单独一个字符，丢失了关联性。对于英文句子，比如：Let’sdotokenization！，基

六五酥·2023-07-30 16:20

分词工具使用系列——sentencepiece使用

分词工具使用系列第一章sentencepiece使用第二章jieba工具使用文章目录分词工具使用系列前言——细说分词一、sentencepiece是什么？

不被定义的号·2023-07-27 09:29

论文笔记--SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural

论文笔记--SentencePiece:AsimpleandlanguageindependentsubwordtokenizeranddetokenizerforNeuralTextProcessing1

Isawany·2023-07-16 18:26

加载ChatGLM模型 RuntimeError: Internal: src/sentencepiece_processor.cc(1101) [model_proto-＞ParseFromArr

问题描述：加载ChatGLM模型RuntimeError:Internal:src/sentencepiece_processor.cc(1101)[model_proto-＞ParseFromArr问题原因

taotao033·2023-07-14 21:02

怎么让英文大预言模型支持中文？（一）构建自己的tokenization

代码地址：https://github.com/taishan1994/sentencepiece_chinese_bpePart1前言目前，大语言模型呈爆发式的增长，其中，基于llama家族的模型占据了半壁江山

西西嘛呦·2023-06-24 10:00

LLM：预训练语言模型finetune下游任务

安装依赖LLM：Transformers库_-柚子皮-的博客-CSDN博客还要安装accelerate>=0.12.0datasets>=1.8.0sentencepiece!

-柚子皮-·2023-06-20 07:34

Please make sure you have `sentencepiece` install

报错信息如下：ValueErrorTraceback(mostrecentcalllast)in()23model_checkpoint=“Helsinki-NLP/opus-mt-en-zh”---->4translator=pipeline(“translation”,model=model_checkpoint)5translator(“Defaulttoexpandedthreads”)/

jieshenai·2023-06-19 03:06

pip 安装包卡住 Building wheel for sentencepiece (setup.py) ...

在使用pip安装包的时候，会出现长时间卡住不动的情况Buildingwheelsforcollectedpackages:sentencepieceBuildingwheelforsentencepiece(setup.py)...这时候可以升级pip解决问题pipinstall--upgradepip

zhilaizhiwang·2023-04-17 21:10

huggingface tokenizers

功能多样：适用于BPE/byte-level-BPE/WordPiece/SentencePiece各种NLP处理模型可以完成所有的预处理：截断（Truncate）、填补（Pad）、添加模型需要的特殊标记

宁缺100·2023-04-01 03:16

NLP中的Tokenization

目录前言字粒度词粒度Subword粒度(1)BPE(2)UnigramLM(3)WordPiece(4)Sentencepiece总结前言当前最火的预训练模型大放异彩，但是在进行输入模型前，我们都需要将纯文本数学化

weixin_42001089·2023-02-01 11:36

opennmt-py+sentencepeice+ctranslate2训练及部署机器翻译模型

后续会出工作和学习中遇到的各种问题及解决方案（暂时只限NLP方向机器翻译方向）一、训练分词模型用sentencepiece进行分词git地址：https://github.com/go

陈仙女歪歪技术分享·2023-01-14 20:31

如何使用huggingface微调模型

1安装包pipinstalltransformers[sentencepiece]pipinstalldatasets2导入数据fromdatasetsimportload_datasetraw_datasets

明日何其多_·2023-01-05 05:31

Transformers学习笔记1. 一些基本概念和编码器、字典

预定义模型（2）使用方法3.Datasets查看有哪些公开数据集方法1：使用datasets包的list_datasets方法方法2：到网站查看二、一些编码器知识1.BPE算法2.WordPiece算法3.SentencePiece4

编程圈子·2022-12-20 09:00

使用sentencepiece模型替换词表

最近在用DeBERTa模型跑一些下游任务，了解到了sentencepiece模型，用于替代预训练模型中的词表。

Yore_999·2022-12-09 10:45

Transformer 理解Tokenizer

文章目录1.tokenizer1.介绍1.1Subwordtokenization1.Byte-PairEncoding(BPE)2.Byte-levelBPE3.wordpiece4.Unigram5.SentencePiece1

语译分西·2022-12-01 03:52

T5Tokenizer requires the SentencePiece library but it was not found in your environment.

出现错误:T5TokenizerrequirestheSentencePiecelibrarybutitwasnotfoundinyourenvironment.问题出现是因为我要使用T5TokenizerfromtransformersimportAdamW,T5ForConditionalGeneration,T5Tokenizer出现如下问题:解决方法:第一步:确实用最新的pip安装，否则可

CodeWang_NC·2022-11-30 05:58

SentencePiece python 实战

ModelTrainingTrainingisperformedbypassingparametersofspm_traintoSentencePieceTrainer.train()function.importsentencepieceasspm#trainsentencepiecemodelfrom`botchan.txt`andmakes`m.model`and`m.vocab`#`m.v

子燕若水·2022-11-22 16:50

Transformers 库安装

2.安装开发者版本pipinstalltransformers[sentencepiece]安装开发者版本，虽然会多花费一些时间和空间，但该版本会将所有依赖项一起安装

gxbz_572·2022-11-21 21:52

Python - 安装sentencepiece异常

在安装transformers库时，sentencepiece无法安装，如下：pip3install--usertransformers解决问题参考：Pipinstallsentencepiecefailure

SpikeKing·2022-11-16 18:13

自然语言处理之_SentencePiece分词

1、说明 SentencePiece是一个google开源的自然语言处理工具包。网上是这么描述它的：数据驱动、跨语言、高性能、轻量级——面向神经网络文本生成系统的无监督文本词条化工具。

xieyan0811·2022-05-23 07:55

BERT，XLNET分词方法bpe，unigram等介绍

BERT,XLNET等分词方法先给一个结论吧，BERT使用的是wordpiece的分词方法，XLNET和transformer-xl使用的是sentencepiece的切分方法。

彭伟_02·2020-12-20 22:15

使用Sentencepiece +CNN进行文本分类

1前言Sentencepiece是google开源的文本Tokenzier工具，其主要原理是利用统计算法，在语料库中生成一个类似分词器的工具，外加可以将词token化的功能；对比开源的分词器，它会将频繁出现的字符串作为词

烛之文·2020-11-23 11:51

Jetson Xavier NX部署PaddlePaddle框架

编译前准备工作2.首先编译安装NCCL3.编译安装PaddlePaddle4.测试方法三、JetsonXavierNX安装paddlehub1.paddlehub无法直接pip安装，报错如下2.源码编译安装sentencepiece3

PUZZER_Ball·2020-10-23 20:13

推荐频道