龙芯loongarch64服务器编译安装tokenizers

1、简介

        Hugging Face 的 Tokenizers 库提供了一种快速和高效的方式来处理(即分词)自然语言文本,用于后续的机器学习模型训练和推理。这个库提供了各种各样的预训练分词器,如 BPE、Byte-Pair Encoding (Byte-Level BPE)、WordPiece 等,这些都是现代 NLP 模型(如 BERT、GPT-2、RoBERTa 等)广泛使用的分词方法。

        龙芯的Python仓库安装的tokenizers运行时候会报如下错误No module named 'tokenizers.tokenizers':

龙芯loongarch64服务器编译安装tokenizers_第1张图片

本篇文章主要讲解下载龙芯loongarch64服务器上如何正确编译安装tokenizers。

2、安装

pip3 install tokenizers

直接拉取安装的时候会报如下错误:

龙芯loongarch64服务器编译安装tokenizers_第2张图片

这是在编译子模块maturin的时候报的错,可以查询以下两篇文章:

你可能感兴趣的:(龙芯loongarch64,自然语言处理,人工智能)