利用sentencepiece训练中文分词器,并与LLaMA分词器合并

零、数据下载、处理

#!/usr/bin/env python
# -*- coding:utf-8 _*-
"""
@description: 搜集多个数据集 合并数据集 todo
"""
import glob

from tqdm import tqdm
import json
import json
import os

from tqdm import tqdm
from zhconv import convert



# =====================================================
# 中文wiki数据集
# =====================================================

# 中文wiki下载地址: https://dumps.wikimedia.org/zhwiki/
# 利用wikiextractor处理文本格式
# pip install wikiextractor
# -b 10M 其中10M是指单个文件允许的最大的占用硬盘的大小
# ./zhwiki 指输出数据存放文件夹
# 

你可能感兴趣的:(大模型(预训练模型),中文分词,llama,自然语言处理)