详解Keras3.0 Data loading: Text data loading

text_dataset_from_directory

用于从目录中读取文本文件并创建一个数据集。这个函数可以自动将文本文件转换为整数序列,以便在神经网络中使用。

keras.utils.text_dataset_from_directory(
    directory,
    labels="inferred",
    label_mode="int",
    class_names=None,
    batch_size=32,
    max_length=None,
    shuffle=True,
    seed=None,
    validation_split=None,
    subset=None,
    follow_links=False,
)
参数说明 
  • directory包含文本文件的目录路径。
  • labels="inferred"默认值为"inferred",表示Keras将尝试从文件名中推断标签。如果需要手动指定标签,可以将此参数设置为一个整数列表或字典。
  • label_mode="int"默认值为"int",表示标签将被编码为整数。如果需要使用其他模式(如"categorical"),可以将此参数设置为相应的字符串。
  • class_names=None可选参数,用于指定类别名称。如果提供了类别名称列表,数据集将使用这些名称进行编码。
  • batch_size=32每个批次中的样本数量。
  • max_length=None可选参数,用于限制每个样本的最大长度。如果未指定,则使用文件中最长的样本作为最大长度。
  • shuffle=True是否在每个epoch开始时对数据进行洗牌。
  • seed=None随机数生成器的种子,用于确保可重复的结果。
  • validation_split=None可选参数,用于指定验证集的比例。如果提供了值,将从训练集中划分出相应比例的数据作为验证集。
  • subset=None可选参数,用于指定要加载的子集("training"、"validation"或"testing")。
  • follow_links=False是否跟随符号链接。如果为True,将加载符号链接指向的文件;如果为False,将加载实际文件。
示例1
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences


#定义一个函数来创建数据集
def create_dataset(directory, num_words=None, sequence_length=100):
    # 使用Tokenizer对文本进行编码
    tokenizer = Tokenizer(num_words=num_words)
    tokenizer.fit_on_texts(directory)
    sequences = tokenizer.texts_to_sequences(directory)

    # 对序列进行填充,使它们具有相同的长度
    padded_sequences = pad_sequences(sequences, maxlen=sequence_length)

    return padded_sequences


#使用create_dataset函数创建数据集,并将其分为训练集和验证集
train_data = create_dataset('path/to/train/directory')
val_data = create_dataset('path/to/validation/directory')


#使用keras.utils.text_dataset_from_directory函数创建数据集
train_dataset = keras.utils.text_dataset_from_directory(
    'path/to/train/directory',
    batch_size=32,
    sequence_length=100,
    validation_split=0.2,
    subset='training',
    seed=42,
    class_mode='categorical'
)

val_dataset = keras.utils.text_dataset_from_directory(
    'path/to/validation/directory',
    batch_size=32,
    sequence_length=100,
    validation_split=0.2,
    subset='validation',
    seed=42,
    class_mode='categorical'
)
示例2 
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import text_dataset_from_directory

# 设置参数
directory = 'path/to/your/directory'  # 指定包含文本数据的目录路径
batch_size = 32  # 每个批次中的样本数量
max_length = 100  # 每个样本的最大长度

# 创建数据集
train_dataset = text_dataset_from_directory(
    directory,
    batch_size=batch_size,
    max_length=max_length,
    shuffle=True,
    validation_split=0.2,
    subset='training',   #设置subset='training',表示只加载训练集的数据
)

val_dataset = text_dataset_from_directory(
    directory,
    batch_size=batch_size,
    max_length=max_length,
    shuffle=True,
    validation_split=0.2,
    subset='validation',   #设置subset='validation',表示只加载验证集的数据
)

你可能感兴趣的:(深度学习,机器学习,人工智能,keras)