Jellyfish: A Large Language Model for Data Preprocessing

本文是LLM系列文章,针对《Jellyfish: A Large Language Model for Data Preprocessing》的翻译。

Jellyfish:一种用于数据预处理的大型语言模型

  • 摘要
  • 1 引言
  • 2 前言
  • 3 Jellyfish的框架
  • 4 基线模型的选择以及预调整
  • 5 DP调整
  • 6 Jellyfish用于数据处理
  • 7 对不可见任务的扩展
  • 8 实验
  • 9 相关工作
  • 10 结论

摘要

作为数据挖掘管道中的关键步骤,数据预处理(DP)是将原始数据转换为便于处理的干净格式的过程。虽然存在各种DP任务,如错误检测和实体匹配,但大多数当前的DP解决方案仅限于一个或两个特定任务。大型语言模型(LLM)的出现,特别是那些对自然语言提示做出响应的模型,激发了人们对开发适用于广泛DP任务的通用解决方案的兴趣。然而,该领域的现有方法通常依赖于OpenAI的GPT API,这引发了不可避免的数据泄露问题。
在本文中,我们介绍了Jellyfish,一种开源LLM,作为DP的通用任务求解器。Jellyfish建立在Llama 2-13B模型的基础上,利用几个典型DP任务的数据集进行指令调整,包括错误检测、数据插补、模式匹配和实体匹配,并为其他任务提供可推广性。
值得注意的是,Jellyfish可以在具有130亿参数的本地、单个和低价GPU上运行,确保数据安全并实现进一步的调优。它在理解自然语言方面的熟练程度允许用户手动编写DP任务的指令。与许多严重依赖先验知识的现有方法不同,Jellyfish在调整过程中获取领域知识,并在推理过程中集成可选的知识注入。Jellyfish的一个显著特点是它的解释器,它阐明了它的输出决策。
为了构建Jellyfish,我们开发了一系列预调整和DP调整技术。Jellyfish配备了一个实例序列化器和一个知识注入器,前者自动将原始数据转换为模型提示,后者可选地引入特定于任务和数据集的知识,以增强DP性能。我们使用一系列真实数据集对Jellyfish进行的评估显示,与最先进的方法相比,Jellyfish具有竞争力,并且对看不见的任务具有很强的可推广性。Jellyfish的性能可以与GPT系列模型相媲美,与GPT-3.5相比,其解释器提供了增强的推理能力。此外,我们的评估强调了Jellyfish建造技术的有效性。
我们的模型可在Hugging Face上获得:https://huggingface.co/NECOUDBFM/Jellyfish.

1 引言

2 前言

3 Jellyfish的框架

4 基线模型的选择以及预调整

5 DP调整

6 Jellyfish用于数据处理

7 对不可见任务的扩展

8 实验

9 相关工作

10 结论

我们介绍了Jellyfish,一种专门为DP设计的LLM。Jellyfish以Llama 2-13B为基础,针对四个任务调整了说明,概括为通用DP任务求解器。凭借其130亿个可进一步调整的参数,它可以在不影响数据安全的情况下在本地GPU上运行。它擅长理解自然语言,使用户能够手动编写处理DP任务的指令。与许多严重依赖先验知识的现有方法不同,Jellyfish在调整过程中获取领域知识,并在推理过程中使用可选的知识注入。一个显著的特点是它的解释器,它为它的输出提供解释。我们使用DP任务常用的公共数据集集合对Jellyfish进行了评估,并展示了其相对于现有解决方案的竞争力、对新任务的可推广性以及卓越的推理能力。评估还证明了我们构建Jellyfish的技术的有用性,如预调整和知识注入。
未来的研究方向包括用来自更广泛领域的数据丰富Jellyfish的DP调优,并将Jellyfile扩展到包含更多DP任务,如数据修复和数据转换。另一个感兴趣的领域是将DP任务求解模型与解释器模型相集成。此外,我们正在考虑开发一个量化或蒸馏的模型来提高处理速度,以及一个用于自适应、会话、无代码DP管道的多智能体系统。

你可能感兴趣的:(LLM,语言模型,人工智能,自然语言处理)