231112-中文错别字识别与纠正问题的大模型与小模型调研

A. 引言

当前,以ChatGPT为代表的大语言模型(Large Language Models, LLMs)正引领着新一轮工业革命。ChatGPT最开始的研究领域隶属于NLP的一个子问题,其输入是text,输出也是text。在从文本输入到文本输出的诸多应用场景中,中文错别字及语法纠正,有着诸多潜在的应用场景及实用价值。然而,大模型在这一领域尚存在研究不足。

带错别字或语法错误的输入文本
AI模型/LLM模型/ChatGPT模型等
错别字纠正或语法纠正后的输出文本

B. 实验方法

  • 数据构造:从网络找一篇合同文件,并通过人工的方式故意将正确中文改成错误中文。

B.1 测试过程

文件上传
提示输入
回答分析
  • 提示语句
    1. 你是一个中文合同审核专员。
    2. 请逐行阅读文章中的每一话。
    3. 如果这句话中有错别字,请通过括号的形式指出来。
    4. 这是一个参考的原文例子:本合同文本供用人单位与建立劳动关系的劳动者签定劳动合同时使用。
    5. 你要输出的结果格式是:本合同文本供用人单位与建立劳动关系的劳动者签定(签订)劳动合同时使用。

B.2 平台对比:

  • ChatGPT4
  • AskYourPDF
  • 讯飞星火
  • 智谱清言
  • 文心一言

C. 结果分析

C.1 实验结果

OpenAI:ChatGPT >>> 失败

231112-中文错别字识别与纠正问题的大模型与小模型调研_第1张图片

AskYourPDF>>> 失败

231112-中文错别字识别与纠正问题的大模型与小模型调研_第2张图片

科大讯飞:讯飞星火>>> 失败

百度:文心一言>>> 失败

原文:甲乙双方依法参加社会保险,甲方为乙方办理有关社会保险手续,并承担相应社会保险义务,乙方应当缴纳的社会保险费由甲方从乙方的工资中代扣代缴。

修改:甲乙双方依法参加社会保险,甲方为乙方办理有关社会保险手续,并承担相应社会保险义务,乙方应当缴纳的社会保险费由甲方从乙方的工资中代扣代缴。”

智谱AI:智谱清言>>> 失败,无法访问

231112-中文错别字识别与纠正问题的大模型与小模型调研_第3张图片

C.2 实验分析

本质

  • 大语言模型本质上仍然是一个深度学习模型。

数据

  • 深度学习模型在既定的任务Task上需要大量数据input输入数据Xoutput输出数据Y,从而构成输入 X → Y X \rightarrow Y XY的映射关系,进而服务于单任务学习或多任务的学习。

猜测

  • 上述大模型,在文件错别字识别与语法纠正任务上,可能缺少相应的中文数据集的训练,故而并不适用于错别字及语法的纠正任务。

局限

  • 本文及实验部分仅为初步实验结果,在提示词及API调用阶段可能会进一步提升不同平台的模型分析性能。

D. 未来展望

对于中文错别字识别及语法纠正分析的任务,实际上已有一些商业软件或开源项目。这些软件或项目本身并不依赖大模型,就可以在一定程度上取得不错的效果。如果将大模型与这些小模型结合,可能会给用户更好的体验效果。

D.1 现有模型

商用软件

  • 百度AI开放平台 - 百度提供了一系列的语言处理工具,包括错别字检测和纠正。
    • 百度AI开放平台-全球领先的人工智能服务平台
  • 腾讯云自然语言处理 - 腾讯云的NLP服务中也包含文本校对功能,能够识别和纠正错别字。
    • NLP 服务_自然语言处理_智能文本处理 - 腾讯云
  • 阿里云机器学习平台 - 阿里云提供的机器学习服务中包括文本分析工具,可能包含错别字识别功能。
    • 人工智能平台 PAI_机器学习建模训练部署_智能推荐_人工智能-阿里云

开源项目

  • HanLP - HanLP是一个由哈工大社会计算与信息检索研究中心开发的自然语言处理库,支持包括错别字检测在内的多种功能。
    • GitHub - hankcs/HanLP
    • HanLP官网
  • FudanNLP - 复旦大学自然语言处理实验室开发的NLP工具包,包含中文错别字识别功能。
    • GitHub - FudanNLP/fnlp
    • The Fudan Lab For Natural Language Processing
  • Jieba - Jieba是一个流行的中文分词工具,虽然主要用于分词,但也可以用于一些基本的错别字识别。
    • GitHub - fxsjy/jieba: 结巴中文分词
  • THULAC - 清华大学的一个轻量级中文词法分析工具,可以用于中文错别字的识别。
    • THULAC:一个高效的中文词法分析工具包
    • GitHub - thunlp/THULAC-Python
  • Pycorrector: 这是一个基于Python3.6开发的中文文本纠错工具,依靠语言模型检测错别字位置,并通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征进行纠错。Pycorrector支持规则和端到端模型,能够处理包括谐音字词、混淆音字词、字词顺序颠倒、字词补全、形似字错误、中文拼音全拼、中文拼音缩写以及语法错误等多种常见错误类型​​​​。
    • GitHub - shibing624/pycorrector: pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,LLaMA等模型应用在纠错场景,开箱即用。
  • FASPell: 这个项目使用BERT进行预训练和微调,然后通过CSD过滤器得到最终结果。它支持简体中文文本、繁体中文文本、人类论文以及OCR结果等多种类型的文本​​。
    • GitHub - iqiyi/FASPell: 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker (Chinese Spell Check / 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)
  • YoungCorrector: 这是基于Pycorrector改造的一个项目,实现了基于纯规则的纠错系统。它专注于提供更多基于规则的纠错选项​​。
    • GitHub - hiyoung123/YoungCorrector: 基于规则的文本纠错系统。

这些工具和项目各有特点,适用于不同的应用场景。商用软件通常提供更全面的服务和支持,而开源项目则提供了更大的灵活性和定制化的可能性。在选择时,商用软件如百度的文本纠错工具适用于更广泛的商业应用场景,而开源项目则为研究人员和开发者提供了更多的定制化和研究机会。

D.2 后续调研

  • 针对上述商业软件及开源项目,将做进一步的实验分析,整理、汇总并更新。

D.3 未来模型

基本范式

  • 未来Agent-Based LLMs将通过大模型,对用户的需求进行任务拆解,随后交付给不同的Agents(小模型、系统、或API)进行执行,随后Agents会将执行的结果返回给中央大模型,并按照用户需求的格式,进行回复呈现。

结合方向

  • 在未来,大模型+小模型的基本范式,将同样适用于中文错别字识别及语法纠正的任务之中。

你可能感兴趣的:(LLM,chatgpt,llm,ai,人工智能)