基于BERT+BiLSTM+CRF模型与新预处理方法的古籍自动标点

摘要

古文相较于现代文不仅在用词、语法等方面存在巨大差异,还缺少标点,使人难以理解语义。采用人工方式对古文进行标点既需要有较高的文学水平,还需要对历史文化有一定了解。为提高古文自动标点的准确率,将深层语言模型BERT与双向长短记忆网络和条件随机场模型(BiLSTM+CRF)相结合建立新模型,并提出新的数据预处理方法。该模型在古文自动标点上的各项性能指标均能达到85%左右,比常用方法提高了8%左右。同时,该模型也表现出较好的泛化性能,即使在从未训练和预测过的古文数据集上各项指标也能达到78%左右。实验结果表明,该模型和新的预处理方法不仅能够更好地学习古文的语义信息和上下文关联信息,还能够学习标签的规范信息。

0 引言

中华文明源远流长,流传下很多古籍文本,涵盖了政治、历史、哲学、文学、医学等多方面内容。通过对古籍文本进行整理和学习,现代人能够了解并学习古人的智慧,更加准确地认识历史。中文古籍文本一般不添加标点符号1。韩愈在《师说》中云

你可能感兴趣的:(网络通信安全及科学技术专栏,bert,人工智能,深度学习)