中文文本纠错模型
这里提供三种文本纠错模型的实现
bert语言模型+字音字形相似度
correction_basic.py
缺点:
不能解决多字,少字问题
MLM
correction_mlm.py 利用bert的MLM训练机制实现纠错功能
输入: [CLS]错误句子[SEP][MASK][MASK]…[MASK][SEP]
输出: 正确句子
seq2seq
correction_seq2seq.py 使用文本生成的方式生成正确句子
输入: [CLS]错误句子[SEP][MASK][MASK]…[MASK][SEP
输出: 正确句子
* 缺点:推断速度比较慢
https://github.com/fushengwuyu/chinese_spelling_correction