ACL2021论文收录列表:ACL-IJCNLP 2021
中文文本纠错paper&code列表:CTCResources/README_ZH.md (github.com)
中文处理文章集合:Special Interest Group on Chinese Language Processing (SIGHAN) - ACL Anthology
论文一:ACL2021
论文地址:https://aclanthology.org/2021.acl-long.233.pdf
仓库地址:https://github.com/liushulinle/PLOME
中文错误(近音字、近形字)
词嵌入模块中,使用字符嵌入(character embedding)、位置嵌入(position embedding)、语音嵌入(phonic embedding)、字形嵌入(shape embedding)。
字符嵌入与位置嵌入与BERT的输入一致
使用语音嵌入以及字形嵌入预训练模型,并且应用于下游任务中
语音嵌入(Unihan数据库):Unihan Database Lookup
字形嵌入(Chaizi数据库):https://en.wikipedia.org/wiki/Stroke_order
预训练与微调过程中:使用的损失函数是 语音嵌入损失 与 字形嵌入损失的 联合预测
数据集:
预训练数据集:wiki2019zh数据集(100w中文wiki语料)和300w篇新闻文章
fine-tuning数据集:2013、2014、2015年的SIGHAN数据集构成
中文混淆集(近音字、近形字)
在预训练过程中,使用困惑集中的单词来对mask的单词进行替换
Chinese Spelling Check Evaluation at SIGHAN Bake-off 2013
论文地址:https://aclanthology.org/W13-4406.pdf
对比方法:
Spelling Error Correction with Soft-Masked BERT
https://aclanthology.org/2020.acl-main.82.pdf
SpellGCN: Incorporating Phonological and Visual Similarities into Language Models for Chinese Spelling Check
https://aclanthology.org/2020.acl-main.81.pdf
实验部分:
论文二:ACL2021
论文地址:https://aclanthology.org/2021.acl-long.464.pdf
先前工作的不足:
利用拼音特征、字形特征、语音特征做信息融合、预测最终错别字结果
拼音特征抽取器:
字形特征抽取器:
数据集:
训练数据集:2013、2014、2015年的SIGHAN数据集、271K训练样例自动生成使用(OCR、ASR)
自动生成训练数据集paper:
测试数据集:2013、2014、2015年的SIGHAN数据集
中文繁体简体字转换工具:
OPENCC:GitHub - BYVoid/OpenCC: Conversion between Traditional and Simplified Chinese
对比方法:
Adaptable filtering using hierarchical embeddings for chinese spell check.
http://export.arxiv.org/pdf/2008.12281
SpellGCN: Incorporating Phonological and Visual Similarities into Language Models for Chinese Spelling Check
https://aclanthology.org/2020.acl-main.81.pdf
实验部分:
特征维度大小分析(论文解读):
On the Dimensionality of Word Embedding
https://arxiv.org/pdf/1812.04224.pdf
论文三:ACL2021(findings)
论文四:ACL2021(findings)
论文五:ACL2021(findings)
论文六:ACL2021(short)
论文七:ACL2021(short)