一种中文作文自动评分方法及教辅系统的复现及步骤摘录

一、中文自动评分系统的构建方法

1、语料库构建步骤,用于构建中文作文语料库:

        待评分作文获取步骤:

        (1)获取待评分作文图片

        (2)进行中文识别,得到作文文本

        (3)直接获取待评分作文文本

2、浅层特征提取步骤,基于语料库提取作文的浅层特征

        浅层特征提取步骤:

       (1)处理待评分作文文本,得到作文文本的分词结果;

       (2)根据分词结果,统计待评分作文的浅层特征;(具体包括句子数量、句子平均长度、全文字数、比喻句数量、拼音数量、词汇等级。)

3、深层语义特征提取步骤,基于语料库提取作文的深层语义特征,包括错别字特征和语法错误特征

        深层语义特征提取步骤:提取待评分作文的深层语义特征,包括错别字特征和语法错误特征;

一种中文作文自动评分方法及教辅系统的复现及步骤摘录_第1张图片

 

        (1)提取错别字特征具体包括:

                a.采用概率分词模型对作文进行分词;

                b.根据分词结果,将作文文本与错别字识别语料库进行对比,得到可疑词集合;

                c.将可疑词集合与错别字纠正语料库进行对比,得到候选词集合;

                d.对候选词集合计算语义混淆度,取混淆度最小的词语作为错别字纠正结果。

        (2)提取语法错误特征具体包括:

                利用语料库训练词向量,将词向量输入Bi-LSTM神经网络模型,训练得到标注序列,即为语法错误结果。(语法错误特征具体包括四种类型:冗余单词、缺失单词、错误单词选择、无序单词。)

        (3)还包括:

                a.拼音转换步骤,用于识别待评分作文中的拼音并将其转换为相应的汉字。

                b.主题提取步骤,用于提取待评分作文中隐含的主题。

4、回归步骤,用于将提取的浅层特征、深层语义特征结合并采用随机森林拟合,得到作文的评分结果

        (1)评分步骤:

                将提取的浅层特征、深层语义特征结合并采用随机森林拟合,得到待评分作文的评分结果。

二、中文自动评分系统的模块

待评分作文获取模块:获取待评分作文图片,进行中文识别,得到作文文本;或者直接获取待评分作文文本

浅层特征提取模块:用于处理待评分作文文本,得到作文文本的分词结果;根据分词结果,统计待评分作文的浅层特征

深层语义特征提取模块:用于提取待评分作文的深层语义特征,包括错别字特征和语法错误特征

评分模块:用于将提取的浅层特征、深层语义特征结合并采用随机森林拟合,得到待评分作文的评分结果

原专利链接:一种中文作文自动评分方法及教辅系统https://pss-system.cponline.cnipa.gov.cn/documents/detail?prevPageTit=chagnguiicon-default.png?t=M276https://pss-system.cponline.cnipa.gov.cn/documents/detail?prevPageTit=chagngui

 

你可能感兴趣的:(nlp,深度学习)