基于机器学习的古代汉语切分标注算法及语料库研究(毕业设计包含完整代码+论文+资料ppt)

数据来源及预处理

实验所用的数据集为从网络的开放数据库下载的不同年代的古籍。根据古籍所处具体时期的不同,我们从各个时期中选择了部分书籍进行实验。将其分为成了不连续的几个时间段:春秋战国时期、后汉时期、南北朝时期、宋朝时期及明清时期五个时间段并分别使用 T1、T2、T3、T4 以及 T5 表示,对应关系如下表所示。

表 3-1 时间标签与年代对应表

时间标签

年份

你可能感兴趣的:(计算机毕设项目大全,python,汉语切分,计算机毕设)