2022年C题评阅要点
本题通过对古代玻璃制品的化学成分数据分析,研究有无风化玻璃制品成分的变化规律,以及高钾、铅钡两种玻璃类型的化学成分统计规律,并探索亚分类的方法,进而可以依据未知分类的文物化学成分对文物进行准确的分类。本题数据的主要特点是成分性,即各化学成分比例的累加和应100%,具有定和约束,在统计学上称为“成分数据”。同时由于定和约束,成分数据各变量之间具有明显的共线性,使得常规的统计分析方法失效。通常需要通过适当的变换解决这类问题,比如:中心对数比变换(Centered Log-ratio, CLR)等。
问题1 对玻璃文物表面风化与其类型、纹饰和颜色的关系进行分析,这是离散变量和连续变量的相关性分析、由风化点和未风化点的检测数据预测其风化前的化学成分含量的问题,需要分析风化与未风化两个总体的统计规律,通过总体之间的匹配进行预测。(1)数据预处理:无效数据去除,应避免对有效数据的删除:数据误差修正。(2)如果使用卡方检验,应注意其适用条件。(3)由于没有风化前后匹配的数据,采用简单的线性回归模型是不合适的。(4)应该充分考虑到成分数据的特点,简单地取均值不满足成分性的约束。
问题2 依据表单1、 表单2数据,分析高钾玻璃、铅钡玻璃的分类规律,这是-一个有 监督的分类问题:亚类划分是一一个无监督分类问题:敏感性分析是考察分类方法的稳定性。(1)按高钾、铅钡两大类或者按四类( 高钾无风化、高钾风化、铅钡无风化、铅钡风化)进行分类规律的讨论均可。(2)对分类效果应给出相应的评价:对亚类划分结果应能明确阐述其亚类特征,解释其重要成分。(3)鼓励考虑成分变量的选择对分类结果的影响。(4)应该充分考虑到成分数据特点,关注样本之间距离的合理性。
问题3 对附件表单 3中未知类别玻璃文物的化学成分进行分析,鉴别其所属类型,这是一个判别问题。敏感性分析是考察判别方法的稳定性。(1)基于高钾、铅钡两类或者按四类( 高钾无风化、高钾风化、铅钡无风化、铅钡风化)进行判别均可。(2)应该充分考虑到成分数据特点,关注判别方法的合理性。(3)参考结果
问题4 针对不同类别的玻璃文物样品,分析其化学成分之间的关联关系,并比较不同类别之间的化学成分关联关系的差异性,这是一个化学成分的相关性分析问题。针对不同类别的玻璃文物样品,分析其化学成分之间的关联关系,并比较不同类别之间的化学成分关联关系的差异性,这是-一个化学成分的相关性分析问题。
注(1)该问题是一个小样本的统计分析问题,应注意机器学习方法的适用性。(2)对围绕成分数据特点来研究问题的,应该重点关注,鼓励加分。