电工杯B题 人工智能对大学生学习影响的评价
人工智能简称AI,最初由麦卡锡、明斯基等科学家于1956年在美国达特茅斯学院开会研讨时提出。
2016年,人工智能AlphaGo 4:1战胜韩国围棋高手李世石,期后波士顿动力公司的人形机器人Atlas也展示了高超的感知和控制能力。2022年,人工智能绘画作品《太空歌剧院》获得了美国科罗拉多州博览会艺术比赛一等奖。2023年3月16日,百度公司推出人工智能新产品“文心一言”。
为抢抓人工智能发展的重大战略机遇,国务院2017年发布《新一代人工智能发展规划》,指出科技强国要发挥人工智能技术的力量,部署构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国。教育部2018年发布《教育信息化2.0行动计划》,提出实现“智能化领跑教育信息化”行动指南,强调发展智能教育。
背景分析:这段背景介绍了人工智能(AI)的发展历程和一些重要事件,以及有关部门对人工智能在我国的发展前景和应用方向提出的战略规划和政策指导。没什么用
人工智能的发展对社会各个层面均有不同程度的影响,也影响着大学生的学习。为了解人工智能在不同侧面对大学生学习的影响情况,我们设计了调查问卷,详见附件1,调查反馈结果详见附件2。
背景分析:这道题目主要是让我们分析人工智能在不同侧面对大学生学习的影响情况,而需要的数据集就是附件1和2。后面会对这两个附件进行分析。
请根据你们感兴趣的某个侧面,结合附件1和附件2所给出的数据,建立相应的数学模型,分析人工智能对大学生学习的影响,解决以下问题:
1. 对附件2中所给数据进行分析和数值化处理,并给出处理方法;
问题一分析:第一问需要对附件2中所给数据进行分析和数值化处理,
观察附件2,发现有大量非数值型数据,那么需要对这些数据进行定量分析,也就是题目说的数值化处理。下面是处理方法:
1 标签编码
标签编码是将一组可能的取值转换成整数,从而对非数值型数据进行量化的一种方法。例如,在机器学习领域中,对于一个具有多个类别的变量,我们可以给每个类别赋予一个唯一的整数值,这样就可以将其转换为数值型数据。
2 独热编码 one hot
独热编码是将多个可能的取值转换成二进制数组的一种方法。在独热编码中,每个可能取值对应一个长度为总共可能取值个数的二进制数组,其中只有一个元素为1,其余元素均为0。例如,对于一个性别变量,可以采用独热编码将“男”和“女”分别转换为[1, 0]和[0, 1]。
3 分类计数
分类计数是将非数值型数据转换为数值型数据的一种简单方法。在分类计数中,我们根据某些特定属性(比如学历、职业等)来对数据进行分类,然后统计每个类别的数量或频率。例如,在调查问卷中,我们可以对某个问题的回答按照“是”、“否”和“不确定”三个类别进行分类,并计算每个类别的数量或频率。
4 主成分分析
主成分分析是将多维数据转换为低维度表示的一种方法。在主成分分析中,我们通过找到最能解释数据变异的主成分来对原始数据进行降维处理。这样就可以将非数值型数据转换为数值型数据。
然后就是数据分析了,也就是EDA(探索性数据分析),可以用箱形图剔除一场数据,然后进行可视化。下面对这两个部分进行介绍:
箱形图是一种常用的数据可视化工具,可以展示数据的分布情况和异常值。在箱形图中,箱体展示了数据的四分位数范围,而异常值则在箱体上下方显示为散点。
根据箱形图可以剔除异常数据的步骤如下:(由于有很多非数值型数据转化,所以这里也可以用预测算法,对你要判断的指标进行预测,看与真实值的差异)
l 绘制箱形图,并观察箱体上下方的散点是否存在明显偏离的数据点。在大多数情况下,异常值被定义为落在箱体上下方1.5倍四分位距之外的数据点。
l 确定异常值的位置和数量,然后将其从数据集中删除或进行修正。异常值的处理方法包括替换为均值或中位数、线性插值、使用模型进行预测等。
l 对处理后的数据重新绘制箱形图,以确保异常值已经被正确处理。
常见的EDA可视化方法:
l 直方图和密度图:展示数值变量的分布情况。
l 散点图:展示两个连续变量之间的关系。
l 箱线图:展示数值变量的分布情况和异常值。
l 条形图和饼图:展示分类变量的分布情况。
l 折线图:展示随时间或顺序变化的趋势。
l 热力图:展示不同变量之间的相关性。
l 散点矩阵图:展示多个变量之间的散点图矩阵。
l 地理图:展示地理位置数据和空间分布信息。
2. 根据你们对数据的分析结果选取评价指标,从优先级、科学性、可操作性等方面论述其合理性,并构建评价指标体系;
问题二分析:建议的评价类算法,有灰色综合评价法、模糊综合评价法对各个指标建立联系。选择评价指标的过程也就是对指标进行相关性分析或者降维,相关性分析常见的方法有:
l Pearson相关系数:用于度量两个变量之间的线性关系,其取值范围在-1到1之间,值越接近于1或-1表示相关性越强。
l Spearman秩相关系数:用于度量两个变量之间的单调关系(非线性但趋势相同),其基于等级或顺序数据进行计算,可以将数据转换为秩次,然后计算秩次间的相关系数。
l Kendall秩相关系数:用于度量两个变量之间的单调关系,与Spearman秩相关系数类似,但基于每个变量中所有可能的配对计算协调对数。
l 判别分析:基于统计模型,通过测量输入变量和输出变量之间的关联程度,以预测新的观测值的分类或标签。它通常用于有监督的学习任务,如分类和预测。
l 因子分析:一种无监督的降维技术,可用于发现多个变量之间的潜在结构和因素。它通过寻找共同方差和因子来解释数据中的变异性,并将原始变量转换为较少的因子,以便进行简化和解释。
数据降维的方法包括主成分分析(PCA)、线性判别分析(LDA)、局部线性嵌入(LLE)、t-SNE等。这些方法可以将高维数据压缩到较低维度,并且尽可能地保留原始数据的信息。其中,PCA和LDA是最常用的降维方法之一。PCA通过对协方差矩阵进行特征值分解来实现降维;而LDA是一种有监督的降维方法,它将数据投影到一个新的低维空间中,使得不同类别之间的距离尽可能大,同一类别内的距离尽可能小。LLE和t-SNE则更适用于非线性问题。
3. 建立数学模型,评价人工智能对大学生学习的影响,给出明确、有说服力的结论;
问题3-4及后续代码、论文等看文末
4.根据调查问卷的数据,结合你们对人工智能的了解、认知和判断,以及对未来人工智能发展的展望,写一份人工智能对大学生学习影响的分析报告,可以包括但不限于积极或消极的影响。
附件1.调查问卷
附件2.调查数据
选题建议如下:
2023五一数学建模竞赛(五一赛)选题建议_DS C君的博客-CSDN博客
有关思路、相关代码、讲解视频、参考文献等相关内容可以点击下方群名片哦!