文末获取全部资料
摘要
近年来,随着人工智能(AI)技术的发展和广泛应用,其在教育领域的潜力和影响引起了广泛关注。本研究旨在通过一项全面的问卷调查,探讨AI学习工具在大学生学习过程中的影响。
在本项研究中,我们得到了一套详细的调查问卷,针对包含不同专业、年级、性别、性格等多个属性的大学生对于AI学习工具的使用态度、依赖程度、满意度等方面进行了深入的数据收集。对调查数据的分析使用了广泛认可的统计分析方法,包括频率分析、交叉表分析、卡方独立性检验等,以深化对学生行为和态度的理解。
我们通过对问卷调查数据的详细处理和分析,确定了一些关键的评价指标,包括学生对AI工具的接受度,对AI工具的依赖程度,对AI的满意度等。这些指标在很大程度上都与学生的学习效果有关,因此,从优先级、科学性、可操作性等方面来看,这些指标具有很高的合理性。
在对数据进行了深入分析和理解的基础上,我们建立了多元线性回归模型,以这些评价指标作为自变量,学习效果作为因变量。多元线性回归模型是一个广泛应用于社会科学和教育研究的模型,能够有效地处理多变量的关系。我们使用统计软件进行模型的建立和验证,并从统计显著性、解释力等方面对模型的质量进行了评估。
通过建立的多元线性回归模型,我们发现AI学习工具的使用态度、依赖程度和满意度在一定程度上对大学生的学习效果有影响。特别是对AI工具的接受度,对学习效果的影响更为显著。这说明,学生对AI工具的态度和使用习惯,可能会直接影响他们的学习效果。
然而,我们也发现,虽然AI工具在一定程度上能够提高学生的学习效率和成绩,但也存在一些挑战和问题。例如,一些学生可能过度依赖AI工具,这可能会导致他们的学习能力下降。
在对未来的展望中,我们认为AI技术在教育领域有着广阔的应用前景。不仅仅是作为学习工具,AI也可能作为评估工具、教学工具等多种角色出现在教育过程中。但同时,我们也需要看到,AI技术在教育领域的应用也面临着许多挑战,包括如何保护学生的隐私,如何确保AI工具的公正性,如何避免AI工具的滥用等。
关键词:人工智能,学习工具,多元线性回归,依赖程度
随着人工智能(AI)技术的快速发展,其在各个领域的应用日益广泛,教育领域也不例外。人工智能在教育中的应用为学生提供了新的学习方式和工具,对于大学生学习产生了深远的影响。
在过去几年中,人工智能在教育领域取得了显著的进展。一方面,AI技术被应用于智能教学系统、在线学习平台和学习辅助工具等方面,帮助学生进行个性化学习、自主学习和问题解决。另一方面,人工智能还被应用于教育评估、智能辅导和学生行为分析等方面,为教师提供更好的教学支持和决策依据。
这种人工智能在教育中的应用,也对大学生的学习产生了深远的影响。人工智能学习工具可以提供个性化的学习资源和指导,帮助学生更好地理解和掌握知识。它们还可以自动化和优化学习过程,提高学习效率和学习成果。同时,人工智能还可以进行智能评估和反馈,帮助学生及时发现和纠正学习中的问题。
然而,人工智能对大学生学习的影响是一个复杂的问题。虽然人工智能技术带来了许多积极的变革,但也面临着一些挑战和争议。例如,人工智能工具的可信度、安全性和合理使用等问题仍然需要认真思考和解决。因此,评价人工智能对大学生学习的影响,对于我们更好地理解和应用这一技术具有重要意义。
二、问题分析
附件2中的数据首先需要通过合适的数据预处理方法进行处理,包括数据清洗、数据转化等。一般来说,数据清洗包括处理缺失值、异常值和重复值等;数据转化则包括将类别数据数值化,例如对问卷调查的选项进行编码处理。对于题目中的单选选择题,我们可以将选项按照一定的规则转换为数值,例如“是”和“否”可以分别转换为1和0。对于多选选择题,我们采用二进制编码,例如ABC中选择了AC,则编码为101,其他的以此类推,此外,我们还可以计算各个选项的选择频率,这可以帮助我们了解学生对AI学习工具的总体接受程度、依赖程度和满意度。
依据数据分析结果,我们可以选择如下几个评价指标:学生对AI工具的接受度、依赖程度、满意度、使用频率和使用时间等。这些指标的优先级可以通过学生对AI工具的期望和实际使用情况来决定,比如,如果学生更关心AI工具的使用效果,则满意度的优先级可能会更高。科学性主要体现在每个指标都有明确的量化方法和评价标准。可操作性体现在指标的选择和设置都应以实际情况为依据,既要反映学生的实际需求,又要满足研究的目标。
为了评价人工智能对大学生学习的影响,我们可以建立多元线性回归模型。模型的因变量可以设置为学生的学习效果,自变量可以是上述的评价指标。模型的参数估计可以通过最小二乘法或最大似然估计法等方法进行。通过该模型,我们可以得出各个指标对学生学习效果的影响程度,从而给出明确、有说服力的结论。
结合问卷调查数据和模型分析结果,我们可以对人工智能对大学生学习的影响进行深入探讨。在报告中,我们应该明确指出人工智能对学生学习的积极影响,如提供丰富的学习资源、灵活的学习方式、个性化的学习推荐等。同时,也需要关注其可能带来的消极影响,比如过度依赖AI工具可能导致自我学习和思考能力的下降,以及一些学生可能对AI工具的操作感到困难或不方便。为此,我们可以提出一些具体的建议,比如开展AI教育,提高学生的AI素养;优化AI工具的设计,提高其用户体验;同时引导学生正确理解和使用AI工具,实现AI与人的有效融合。
针对本文提出的问题,我们做了如下模型假设:
线性关系假设:假设自变量(学生对AI工具的接受度、依赖程度和满意度)与因变量(学生的学习成绩)之间存在线性关系。这意味着自变量的变化对因变量的影响是线性的。
多重共线性假设:假设自变量之间不存在高度相关性,即它们之间的共线性较低。这样可以避免多重共线性对模型参数估计的不准确性。
残差的独立性和正态分布假设:假设模型的残差项(因变量与模型预测值之间的差异)在不同自变量取值下是独立的,并且服从正态分布。这是为了保证模型对数据的拟合程度和统计推断的准确性。
零条件均值假设:假设在模型的所有自变量取值下,残差的平均值为零。这意味着模型对因变量的预测是无偏的。
本文常用符号见下表, 其它符号见文中说明
5.1.1 数据处理及指标的选取
本文采用的数据来自附件二给出的统计数据。
数据预处理主要从以下三个方面进行:
(1)异常数据处理
我们首先对异常值进行检验,对整条记录进行匹配确定的重复记录值删除,确保整个记录数据点的唯一性;在对数据进行操作时,出现了由于数据类型不一致导致的崩溃,发现在本数据集中的属性值的数据类型出现不一致性,因此为了保证数据的属性值一致的要求,将少数数据类型的数据进行数据类型转化,对无法进行数据类型转化的数据进行删除;在对数据集进行可视化展示时发现,有部分统计值值出现长时间的一致现象,为了确保数据的可用性和真实性,将该现象时间长度占比总时间长度超过五分之一的流量记录进行删除。
(2)数据记录的缺失值处理
我们对数据进行数据时间点的统计,查看数据是否连续的,为了满足时间序列本身是连续、平滑的特性,针对缺失数据进行填补。常用的缺失值填充方法,有随机填补法、均值法、中位数法、众数法等数据填充,也有 K-最近邻(KNN)、回归预测法、期望值最大化方法(EM)等建模进行数据填充方法。在考虑到本数据集缺失值比重低,且构成的时间序列的周期长等特质,对单个数据点的缺失采用前后两个序列的平均值作为缺失数据填补;对多个数据点的缺失采用多重随机插补法;对数据集中连续缺失7天以上的数据进行弃用。
(3)数据标准化
数据标准化主要是将数据按照一定的比例缩放至固定的区间范围,一方面是可以将不同维度数据特征无量纲化,另一方面是数据标准化会降低数值计算的复杂度,进一步加快模型收敛的速度以及提升模型的准确性。在大数据规模或者神经网络模型当中,数据标准化则必不可少。但是数据标准化的在实际应用并非是只有好处,数据标准化也可能会带来预测结果的偏差,主要原因是在数据标准化后的预测结果也被缩放至固定的区间范围,失去了实际的数值意义,需要通过反标准化的方法还原,而偏差就在此时产生。
数据标准化的方法常用的有两种min-max标准化和 Z-Score 标准化,根据教育数据的特性选择 Z-Score 标准化,也叫标准差标准化,主要是基于均值和标准差对数据进行标准化,该标准化方法适用于该序列中的最大值和最小值未知的情况。
对于题目中的单选选择题,我们可以将选项按照一定的规则转换为数值,例如“是”和“否”可以分别转换为1和0。对于多选选择题,我们采用二进制编码,例如ABC中选择了AC,则编码为101,其他的以此类推。我们最终得到数据(文件名为:转换后数据.xlsx)
具体代码如下:
%% 数据处理
clc
clear
Data_test = readtable("附件2:调查数据.xlsx");
Data_cell = table2cell(Data_test);
LabelStr = Data_test.Properties.VariableDescriptions;
[m , n] = size(Data_test);
Data_out = zeros(m,n);
Data_out(:,1) = 1:1:m;
%将字符串变量转化为分类变量
for i = 2:22
DataLabel = Data_cell(:,i);
DataLabel_cat = categorical(DataLabel);
DataLabel_int = double(DataLabel_cat);
Data_out(:,i) = DataLabel_int;
end
mutiStr = {["学习、查资料","浏览新闻","收发邮件","娱乐游戏","聊天交友","资源下载","上网购物","其他"],
["真题全面","可以重复学习","资料全面"],
["学习的相关经验缺乏","专业疑难问题得不到解决","学习时间安排不充裕","不会正确的学习方法"],
["学习效果","学习资源","操作方便","学习费用"],
["软件安全级别","网络安全能力","个人信息安全","数据安全","运行安全","服务器安全"],
["知识来源的资格审核","知识库的更新频率","是否有定期的审核"],
["性能优越","知识面广","运行速度快","稳定","不收费"],
["教师传授","课后消化","评价反馈","其他"]};
Data_out2 = Data_out;
Data_muti = cell(m,length(mutiStr));
for i = 1:m
for j = 1:length(mutiStr)
strlist = mutiStr{j};
tempVal = 0;
tempVal2 = 0;
tempVal3 = "";
for k = 1:length(strlist)
str1 = Data_cell{i,j+23};
flag = contains(str1,strlist(k));
if(flag)
tempVal = tempVal + 2^(length(strlist) - k);
tempVal2 = tempVal2 + 10^(length(strlist) - k);
end
我们对部分数据进行可视化后得到如下图所示:
完整版本↓↓↓