2022年第十一届小美赛C题 全保姆教程及完整代码

哈喽大家好,本次给大家提供的是小美赛C题完整的解题思路及代码,所有视频跟代码都为本人亲自编写,代码及视频都以加上原创标识,抄袭必究。请认准原创:不知名数学家小P.

本题的答疑以及助攻内容文档如下:

2022小美赛C题保姆级代码

视频思路已经发放

点击此处观看

C 题:人类活动分类

2、 问题与思路分析
1. 请设计一套特征和一个有效的算法,以便从这些磨损传感器的数据中分类19 种类型的人体行为。
对数据进行整理,合并,汇总成为X,Y,如下所示,是我出来汇总好的数据,我多增加了2个变量,其中people用于标识实验人员,Behavior用于标识人体行为。

2022年第十一届小美赛C题 全保姆教程及完整代码_第1张图片


2. 由于数据的高成本,我们需要使模型在有限的数据集下具有良好的泛化能力 。我们需要具体地研究和评估这个问题。请设计一种可行的方法来评估您的 模型的泛化能力。
泛化能力是模型对未知数据的预测能力。大白话来说就是,模型训好了,放到实际场景中去使用,会不会掉链子,还是能达到跟训练时一样的效果。泛化能力的本质就是反映模型有没有对客观世界做真实的刻画,还是发生了过拟合。一般评价模型的泛化能力有2种方式:
1.留出法。
对于训练集、测试集的划分,要尽可能保持数据分布的一致性,也就是保持原有的类别比例。一般使用8/2到7/3的样本用于训练,剩下的样本用于测试。
2.交叉验证法
交叉验证,顾名思义,要对数据集进行多次分割。与我们之前介绍过的一次性将数据集分成训练集和测试集想比较,交叉验证更为稳定。我们一般常用的是k折交叉验证。
在使用k折交叉验证时,我们将整个数据集分成k份,k通常取5或者10。
然后将第1份作为测试集,其他份作为训练集;接下来将第2份作为测试集,其他份作为训练集;不断重复以上步骤,直到每一份数据都作为过一次测试集。
这里我采用留出法

2022年第十一届小美赛C题 全保姆教程及完整代码_第2张图片


3. 请研究并克服过拟合问题,使您的分类算法能够广泛应用于人的动作分类问题。
过拟合:训练集表现效果很好,测试集表现效果很差
出现过拟合的原因:样本量不足、特征过少等
我们这里数据集有114w,因此样本量不缺,而且训练集和测试集的准确率都很好,所以我们可以用2个模型来对比解决,也就是我们先用一个垃圾一些的模型,例如逻辑回归、贝叶斯分类等,然后这时候发现模型准确率低,再用优秀的模型,例如XGBOOST、神经网络等,进而说明我们通过换更合适的模型解决了过拟合问题。

你可能感兴趣的:(数学建模,人工智能)