腾讯安全部门-大数据挑战赛-learner队伍(进入复赛)

赛题描述

      鼠标轨迹识别当前广泛运用于多种人机验证产品中,不仅便于用户的理解记忆,而且极大增加了暴力破解难度。但攻击者可通过黑产工具产生类人轨迹批量操作以绕过检测,并在对抗过程中不断升级其伪造数据以持续绕过同样升级的检测技术。我们期望用机器学习算法来提高人机验证中各种机器行为的检出率,其中包括对抗过程中出现的新的攻击手段的检测。

比赛数据

     本题目数据来源于某人机验证产品采集的鼠标轨迹,经过脱敏处理,数据分为3部分(数据量分别为3000条,10万,200万)。

腾讯安全部门-大数据挑战赛-learner队伍(进入复赛)_第1张图片

一、特征工程

1:

x和y两个一维坐标下,可以得到一组速度和一组加速度,计算最大最小平均值和方差  变异系数 中位数,这是22个特征

 

2:

二维坐标下,可以得到一组速度向量和一组加速度向量。一组速度向量可以先求 极径 的 最大、最小、平均值、方差、变异系数、中位数,还有 极角的5个,一共11个。一组加速度向量也同样是11个!

 

3:

再计算时刻t的间隔情况,最大最小平均值和方差变异系数,加上个数、中位数,这是7维特征,
4:

 

 

 后面(t时间分布,后1/5吧)一些点x方向的方差,(之前已经把所有点x方向的方差做出来了),另一个是 两者的差值

5:

将 one_fifth_x 这个特征连接在原先特征上面,然后求出 差值
6:
第一个点 到 第三个点之间的 时间段 在 整个时间段 所占有的比例
7:
2701~2900 最后一个点x方向上的速度 和 总体均值的差值

 

二、模型工程

1:使用xgb gbdt 随机森林 svm lightgbm这几种模型进行投票选择,最终选取阈值判断在0.5的几种模型的交集

三、提分点

1:这种对抗性比赛,一个很突出的特点是 负样本很少,所以在模型训练过程中针对这种问题有两种解决方案。一是不断从 预测集 中找出来负样本放在训练集中,而是训练一个一分类模型 one-svm class

 

 

你可能感兴趣的:(比赛,腾讯安全部门,大数据挑战赛)