2020首届数字四川创新大赛_诈骗电话识别数据统计分析(一)

1.竞赛背景

近年来,通过拨打电话、群发短信实施诈骗的违法行为一直困扰着手机用户,给移动手机用户造成了困扰甚至金钱的损失,如何有效防护诈骗电话对用户隐私、财产造成的威胁,成为公安急需解决的问题,也是四川移动提升用户满意度、保护用户权益需要高度关注的问题。

        通过诈骗电话号码的通信行为,识别诈骗电话,及时关停诈骗号码,成为运营商与公安部门合作的持续的工作,虽取得一定成绩,但诈骗方式的不断翻新,给诈骗电话的准确识别带来了持续算法挑战。

2.任务

基于用户通信行为数据的诈骗电话识别,将针对诈骗电话与正常用户在语音、短信、上网行为数据的差异,构建诈骗电话识别算法,快速准确识别出诈骗电话,供公安部门与运营商及时关停诈骗号源,打击诈骗犯罪行为。选手需自行分析脱敏样本数据,找出规律,构建识别算法。

3.数据详情

本次主要对user和app流量表进行可视化统计分析。

2020首届数字四川创新大赛_诈骗电话识别数据统计分析(一)_第1张图片

2020首届数字四川创新大赛_诈骗电话识别数据统计分析(一)_第2张图片

4.用户表可视化分析

4.1数据整体分布情况

2020首届数字四川创新大赛_诈骗电话识别数据统计分析(一)_第3张图片

其中0共计4144条数据,占比67.87%,1共计1962条数据,占比32.13%。

4.2手机卡个数分布

随着用户手机卡个数的增多,用户的诈骗率也随之增高,基本上处于稳步增长的趋势。

2020首届数字四川创新大赛_诈骗电话识别数据统计分析(一)_第4张图片

4.3城市分布情况

通过城市之间的对比,发现数据集中分布在成都地区,占比相对较高,通过城市间对比发现:

  • 城市为空的,诈骗概率较高;
  • 内江、凉山、广元、攀枝花、自贡、阿坝、雅安等地区诈骗率相对较低。

2020首届数字四川创新大赛_诈骗电话识别数据统计分析(一)_第5张图片

4.4成都分布情况

下图为成都各分公司分布情况概览,整体分布较为均匀,如浦江分公司、龙泉驿分公司等诈骗率较低。

2020首届数字四川创新大赛_诈骗电话识别数据统计分析(一)_第6张图片

4.5用户消费分布

用户当月消费记录为空的,基本上为诈骗用户,可能是诈骗用户手段比较高超,三大通讯公司采集不到数据。哈哈

2020首届数字四川创新大赛_诈骗电话识别数据统计分析(一)_第7张图片

4.6消费分布

下图为高消费诈骗分布,消费较高的可能该诈骗人员业绩比较突出,疯狂打电话。

2020首届数字四川创新大赛_诈骗电话识别数据统计分析(一)_第8张图片

5.流量表可视化分析

2020首届数字四川创新大赛_诈骗电话识别数据统计分析(一)_第9张图片

5.1城市流量均值2020首届数字四川创新大赛_诈骗电话识别数据统计分析(一)_第10张图片

5.2各公司流量均值

2020首届数字四川创新大赛_诈骗电话识别数据统计分析(一)_第11张图片

你可能感兴趣的:(四川创新大赛,数据挖掘,机器学习,可视化,数据分析,人工智能,机器学习)