Python数据挖掘——应用toad包中的detect函数进行描述性统计

大数据时代的到来,使得很多工作都需要进行数据挖掘,从而发现更多有利的规律,或规避风险,或发现商业价值。比如在支付领域,通过挖掘商户的交易数据,分析商户是否有欺诈、盗刷、赌博、套现等风险。对于有风险的商户,及时进行关闭处理,或者实时中断交易,从而保护个人的资金安全。在金融领域,通过数据,挖掘客户的偏好和画像,进行新客的拓展和老客的挽留等。本文和你一起探索数据挖掘常用的函数toad.detector.detect。

文章目录

    • 一、安装toad包
    • 二、导入数据
    • 三、应用detect函数计算描述性统计值

  

一、安装toad包

  
首先打开cmd,安装toad包,安装语句如下:

pip install toad

若安装成功,会显示结果如下:
  
Python数据挖掘——应用toad包中的detect函数进行描述性统计_第1张图片

  
  

二、导入数据

  
背景:现需分析53万客户的基本信息和购物信息,用于构建客户的购物画像,预测客户的购物倾向,进行精准营销。
  
在进行画像分析之前需要对客户的基本信息和购物信息有一个描述性统计。抽取部分指标用于本文的描述性统计指标展示,具体分析方式如下。接着导入需分析的数据。

#读取数据
import os
import toad
import numpy as np
import pandas as pd

os.chdir(r'F:\公众号\70.数据分析报告')
date = pd.read_csv('BlackFriday.csv', encoding='gbk')
date.head(5)

展示前几行数据如下:
  
Python数据挖掘——应用toad包中的detect函数进行描述性统计_第2张图片

  
  

三、应用detect函数计算描述性统计值

  
最后,调用toad库下的detect函数,进行数据描述性统计分析,语句如下:

#计算描述性统计值
describe = toad.detector.detect(date)
describe

得到结果如下:
  
Python数据挖掘——应用toad包中的detect函数进行描述性统计_第3张图片

  
其中index列包含了客户的ID、产品ID、性别、年龄、城市类别、居住在当前城市的年数、产品类别和购买信息等变量名称。
  
type列展示每个变量的数据类型,包括int型、object型、float型等。
  
size列描述每个变量的长度。
  
missing列描述每个变量的缺失率。
  
unique列描述每个变量的取值个数。
  
后面的列描述数据的均值、标准差、最值、分位数等信息。
  
为了更清晰地展示变量对应的统计值,把结果导出到csv文档中,具体语句如下:

describe.to_csv('describe.csv', encoding='gbk')

得到结果如下:
  
在这里插入图片描述
  
至此,在Python中应用toad.detector.detect进行数据挖掘已经讲解完毕,感兴趣的同学可以自己实现一遍图片。
  
限时免费进群】群内提供学习Python、玩转Python、风控建模、人工智能、数据分析相关招聘内推信息、优秀文章、学习视频,也可交流学习工作中遇到的相关问题。需要的朋友添加微信号19967879837,加时备注想进的群,比如风控建模。
  
你可能感兴趣:
用Python绘制皮卡丘
用Python绘制词云图
Python人脸识别—我的眼里只有你
Python画好看的星空图(唯美的背景)
用Python中的py2neo库操作neo4j,搭建关联图谱
Python浪漫表白源码合集(爱心、玫瑰花、照片墙、星空下的告白)

你可能感兴趣的:(python,数据挖掘,风控建模)