金融风控数据挖掘 · Task 2 EDA 数据可视化

金融风控数据挖掘 · Task 2 EDA 数据可视化

  • 一、数据载入、存储及文件格式
    • 1. 文件格式的读写
      • 常用的数据处理用到的库
  • 二、数据总览

一、数据载入、存储及文件格式

1. 文件格式的读写

  • 常用的数据处理用到的库

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns 
import datetime
  • 利用 P a n d a s Pandas Pandas将表格型数据读取为 D a t a f r a m e Dataframe Dataframe对象,在一般的数据挖掘处理中,我们用的最多read_csvread_excelread_table
			# 导入数据
			train = pd.read_csv(r'G:\Data mINNING\Tianchi\finacial danger predict\train.csv', index_col='id')
			test = pd.read_csv(r'G:\Data mINNING\Tianchi\finacial danger predict\testA.csv', index_col='id')
			target = train.pop('isDefault')

[注]

1. 在利用pd.read_csv()命令进行读取时,有几个比较关键的参数:
参数 描述与用法
path 文件路径
na_values 需要用NA替换的值序列
sep或delimter 用于分隔每行字段序列或者正则表达式
header 用作列名的行号,默认是0(第一行)如果没有列名字,为None
parse_dates 尝试将数据解析为datetime,默认是False。若为True,将尝试所有列
dayfirst 解析非明确日期,按国际标准格式处理,即首位为月,默认为False
date_parser 用于解析日期的函数
nrows 从文件开头处读入行数
iterator 返回一个TextParser对象,用于零散的读入文件
chunksize 设置迭代块大小
encoding Unicode文本编码(如:‘utf-8’用于表示UTF-8编码的文本)
2. 关于path参数:
  • 如果数据文件与代码在同一目录下,则直接path = ‘/文件名’
  • 如果不在同一个文件下,则必须传入文件的绝对路径,并在地址字符串前加r,如
train = pd.read_csv(r'G:\Data mINNING\Tianchi\finacial danger predict\train.csv', index_col='id')
3. 当数据文件规模太大时,可以考虑使用分块读取文件的形式,具体操作如下:
  • 首先调整pandas的显示比例:
pd.options.display.max_rows = 10#调整pandas显示比例
  • 为了分块读入文件,可以指定chunksize作为每一块的行数:
chunker = pd.read_csv("./train.csv",chunksize=10000)
read_csv返回的TextParser对象允许你根据chunksize遍历对象,并对‘key’进行聚合计数:
for item in chunker: 
	print(type(item)) # 
	print(len(item))

二、数据总览

  1. 首先,利用shape了解数据的维度大致情况:
test.shape
train.shape
train.columns

金融风控数据挖掘 · Task 2 EDA 数据可视化_第1张图片
2. 接着利用info()大致查看数据的缺失值情况
金融风控数据挖掘 · Task 2 EDA 数据可视化_第2张图片
3. 有22个特征存在数据缺失的情况,说明这份数据值总体质量还是比较好的,接着我们看一下缺失值这些列的特征的统计量的分布情况:
金融风控数据挖掘 · Task 2 EDA 数据可视化_第3张图片
我们发现匿名特征中,“n11”、“n12”、“n13”这几个特征的方差比较小,在后期处理的时候可以考虑去掉该特征。

你可能感兴趣的:(数据挖掘,可视化,数据分析)