分析一个问题,从对样本进行探索开始。Python中有很多常用的数据分析函数,可以帮助我们对样本有一个初步的认识,比如describe()函数,可以很方便地生成每个变量的最大值、最小值、分位数等。
今天给大家介绍一个特别牛逼的函数,一行代码就能实现原始数据集的概览分析,进而可以保存成html报告。接下来揭开这个神奇函数的面纱吧。如果想看效果,可跳过第一部分的安装库教程。
有些小伙伴直接在cmd中运行 pip install pandas_profiling 就可以成功安装这个库。那真的该恭喜你了。我的运行会报如下错误:
所以我准备直接下载whl文件进行安装。
首先到如下网站下载whl文件:https://pypi.org/project/pandas-profiling/#files,可能会出现没有反应的情况,多进几次就好了。进去后点击Dowload Files,下载右边红框中的whl文件到本地。
在whl文件所在文件夹打开cmd,运行pip install XXX.whl,有些小伙伴可以成功安装该库。我的一直安装不了,会报如下错误。
找了很久的资料,结合报错的提示,终于运行完如下语句后成功安装了pandas_profiling库。
pip install --user pandas_profiling-2.9.0-py2.py3-none-any.whl -i https://pypi.tuna.tsinghua.edu.cn/simple some-package
可是在jupyter中使用Pandas_Profiling.ProfilingReport时会报如下错误:concat() got an unexpected keyword argument ‘join_axes’,经查是pandas和Pandas_Profiling版本过低导致。
在cmd中运行 pip install --upgrade pandas和pip install --upgrade pandas_Profiling 即可。
如果还有小伙伴安装不好,可以试下如下方法:
pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip
首先加载包和数据。
import pandas as pd
import pandas_profiling
df = pd.read_csv('testtdmodel.csv',sep=',',encoding='gb18030')
data = df[['3个月内申请人在多个平台申请借款', '7天内借款人手机申请借款平台数', '1个月内借款人手机申请借款平台数']]
data = data.astype(float)
运行如下语句可以生成数据分析基本报告。
pandas_profiling.ProfileReport(data)
报告包含以下几部分:
Overview中还包含了Warnings模块,可以点击查看数据集的重复情况和变量的0值个数。
2. Variables(单变量情况):包括单变量值个数(54)、均值(3.88499)、最小值(0)、最大值(82)、缺失值(0)、缺失率(0%)等。
点击橙色框中的Toggle details可以得到更详细的单变量分析情况。
包括一些统计指标、单变量直方图、次数出现top的值对应占比情况、最小的几个值和最大的几个值的频率。
3. Interactions(交互性分析):每两个变量进行图展示。
一行代码就可以很方便地生成大部分我们需要的统计指标,是不是特别实用呀?如果我们想把这个报告保存下来,应该怎么办呢?
运行如下语句可以保存成html报告。
data.profile_report(title='Data').to_file('Data.html')
可以把html版的报告下载下来,发给需要使用的人,非常方便。
至此,pandas_profiling函数介绍完了,需要使用的朋友可以早日安装应用。不过建议大家生成报告的字段名称改成英文的,避免生成的报告出现乱码。
你可能感兴趣:
用Python绘制皮卡丘
用Python绘制词云图
Python人脸识别—我的眼里只有你
Python画好看的星空图(唯美的背景)
用Python中的py2neo库操作neo4j,搭建关联图谱
Python浪漫表白源码合集(爱心、玫瑰花、照片墙、星空下的告白)