大家好,今天给大家分享一款十分强大的数据集探索性分析插件D-Tale。
可以通过它,我们可快速分析和了解数据的基本情况,进一步进行数据分析和可视化,喜欢记得收藏、点赞、关注。
注:完整数据文末获取。
安装好该模块
pip install dtale
D-Tale
插件打开数据集我们在D-Tale
中打开数据集,代码如下
import dtale
import pandas as pd
df = pd.read_csv(r'gapminder_full.csv')
d = dtale.show(df)
d
output
数据集来源于Kaggle
,当中包含了全世界每个国家的人口总数、人均GDP以及人口寿命等数据,下面我们就来尝试使用一下该插件的各项功能吧。
我们来看一下如何用D-Tale
插件来进行数据的筛选,例如我们想要筛选出年份是2002年的内容,步骤如下
我们点击Action
当中的Custom Filter
,然后填上对应的year==2002
,然后点击Apply
即可实现,当然我们还可以点击对应的某一列,然后鼠标拉到底,同样也能进行操作,步骤如下
我们同样地可以对数据进行排序,在我们点击到某一列的时候,会弹出如下的选项框,
其中就包括了对数据进行排序的按钮,例如我们对gdp_cap
这一列进行降序排序,步骤如下
我们还能够对数据集当中的每一列进行重命名,使用的是Rename
这个选项按钮,步骤如下
那么如果是想要删除某一列的话,对应的则是Delete
这个选项按钮了,相当于是Pandas
当中的drop
方法
而当我们点击Describe
这个按钮之后,会出现针对某一列的统计性分析,如下图所示
并且可以通过图表可视化的形式来更加直观地展现统计分析的最终结果
如果我们要是想要查看各个特征变量之间的相关性,D-Tale
插件会通过热力图的方式来呈现,步骤如下
该插件还能够进行图表的绘制,我们点击图中Visualize
按钮,并且在下拉框中选中Charts
这个按钮
接下来我们便是进入到可视化的界面了,如下图所示
这里包含了折线图、散点图、直方图、词云图、热力图等各种图表的绘制,我们只需要指定好X轴上放置的变量、Y轴上放置的变量以及相对应的统计的方式即可,感兴趣的读者可以空的时候加以尝试
要是数据集当中存在缺失值,同样也可以通过图表的形式来展现,因为之前引用的数据集不存在缺失值,因为这里更改成另外的数据集来操作,步骤如下图所示
我们来看一下工具栏中的setting
按钮,点击之后再出现的下拉框中我们可以对界面设置是否为“深色模式”,以及对语言也可以进行设置
界面的宽度和高度我们要是觉得不行也能进行调整
我们点击图表上方工具栏中的Actions
按键,在下拉框中点击Summarize Data
按键,出现如下的界面
我们点击GroupBy
按钮,例如我们将要针对continent
列来进行每一个大洲人均寿命的统计,步骤如下
最后我们可以导出上述操作的代码,步骤如下
李宏毅《机器学习》国语课程(2022)来了
有人把吴恩达老师的机器学习和深度学习做成了中文版
上瘾了,最近又给公司撸了一个可视化大屏(附源码)
如此优雅,4款 Python 自动数据分析神器真香啊
梳理半月有余,精心准备了17张知识思维导图,这次要讲清统计学
香的很,整理了20份可视化大屏模板
欢迎转载、收藏、有所收获点赞支持一下!
目前开通了技术交流群,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友