使用开源自动化数据分析工具Rath探索共享单车数据集

RATH的全自动化分析功能也许非常的有趣,但在实际分析工作当中,作为数据分析师的你往往会有很多自己的分析想法,RATH的全自动化虽然可以更加全面的分析数据,但是往往会有许多推荐是你关注点意外的内容,或许这些内容你今天并不太想关注。虽然RATH中也提供了完全手动可控的自助分析能力,但是否能有这样的功能,使得在你有自己明确的想法时可以自助可控的进行手动分析,而在你需要启发或面对大量不确定性问题时,又能自动的给到你分析建议。

Rath 线上地址:Kanaries: Data Exploration in the Future

Rath Github地址:GitHub - Kanaries/Rath: Automated data exploratory analysis and visualization tools.

本文将介绍一个全新的模块:RATH的半自动化分析。这是一个结合了全自动与手动各自优点的分析模块,可以实现更加灵活的人机协同下的数据探索分析,类似于一个数据分析领域的copilot。

案例:共享单车数据集

导入数据集

这里,我们以Kaggle上的共享单车数据集为例,导入数据,可以看到RATH会为你提供一个数据预览页面。在这里你可以大致了解不同字段数据分布情况。可以看到这个数据集,主要是研究不同因素(时间、天气)等对单车租用量情况的影响。

使用开源自动化数据分析工具Rath探索共享单车数据集_第1张图片

在这个页面,你可以对数据进行类型配置、格式转化、为数据集设置筛选项(如只分析特定时间段或某个类别的数据子集)、数据清洗等。

准备好后,就可以点击左侧导航栏的“半自动探索”模块,既可以体验半自动化的人机协同分析来。

进入半自动化模块

进入半自动化探索模块后,RATH首先会自动化给到你一些值得关注的变量的分布情况。在这里,你可以选择:

  • 找到感兴趣的默认推荐,点击深入分析
  • 在上方点击添加变量进行自定义的分析。

使用开源自动化数据分析工具Rath探索共享单车数据集_第2张图片

告诉RATH,你更关心什么

这里我们选择registered(注册用户的租用量),点击深入分析。可以看到,RATH会根据我们选择关心的变量,推荐下一步分析的方向。RATH会关联一些有趣的视图和线索,既可以帮助你更加了解你所关心的变量,也可以为下一步的分析提供思路。

在RATH推荐的分析建议当中,我们可以选择一个我们关心或觉得比较有趣的推荐,进行下一步的分析。

如下图,RATH根据我们当前关注的registered变量(注册用户),帮助我们关联了casual(散客)与registered(注册用户)的关系。视图中有两个明显的分组(簇),那么这两个分组到底是什么造成的呢,为什么casual和registered不是单纯的正相关关系,而会产生两个相关性完全不同的分组呢?我们可以点击深入分析,来探究背后的原因。

使用开源自动化数据分析工具Rath探索共享单车数据集_第3张图片

如下图,RATH根据我们当前关注的视图,推荐了接下来想要探究的问题的可能解释。首当其冲的便是对我们刚刚关注的两个分组性质差异的疑惑。可以看到,这两个分组主要是由workingday(是否是工作日)导致的。橘黄色的群体,代表着workingday = 1,即工作日;蓝色的群体为周末或节假日。

也就说明,工作日casual/registered更小,说明注册用户占比更大;而周末和节假日则更多是散客在租用单车。

使用开源自动化数据分析工具Rath探索共享单车数据集_第4张图片

如果你对这张视图也很感兴趣,可以点击深入分析。这样RATH就会更加了解你关注的方向,进行更具针对性的推荐。

有时,RATH还会根据当前视图中的维度,帮你找到更加值得关注的数据子集,这在维度成员比较多时会非常的有帮助(比如有上百个商品品类)。这里由于类别比较少,RATH会将这两个类别都单独提供给我们,如下图下方所示。

使用开源自动化数据分析工具Rath探索共享单车数据集_第5张图片

这时,你可以点击深入分析,后续的分析都会只针对于你选择的子集进行分析。而不再是全集。

使用开源自动化数据分析工具Rath探索共享单车数据集_第6张图片

使用开源自动化数据分析工具Rath探索共享单车数据集_第7张图片

主视图,可以看到主视图是只包含了非工作日的情况

根据主视图的关联推荐

更加自主的定义主视图

你还可以再主视图上直接进行手动编辑,如删除指定的变量、添加新的变量,或者编辑调整变量的筛选项(如选择某个子类或者某个指标的特定区间)。这样你可以生成任意的主视图,然后RATH会根据你定义的主视图进行推荐。

比如这里我们删除点casual变量和workingday的筛选项。回到只针对registered的场景,接着你可以研究其他的问题,如registered在一天中不同时段的分布情况。如下面的动图所示。

如下图,我们当前的主视图是注册用户在一天中随时间的变化,RATH根据主视图,推荐给我们了一些相关的视图。如左侧,可以看出注册用户使用双高峰主要存在于工作日的上下班时间,而对于周末和节假日而言,则不存在双峰,只是在正午时达到高峰,然后慢慢减少。

使用开源自动化数据分析工具Rath探索共享单车数据集_第8张图片

在坐下图中,RATH推荐我们关注双峰在不同的季节上的差异。可以看到:在冬天,晚高峰的使用人数少于早高峰。而在其他季节,则完全相反。

如果我们对一张视图非常的感兴趣,我们可以点击收藏,这样就可以在收藏夹中查看这张视图。也可以方便后续使用这张视图制作报表/报告。

当有明确的目的时,随时可以切换到手动分析

如果你想要更加自主可控的分析一张图表,比如我们想要研究一天中不同的时间段,在不同季节上的占比变化。对于这种目标非常明确的定制化分析,可以点击主视图下方的编辑图表按钮。进入手动分析模块。

使用开源自动化数据分析工具Rath探索共享单车数据集_第9张图片

进入到手动分析模块

手动调整图标配置,如生成一个百分比堆叠面积图。

使用开源自动化数据分析工具Rath探索共享单车数据集_第10张图片

使用开源自动化数据分析工具Rath探索共享单车数据集_第11张图片

或是我们想对比不同季节下,工作日和节假日的差异。可以看到,一年四季中,注册用户在一天中的分布情况的几乎不变。但再周末和节假日,则差异非常明显。(可以看到夏天,节假日时会有较多的用户在晚上租用单车,可能是夏天天气更适合晚上出去happy)

使用开源自动化数据分析工具Rath探索共享单车数据集_第12张图片

总结

本文主要介绍了RATH中的半自动化分析模块,其定位类似于一个数据分析领域的copilot。相比于全自动化分析模块帮助你做大量的自动化探索,半自动模块可以更有针对性、更加可控的只对你关心的数据进行自动化的推荐和提供分析建议。这对于分析师和算法工程师而言是一种更加友好的分析工具。

你可能感兴趣的:(数据挖掘,开源工具,前端,数据分析,数据挖掘,人工智能,github,大数据)