关键词:caravel、olap、kylin、数据可视化
Caravel(曾用名Panoramix),是由知名在线房屋短租公司Airbnb开源的一款数据探索与可视化工具,该工具在可视化、易用性和交互性上非常有特色,用户可以轻松对数据进行可视化分析。官网地址为: http://airbnb.io/caravel/
Caravel底层使用Python开发,与SQLAlchemy深度整合,目前原生支持的数据源有:
MySQL、Postgres、Presto、Oracle、sqlite、Redshift、MSSQL以及Druid。对于前面的关系型数据库,Caravel通过将界面的操作转换成SQL语句,提交给SQLAlchemy适配数据源查询并返回结果,对于Druid,Caravel将界面的操作转换成Druid的API进行查询并返回结果,与Druid的深度集成,可以实现大规模海量数据的OLAP分析和实时探索。
另外,为了提高并发查询下的性能,还支持数据缓存,可配置将数据缓存至Redis、Memcache或者本地文件系统。
Caravel支持十几种可视化图表,用于将查询返回的数据做可视化展示:
如果你的数据源是上面介绍的几种,那么可以直接使用Caravel。但我们数据平台中的OLAP引擎为Apache Kylin,所以需要简单的修改和开发。
由于Caravel使用SQLAlchemy适配数据源并提交查询,因此我们的思路为,将Kylin作为一个数据库引擎注册进SQLAlchemy,然后由Caravel自动适配并执行。而将Kylin查询注册到SQLAlchemy,网上已经有人开源了代码:https://github.com/wxiang7/pykylin(感谢作者Wu Xiang)。
接下来先安装Caravel,http://airbnb.io/caravel/installation.html,再安装pykylin,https://github.com/wxiang7/pykylin。
启动Caravel Server: caravel runserver -d
使用浏览器打开:http://localhost:8088,使用admin/admin登陆。
这里需要注意Sqlalchemy Uri的写法:
kylin://ADMIN:[email protected]:7070/kylin/api?project=lxw1234
Kylin中的project名称,需要以URL参数的方式传递。
点击”TEST CONNECTION”,提示测试连接成功,并且在最下方,列出了project中所有的表。
如果使用MySQL数据库,配置如下:
数据源创建好之后,就可以添加数据源中的表。
其中,Database选择之前创建好的数据源,Table Name必须是数据源中对应真实的表名。
需要注意的是,该表中必须有一个日期或时间类型的字段。
SAVE之后,进入到Table List页面。
点击上面的Edit record按钮,可以编辑该表的字段及指标属性:
在List Table Column页面中,指定那些字段可以GroupBy,那些可以过滤,那些可以Count Distinct,那些可以Sum、Min、Max,那些字段属于时间序列字段(Is Dttm)。
在List Sql Metric页面,可以编辑和定义指标,如果上面对一些字段勾选了Sum、Min、Max、Count Distinct选项,则这里会自动生成相应的指标字段。
在针对一个Table,定义好维度字段和指标之后,即可针对该表进行数据探索分析与可视化展示,在List Table页面,点击一个表名,即可进入:
如下图,在分析页面中,可以针对某一个表事先定义的时间字段、维度及指标字段进行数据探索分析,并可以选择相应的图表进行可视化展示。
另外,可以将一个定制好的数据探索保存成Slice,多个Slice可以组成一个Dashboard。
在添加Dashboard页面,指定包含哪些Slice,定制自己的Dashboard。
其中,每个Slice对应的模块,可以自由拖拽位置和大小,并保存整个Dashboard的布局。
我和我的朋友Rocky,正在整理相关的修改,后面将放到github或者提交到Caravel。
你可以先使用已支持的数据源来体验和使用Caravel。
转自:lxw的大数据田地 » Caravel–一款开源OLAP+数据可视化分析前端工具,支持Druid和Kylin