PostgreSQL , Orange3 , 可视化 , 时空数据
可视化分析会是一个让枯燥的数据说话的快捷途径,降低可视化分析门槛,同时又保留它的编程能力,是非常重要的。
如今数据种类越来越多,除了常见的数值、文本,还有数组、K-V、图像、空间数据、波、基因 等等。对可视化分析软件的要求也越来越高。
http://blog.just4fun.site/Orange-startup.html
之前陆续写过几篇介绍数据挖掘/可视化项目Caravel的文章:
如今直接去github搜索caravel已经搜不到它了。它最近换了新马甲,改叫superset,至于为何频繁改名(分别叫过Panoramix,Caravel,Superset),我猜核心作者早年混迹论坛,与人吵架,常换马甲:)
对数据可视化的兴趣一直未减,近期发现两个有趣的项目,其一就是这篇文章的主角:Orange,另一个是google发布的Embedding Projector(基于Tensorflow)
现在,你可以直接在这里下载到最新的Orange软件,Orange发布了各个平台的安装包,选择你当前平台的安装包,双击安装即可,安装过程十分友好。
和许多数据分析的项目不同,其他项目多数面向数据分析从业人员、软件开发者。而Orange让各行各业对数据挖掘和可视化感兴趣的人都能参与其中,而不必有编程基础
安装完毕打开软件,跟着以下教程即可对它做大致了解
官方首页对这个项目的介绍是:
Open source machine learning and data visualization for novice and expert. Interactive data analysis workflows with a large toolbox.
该项目源码开放,对新手友好,同时也胜任专业的数据分析工作。
Orange是一个基于组件的数据挖掘软件,它包含了一组数据可视化、探索、预处理和建模的技术。
它不但带有一个新手友好的用户界面,老司机们也可以把它用作Python的一个模块。
如果要用一些简单的词描述它,我想到以下标签:
* 对外部数据源进行数据挖掘(数据库/网络)
* 自然语言处理以及文本挖掘
* 网络分析
* 关联规则分析
我折腾过的数据可视化工具多而杂, 以下是我偏好Orange的几个原因
同时也简单列出我认为不足的地方
关于对数据库的支持,估计随着项目的推进,会慢慢完备起来,这块基本只是时间的问题。(PS:不过PostgreSQL, Greenplum实际上都非常强大,不仅仅能够完美的展现时空数据,还支持并行计算。)
接下来有空我们分析下,这个项目在技术层面有哪些有趣的东西
此外我还有兴趣对它做些本地化改进,包括但不限于汉化,有兴趣的小伙伴可以一起来折腾,我已经fork了一份源码:orange3
这里有大量的例子:
http://blog.biolab.si/