数据挖掘工具KNIME的优势分析

不同的数据分析工具功能的侧重点有所不同:

有的工具重点在于记录,比如 Excel和数据库,其中Excel的缺点是无法完成大数据量的操作,超过100,0000条数据的情况下会影响处理速度,在数据库中写 SQL 语句可以对数据库中的数据进行统计,但几乎没有可扩展性,无法完成分析工作;

有的重点在于转换、分析,比如 SAS,SPSS,Lingo,Orange,KNIME,Rapidminer,Weka,R,Matlab,Python,Spark,Google's dataprep 等工具。这些工具有一些是开源的,有一些是收费的;有一些是离线使用的,有一些是在线使用的,复杂度也各有差异,本次主要比较的KNIME和Rapidminer这两款工具流数据挖掘工具都在此列,他们的共同特点是开源,以工具流的方式进行数据分析,提供大量的数据分析节点或是算子,以数据的转换和分析为主要功能。

还有的重点在于展示,可视化。比如 Tableau,PowerBI,国内的海致BDP等可视化工具越来越多,目前工作中常用到的是Tableau,本篇也会结合实际工作中遇到的情况谈一下工具流工具可以支持到Tableau的地方。

本篇的结构主要是从整个数据分析流程来看,分为数据存取、数据探索、数据处理及分析、可视化四个部分进行,其中KNIME的功能为主,RapidMiner和Tableau作为补充。

一、数据存取:

1.KNIME:

文件存取:支持excel、ARFF、csv、table等文件的存储,主要用到的是excel和csv。

数据库存取:支持的数据库类型如图所示。

数据挖掘工具KNIME的优势分析_第1张图片
KNIME的数据库连接节点

亮点:数据库读取有两种模式,一种是将数据从数据库中取出后,利用 KNIME 的模块进行分析;另外一种方式是,在数据库中就做一些预处理,然后再把接下来的数据放在 KNIME 中处理。在这里KNIME提供了In database和Out database两种从数据库中获取数据的形式。可以根据具体情况决定选取哪种方式。丰富的Database Connector和Database Manipulation节点可以将复杂的SQL语句用可视化图形的方式展示出来,比如有专门的database行列筛选节点,关联节点,且每一步的结果可以用Table的形式展示出来进行预览。如图所示为KNIME丰富的数据库操作节点。

数据挖掘工具KNIME的优势分析_第2张图片
KNIME的In database操作节点
数据挖掘工具KNIME的优势分析_第3张图片
KNIME的Out database节点

2.Rapid Miner

文件存取:支持Excel、SPSS、CSV、Dbase、Arff、 DasyLab等多种格式的数据源,以及ASCII,、PDF、HTML 和XML 格式的文本文档和和网页、时间序列数据等。在文件种类上多过KNIME。

数据库存取:可实现包括Oracle、IBM DB2、MS SQL Server、 MySQL、Ingres、Postgres、Teradata 等所有常见的数据库的数据抽取,数据抽取的过程完全通过SQL语句实现,功能不如KNIME丰富。

Rapid Miner中的数据库数据存取算子如图所示,由于过程通过SQL语句实现,所以只有Read、Write和Update三种算子。

数据挖掘工具KNIME的优势分析_第4张图片
RapidMiner 数据库存取算子
数据挖掘工具KNIME的优势分析_第5张图片
RapidMiner的SQL操作

3.Tableau

文件和数据库取数:目前日常工作中使用到Tableau经常连接文件,在数据库中数据没问题的情况下也可以直接连接数据库。Tableau数据连接的两种方式分别是实时与数据提取,使用实时提取对数据进行连接,当数据源发生变化时,例如有新的数据流动进来或者历史数据被删除,我们建立的连接也会随之发生变化。当数据源较小时,用Live确实是比较方便的,数据量比较大的时候效率会很低而且无法对数据进行筛选。

文件和数据的保存:

在使用Live进行数据连接时,保存数据的时候又两种格式 .twb 与 .twbx。

数据提取的连接方式为从数据源中直接提取数据,使其完全脱离原数据源。而且可在提取数据时对数据进行筛选。

数据挖掘工具KNIME的优势分析_第6张图片
Tableau文件提取方式

当我们切换到工作簿的时候,tableau会提示我们是否要保存数据,此时显示保存的格式为 .hyper (老版本中显示为 .tde)

数据挖掘工具KNIME的优势分析_第7张图片
数据保存

任何时候与数据源连接时,都可以导出连接信息作为快捷方式,通过此快捷方式,无需打开连接对话框即可快速连接。如果经常多次连接到同一数据源,或者已将自定义字段(如组、集、计算字段和分级字段)添加到数据窗口或已添加联接表,则可能需要这样做。对于与该数据源的后续连接,请使用快捷方式,这样不必重新创建自定义字段。为此我们可以将其添加到以保存的数据源,此时保存的数据格式为 .tds.

数据挖掘工具KNIME的优势分析_第8张图片
Tableau文件类型对比

数据探索:

1.KNIME

在KNIME中每个节点对数据进行处理后,都可以通过表的方式进行预览。分析者在表自带的spec标签页对数据进行粗略观察,包括数据最大最小值,字段的数据类型等信息;

数据挖掘工具KNIME的优势分析_第9张图片
KNIME数据标签页

也可以在Table“default”界面,在字段名称上右键选择对数据进行可视化(Bar/Gray Scale)并通过排序对数据有初步直观的认识。

数据挖掘工具KNIME的优势分析_第10张图片
KNIME数据初探

当我们在python中进行数据分析时,读取数据之后通常会对数据进行一个基础的统计,使用的是pandas.describe函数,可以了解数据的整体情况;而在KNIME中,也有类似的功能节点,就是Statistics Node,我们连接上这个Node,可以结果进行观察。

Statistics将数据分成两大类,一类是数值类型的值,一类是名义类型的值,对于数值类型的值,可以有一些基本的统计方法对数据进行统计,比如这一列的最小值、最大值、中值、均值、标准差、峰度、偏度等等,了解后就会对这列数据有一个整体上的把握。

数据挖掘工具KNIME的优势分析_第11张图片
KNIME的statistic功能

亮点:KNIME的优点之一是具有 HiLite 功能,允许用户在节点结果中标记感兴趣的记录,并进一步展开后续探索。

2.Rapid Miner

可以在数据提取后进行数据探索,包括简单的可视化,界面友好。每一步结果生成的表格都有统计图(Charts)功能,可以选择展示图形,在这点上与Tableau相似。

数据挖掘工具KNIME的优势分析_第12张图片
RapidMiner数据统计功能
数据挖掘工具KNIME的优势分析_第13张图片
数据可视化

亮点:相比于KNIME的连接Statistic节点观察静态统计图,Rapid Miner在该步骤可以进行数据的交互式探索。

三、数据处理和分析

1.KNIME

数据处理:KNIME常用的数据清洗节点包括Row filter,Column filter,Missing value。在分析过程中可以通过这些节点对抽取出来的数据,进行行列的条件筛选,并对缺失值进行处理,对空值进行替换。KNIME中还有包括String manipulation,Math fomula,Column Rename,Pivoting,Groupby等大量的数据整理节点,分别对应Excel中的数据替换、公式计算、重命名和数据透视表功能,操作和设置都不复杂,无需编程。不仅如此,大部分数据整理动作都可以通过特定的Node或者几个Node结合的方式实现,可操作性和灵活性很强。此外也不缺乏标准化、数据抽样等节点进行数据处理。

2.Rapid Miner

数据预处理主要通过Data Transformation算子实现中,其中包括了这样几个大类:数据整理节点包括常见的表连接、表计算等;数据类型转换,数据大致上可分为数值(numerical)、两类(Binomial)、多类(Polynomial)数据,有时候希望相互转换,这就要用到Type Conversion类的算子来处理;数据标准化,标准化数据和还原是经常用到的功能,分别对应Normalize和De-Normalize算子;数据的清理,通过Detect Outier检测异常值;通过Replace Missing Values处理缺失数据;通过sample算子实现数据抽样等。

3.二者数据建模比较:

在数据统计建模方面KNIME提供工作流的可视化建模,但是设置选项多,比较复杂,可以将多个节点进行整合但是不具备嵌套的层级关系;Rapid Miner也提供类似工作流的可视化建模,但它支持嵌套,这算是一个优点。

对于算法支持情况的比较可以参考咨询公司测评结果:

数据挖掘工具KNIME的优势分析_第14张图片
几种数据挖掘工具的算法功能

在试用了KNIME和Rapid Miner的决策树分类功能后,感觉两个工具的设置都比较简单,最后也可以生成可视化的决策树结果。IT咨询公司Gartner的网站上列出的二者进行数据挖掘的功能上相差不是很大。更多的区别在于设置操作,以及图形展示等细节上。

数据挖掘工具KNIME的优势分析_第15张图片
KNIME决策树功能
数据挖掘工具KNIME的优势分析_第16张图片
RapidMiner决策树功能

4.Tableau在商业模型实施中的优势

相比之下Tableau虽然优势不在于统计建模,但是可以自由地建立字段,计算相对灵活,并在探索过程中获取新的分析思路,KNIME的每一步数据操作最后结果都会体现在表格中数据的变化,或是生成新的表格,一些无用信息也随之生成,在计算模型的过程中显得冗余。另外Tableau中新建字段时写函数、创建数据桶等都比较方便,同样的步骤,在KNIME中需要一个或几个节点共同完成,每个节点都需要设置,步骤上略显麻烦。

四、图形可视化

之前的文章中总结了KNIME中可视化模块的功能,经过一个多星期的继续使用,可视化功能的很多弊端也暴露出来。比如在生成的报表中没有办法设置统一的配色、进行标注等,在操作过程中也略显繁琐,暂时看来,这些缺点制约了可视化模块直接服务业务生产报表。在与使用KNIME的前辈进行交流的过程中发现,很多人使用KNIME的可视化功能进行数据分析结果观察,或者为报表打草稿,为后面的工作提供思路方法,至于可视化的工作则是要具体情况具体分析。

KNIME和Rapid Miner中的数据可视化功能更适合作为数据分析中的一环,用来观察阶段性分析成果,而不适合作为结果输出,二者相比,Rapid Miner没有专门的可视化节点,所有的图形展示都在表中的Charts选项卡下,它的优点在于各种图形的展示可以随意切换,不像KNIME需要添加不同种类的节点。

数据挖掘工具KNIME的优势分析_第17张图片
KNIME的可视化节点
数据挖掘工具KNIME的优势分析_第18张图片
RapidMiner的可视化功能

Tableau可以承接前面两者的工作,在生成报表的最后一环发挥巨大作用。目前也已经了解到KNIME的报表方案可以与Python和Tableau进行集成,其中与Python进行集成可以在KNIME的相关节点中编辑Python脚本运行,这样一来Python的可视化包都可以使用;另一种是与Tableau进行集成,在安装相关的拓展模块之后,可以将KNIME处理后的数据表结果连接到Tableau节点,实现在Tableau中进行可视化(需要Tableau Sever)。

小结:

KNIME和Rapid Miner作为同种类型的数据挖掘工具,二者的数据处理和建模表现都很强。

KNIME的优点在于数据存取过程中对于数据库操作更加灵活,可以将SQL语句以图形化的方式表现出来,分析过程中的HiLight功能帮助实现数据探索,支持的数据处理方法和模型丰富,具备可视化功能,可拓展性强,有实现报表开发的可能性;

Rapid Miner的优势在于探索式数据分析可交互;工作流各算子之间可嵌套;可视化结果不同种类图表之间转换方便,界面和设置上相比于KNIME略简洁。

综上KNIME是一款更加全面的,可以实现从数据提取到可视化全流程的数据挖掘工具,可以弥补Tableau在数据可视化前期数据获取和数据清理的不足,也可以在数据建模方面发挥作用,实现用户分类、文本分析等功能。

你可能感兴趣的:(数据挖掘工具KNIME的优势分析)