推荐:几款优秀的数据挖掘工具

TipDM数据挖掘建模工具
一、产品简介: 顶尖数据挖掘平台(TipDM)是广州泰迪智能科技有限公司自主研发的一个数据挖掘工具,使用JAVA语言开发,能从各种数据源获取数据,建立各种不同的数据挖掘模型(目前已集成数十种预测算法和分析技术,基本覆盖了国外主流挖掘系统支持的算法)。工具支持数据挖掘流程所需的主要过程:数据探索(相关性分析、主成分分析、周期性分析);数据预处理(属性选择、特征提取、坏数据处理、空值处理);预测建模(参数设置、交叉验证、模型训练、模型验证、模型预测);聚类分析、关联规则挖掘等一系列功能。
二、适用对象: 在线数据挖掘平台(www.tipdm.cn),适合有数据挖掘研究需要的单位及个人,用户不用安装系统,而是通过浏览器直接在线使用。利用系统提供的方案管理、数据管理、数据预处理、数据探索、预测建模、模型评价等功能,同时借助平台提供的《数据挖掘:实用案例分析》,可帮助用户快速形成科研成果的解决方案。必要时提供一对一咨询指导服务,是辅助用户进行科研项目建模的最佳选择工具。
三、相关资料详见:http://www.tipdm.com/html/p/catid1.html
用户也可通过百度网盘下载(抵制盗版,尊重版权),提取密码: 8m7b
RapidMiner数据挖掘建模工具
RapidMiner也叫YALE (Yet Another Learning Environment, https://rapidminer.com) ,提供了图形化界面,采用了类似Windows资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator)。YALE中提供了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的,基于Weka来构建,也就是说它可以调用Weka中的各种分析组件。
   为了将RapidMiner和Hadoop集成起来,创建扩展接口Radoop,它为RapidMiner提供其他的操作接口,可以在hadoop集群上运行任务;并且可以重用hive和mahout中的某些数据分析功能。
   功能和特点
     > 免费提供数据挖掘技术和库
     > 100%用Java代码(可运行在操作系统)
     >  数据挖掘过程简单,强大和直观
     >  内部XML保证了标准化的格式来表示交换数据挖掘过程
     >  可以用简单脚本语言自动进行大规模进程
     >  多层次的数据视图,确保有效和透明的数据
     >  图形用户界面的互动原型
     >  命令行(批处理模式)自动大规模应用
     >  Java API(应用编程接口)
     >  简单的插件和推广机制
     >  强大的可视化引擎,许多尖端的高维数据的可视化建模
     > 已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘
有关介绍详见:http://www.tudou.com/plcover/jjUp0rz9Bns/
KNIME数据挖掘建模工具
KNIME (Konstanz InformationMiner,http://www.knime.org)是基于Java开发的,可以扩展使用Weka中的挖掘算法。KNIME采用的是类似数据流(data flow)的方式来建立分析挖掘流程,挖掘流程由一系列功能节点组成,每个节点有输入/输出端口,用于接收数据或模型、导出结果。
KNIME(Konstanz InformationMiner, http://www.knime.org)是基于Eclipse开发环境来精心开发的数据挖掘工具。无需安装,方便使用。和YALE一样,KNIME也是用Java开发的,可以扩展使用Weka中的挖掘算法。和YALE不同点的是,KNIME采用的是类似数据流(data flow)的方式来建立分析挖掘流程(和SAS EM或SPSS Clementine等商用数据挖掘软件的操作方式类似)。挖掘流程由一系列功能节点(node)组成,每个节点有输入/输出端口(port),用于接收数据或模型、导出结果。(IDMer:感觉KNIME比Weka的KnowledgeFlow更好用,连接节点时很方便,直接用鼠标拖拽连接端口即可。而Weka中则需要在节点上按鼠标右键,再选择后续节点,比较麻烦,刚开始使用时找了半天才知道怎么连)
KNIME中每个节点都带有交通信号灯,用于指示该节点的状态(未连接、未配置、缺乏输入数据时为红灯;准备执行为黄灯;执行完毕后为绿灯)。在KNIME中有个特色功能——HiLite,允许用户在节点结果中标记感兴趣的记录,并进一步展开后续探索。
WEKA数据挖掘建模工具
WEKA (Waikato Environment for Knowledge Analysis)是一款知名度较高的开源机器学习和数据挖掘软件。高级用户可以通过Java编程和命令行来调用其分析组件。同时,WEKA也为普通用户提供了图形化界面,称为WEKA Knowledge Flow Environment和WEKA Explorer,可以实现预处理、分类、聚类、关联规则、文本挖掘、可视化等。
和R相比,Weka在统计分析方面较弱,但在机器学习方面要强得多。在Weka论坛 (http://weka.sourceforge.net/wiki/index.php/Related_Projects) 可以找到很多扩展包,比如文本挖掘、可视化、网格计算等等。很多其它开源数据挖掘软件也支持调用Weka的分析功能。
MATLAB 数据分析工具箱
MATLAB(矩阵实验室)是MATrix LABoratory的缩写,是一款由美国MathWorks公司出品的工程与科学计算软件。它是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。它具有下列优势:1)MATLAB程序语言易学,其代码编辑、调试交互式环境比较人性化,易于初学者上手;2)MATLAB软件较其他软件具有较高的灵活性,用户可以自己编写自定义函数来满足自己的需求,同时MATLAB自身提供较多的函数,用户可以进行直接调用;3)MATLAB具有较多的网络资源,一些用户根据自己的需要定义一些较新的算法或函数工具箱放在网络上共享。
    MATLAB是一个庞大的应用软件,主要包括核心的MATLAB基础工具箱和各专业领域的其他工具箱。在数据分析、数据挖掘领域MATLAB更是具有莫大优势,本书针对数据分析和挖掘相关的内容采用原理加实战的方式来对MATLAB相关函数进行介绍。在本章节中会对MATLAB软件的安装、一些数据分析和挖掘相关的工具箱以及简单函数的示例进行简单介绍,在接下来的原理章节介绍中,首先介绍数据挖掘分析的相关原理,然后针对每个原理选取MATLAB相关函数进行实战演示,使读者不仅对数据挖掘相关原理比较清晰,同时可以使用本书提供的MATLAB相关实例来切实的感受的相关数据挖掘原理的精髓。
对于初学者,可以在MATLAB的官方网站:https://cn.mathworks.com/programs/trials/trial_request.html?prodcode=ML&s_iid=main_trial_ML_cta1 下载试用版进行安装学习。
Microsoft SQL Server数据挖掘建模工具
Microsoft SQL Server 数据挖掘让用户能够通过直观的数据挖掘的预测性分析来做出明智合理的决策,无缝地整合 Microsoft 商业智能平台并可扩展至商业应用程序。
用户会因为许多丰富且创新的数据挖掘算法而获益良多,这些算法大多是由 Microsoft 研究人员所开发,其目的是为了更快速并且准确地支持常见的商业问题。
产品功能:
    > 购物篮分析 - 探究使用者经常会一起购买哪些项目,以便产生实时的采购建议及判断产品的位置如何直接影响用户的购买决策
    > 客户流失分析 - 预先处理可能会考虑取消其服务的客户,并指出可让这些客户留下来的好处
    > 市场分析 - 自动将类似的客户分组在一起来定义市场分割。使用这些细分市场可寻找有获利机会的客户
    > 预测 - 预测销售和存货数量并了解两者之间的相互关联性,以便预测瓶颈及提高性能
    > 数据浏览 - 分析不同客户之间的获利机会,或是将偏爱同一产品但品牌不同的客户进行比较,以便找出新的机会
    > 无人监督的学习方式 - 指出企业内不同元素之间的先前未知关系,让您根据多方情报做出更好的决策
    > 网站分析 - 了解人们如何使用您的网站并将类似的使用模式分组在一起,以便提供更好的使用经验给用户
    > 营销活动分析 - 针对最有可能响应促销活动的客户进行促销,以更有效的方式使用营销经费
    > 信息质量 - 指出数据输入或数据加载期间的异常情况并加以处理,以提高信息的质量
    > 文字分析 - 分析多方意见,以找出有关客户或员工所关心的常见话题和趋势,使用未经过组织的输入数据来做出决策
开发环境:
    > 具备可执行的深入洞察力,利用 Business Intelligence Development Studio (BIDS) 来快速且精确地做出决策。
    > 使用数据挖掘向导和数据挖掘设计工具来建立复杂的模型和交互式视觉效果
    > 使用增益图和收益图及交叉验证,以视觉和统计方式比较及对照模型的质量,看看是否正确,然后再加以部署
    > 用户因为弹性的增加而获益,让他们能够针对筛选过的数据建立多个不同的数据挖掘模型
对于初学者,可以在MICROSOFT的官方网站:http://www.microsoft.com/china/sql/2008/overview.aspx 下载试用版进行安装 学习。
SAS Enterprise Miner数据挖掘建模工具

SAS Enterprise Miner(EM)是SAS推出的一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件。它的运行方式是通过在一个工作空间(workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相应的设置,最后运行整个工作流程(workflow),便可以得到相应的结果。
    SAS Enterprise Miner是在数据挖掘市场上令人敬畏的竞争者。 SAS Entelprise Miner设计为被初学者和有经验的用户使用。它的GUI界面是数据流驱动的,且它易于理解和使用。它允许一个分析者通过构造一个使用链接连接数据结点和处理结点的可视数据流图建造一个模型。另外,此界面允许把处理结点直接插入到数据流中。由于支持多种模型,所以Enterprise Miner允许用户比较(评估)不同模型并利用评估结点选择最适合的。另外,Enterprise Miner提供了一个能产生被任何SAS应用程序所访问的评分模型的评分结点。
    SAS Enterprise Miner能运行在客户/服务器上或(计算机的外围设备)能独立运行的配置上。此外,在客户/服务器模式下,Enterprise Miner允许把服务器配置成一个数据服务器、计算服务器或两者的综合。EntepnseMiner被设计成能在所有SAS支持的平台上运行。该结构支持胖客户机配置(要求客户机上的完全SAS许可证)以及瘦客户机(浏览器)版本。
    数据访问、操纵和预处理:直接数据界面贯穿于SAS数据集。然而,数据也能通过标准SAS数据程序(例如:访问RDBMS和PC格式数据的ACCESS被访问。对Oracle、Informix、Sybase和DB2RDBMS的支持是通过ACCESS来实现。
    数据操纵能力包括通过基本SA3引擎可用的所有特征。此外,各种各样的数据取样和数据划分技术也通过合适的EntelprjseMiner结点被支持。
IBM SPSS Modeler数据挖掘建模工具
IBM SPSS Modeler原名Clementine,2009年被IBM收购后对产品的性能和功能进行了大幅度改进和提升。它封装了最先进的统计学和数据挖掘技术,来获得预测知识并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,SPSS Modeler具有功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终。
    拥有直观的操作界面、自动化的数据准备和成熟的预测分析模型,结合商业技术可以快速建立预测性模型。使用SPSS Modeler,可以有效挖掘和维系客户;提高客户的生命周期价值;识别并最小化风险和欺诈;给不同的客户提供个性化服务。

你可能感兴趣的:(hadoop,数据挖掘,matlab,TipDM)