收藏43个免费数据挖掘软件

数据挖掘是在大型数据集中发现模式的计算过程,涉及到使用人工智能、机器学习、统计分析和数据库系统的方法,目标是从数据集中提取信息,并将其转化为可理解的结构,以便进一步使用。
在当今的商业市场中,客户与企业、服务甚至产品之间的接触程度已经发生了变化。公司已经通过Facebook、Twitter和WhatsApp等社交平台变得容易访问,使其在线存在变得突出。这些平台提供了宝贵的数据,这些数据是非结构化的。这就是为什么大多数公司需要数据挖掘工具的原因。
数据挖掘软件允许不同的企业从不同的平台收集信息,并将数据用于各种目的,如市场评估和分析。数据挖掘帮助用户跟踪所有的重要数据,并利用这些数据来改善业务。此外,在商业环境中,该软件在做出明智的决策方面也变得非常重要。

数据挖掘软件帮助探索未知的模式,这对企业的成功具有重要意义。实际的数据挖掘任务是对大量数据进行自动分析,以提取以前未知的、有趣的模式,如聚类分析、异常记录(异常检测)和依赖关系(关联规则挖掘、顺序模式挖掘)。

顶级免费数据挖掘软件应具有的提点:
易于使用的界面:数据挖掘软件具有易于使用的GUI,可快速分析数据。
预处理:数据预处理是数据挖掘中的重要步骤,因为它涉及到将原始数据转换为可理解的格式的过程。它涉及数据清理,以解决缺失值和不一致的问题。数据集成和转换也正在进入数据预处理。
可扩展的处理:数据挖掘软件允许可扩展的处理。这是从单个用户系统到大型组织处理。换句话说,该软件可以根据用户数量和要处理的数据大小进行扩展。
高性能:数据挖掘软件通过高性能数据挖掘节点提高了性能,特别是在处理大量数据的公司中。挖掘工具开发了一个环境,可以更快地产生业务结果。
异常检测:识别可能有趣的异常数据记录或需要进一步调查的数据错误。
关联规则学习:搜索变量之间的关系。
聚类:在数据中以某种方式或另一种“相似”方式发现组和结构而不使用数据中的已知结构的任务。
分类:概括已知结构以应用于新数据的任务。
回归:试图找到一个函数,该函数以最小的误差对数据进行建模,即用于估计数据或数据集之间的关系。
数据汇总:数据挖掘工具应能够将数据压缩为内容丰富的表示形式。通常,制表之类的方法是用于汇总大型数据集的常用技术。该软件提供了交互式数据准备工具。

01 Orange
Orange是一个开源数据可视化和分析工具。数据挖掘通过可视化编程或Python脚本完成。该工具具有用于机器学习的组件,用于生物信息学的附加组件和文本挖掘,并且具有用于数据分析的功能。Orange是一个Python库。Python脚本可以在终端窗口,PyCharm和PythonWin等集成环境或iPython这样的shell中运行。

02 Anaconda
Anaconda是一个由Python支持的开放数据科学平台。Anaconda的开源版本是Python和R的高性能发行版,其中包括100多个用于数据科学的最受欢迎的Python,R和Scala软件包。还可以访问720多个软件包,这些软件包可以轻松地与conac,Anaconda附带的软件包,依赖项和环境管理器一起安装。包括最受欢迎的Python,R&Scala软件包,用于统计,数据挖掘,机器学习,深度学习,模拟和优化,地理空间,文本和NLP,图形和网络,图像分析。

03 R Software Environment
R是一个统计计算和图形的免费软件环境。它可以在各种UNIX平台、Windows和MacOS上编译和运行。R是一套集成的软件设施,用于数据处理、计算和图形显示。其中一些功能包括:有效的数据处理和存储设施、一套对数组特别是矩阵进行计算的运算符、一套大型、连贯、综合的数据分析中间工具、直接在计算机上或在硬拷贝上进行数据分析和显示的图形设施,以及包括条件在内的发达、简单和有效的编程语言。

04 Scikit-learn
Scikit-learn是一个面向Python编程语言的开源机器学习库,它的特点是提供了各种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升、k-means和DBSCAN,并被设计为与Python数值和科学库NumPy和SciPy互操作。分类:识别一个对象属于哪一类应用。垃圾邮件检测,图像识别。算法。SVM,最近邻,随机森林。回归:预测与对象相关的连续值属性。应用:药物反应、股票价格。药物反应、股票价格 算法:SVR、岭回归。SVR,山脊回归 聚类 :将相似的对象自动分组为集合。
05 Weka Data Mining
Weka是一个用于数据挖掘任务的机器学习算法的集合。这些算法既可以直接应用于数据集,也可以从你自己的Java代码中调用。Weka的功能包括机器学习、数据挖掘、预处理、分类、回归、聚类、关联规则、属性选择、实验、工作流和可视化。Weka是用Java编写的,由新西兰怀卡托大学开发。Weka的所有技术都是基于这样的假设:数据是以单个平面文件或关系的形式存在的,其中每个数据点由固定数量的属性描述Weka提供了对SQL数据库的访问……

06 Shogun
Shogun是一个用C++编写的免费开源工具箱。它为机器学习问题提供了许多算法和数据结构。Shogun的重点是内核机,如用于回归和分类问题的支持向量机。Shogun还提供了隐藏马尔科夫模型的完整实现。工具箱无缝地允许轻松结合多种数据表示、算法类和通用工具。这使得数据管道的快速原型化和新算法的可扩展性成为可能。它现在提供的功能跨越了机器学习方法的整个空间,包括分类、回归、数据分析等许多经典方法。

07 DataMelt
DataMelt,即DMelt,是一款用于数值计算、统计、分析大数据量(“大数据”)和科学可视化的软件。该程序可用于许多领域,如自然科学、工程、金融市场的建模和分析。DMelt是一个计算平台。它可以在不同的操作系统上使用不同的编程语言。与其他统计程序不同,它不受单一编程语言的限制。DMelt可以与多种脚本语言一起使用,如Python/Jython,BeanShell,Groovy,Ruby,以及与Java一起使用。最全面的软件。

08 Natural Language Toolkit
NLTK是构建Python程序以处理人类语言数据的领先平台。它为50多个语料库和词汇资源(如WordNet)提供了易于使用的接口,同时还提供了一套用于分类、标记化、词干、标记、解析和语义推理的文本处理库,工业级NLP库的封装器,以及一个活跃的讨论论坛。由于有一本介绍编程基础和计算语言学主题的实践指南,再加上全面的API文档,NLTK适合语言学家、工程师、学生、教育工作者、研究人员和行业用户。NLTK适用于Windows、Mac OS X和Linux。

09 Apache Mahout
Apache Mahout项目的目标是构建一个快速创建可扩展的高性能机器学习应用的环境。Apache Mahout是一个简单且可扩展的编程环境和框架,用于构建可扩展的算法,包含了Scala和Apache Spark、H2O、Apache Flink的各种预制算法。它还使用了Samsara,它是一个类似R语法的向量数学实验环境,可以在规模上工作。Apache™ Mahout是一个可扩展的机器学习算法库,在Apache Hadoop之上实现,使用MapReduce范式。

10 GNU Octave
GNU Octave代表了一种用于数值计算的高级语言,由于它的命令行界面,用户可以通过它来解决线性和非线性问题,以及进行其他数值实验。由于它的命令行界面,用户可以通过一种主要与Matlab兼容的语言来解决线性和非线性问题,并进行其他数值实验。该软件具有强大的面向数学的语法等特点,并内置了绘图和可视化工具,它是免费软件,可以运行在GNU/Linux、macOS、BSD和Windows上,兼容许多Matlab脚本。与Matlab基本兼容的语法是Octave语法。

11 GraphLab Create
GraphLab Create是一个机器学习平台,用于构建智能、预测性应用,涉及清理数据、开发特征、训练模型以及创建和维护预测性服务。这些智能应用为包括推荐人、情感分析、欺诈检测、流失预测和广告定位在内的用例提供预测。训练好的模型可以部署在Amazon Elastic Compute Cloud (EC2)上,并通过Amazon CloudWatch进行监控。可以通过 RESTful API 对它们进行实时查询,并通过可视化仪表板查看整个部署管道。对于GraphLab Create用户来说,从原型设计到生产的时间大大缩短。

12 ELKI
ELKI框架是用Java编写的,围绕着一个模块化的架构。目前包含的算法大多属于聚类、离群检测和数据库索引。ELKI的一个关键概念是允许任意算法、数据类型、距离函数和索引的组合,并评估这些组合。当开发新的算法或索引结构时,现有的组件可以重复使用和组合。ELKI是围绕数据库核心建模的,它采用垂直数据布局,将数据存储在列组中。

13 Apache UIMA
非结构化信息管理应用程序是分析大量非结构化信息的软件系统,以发现与最终用户相关的知识。一个UIM应用程序的例子可能会摄取纯文本,并识别实体,如人、地点、组织;或关系,如works-for或located-at UIMA使应用程序能够被分解成组件,例如 “语言识别”=>“语言特定分割”=>“句子边界检测”=>“实体检测(人名/地名等)”。每个组件实现框架定义的接口,并通过XML描述符文件提供自我描述的元数据。

14 KNIME Analytics Platform Community
KNIME分析平台是数据驱动创新的领先的开放式解决方案,帮助你发现隐藏在数据中的潜力,挖掘新的洞察力,或预测新的未来。KNIME分析平台拥有超过1000个模块,数百个随时可运行的示例,全面的集成工具,以及最广泛的高级算法选择,是任何数据科学家的完美工具箱。大量的原生节点、社区贡献和工具集成使 KNIME 分析平台成为任何数据科学家的完美工具箱。

15 TANAGRA
Tanagra代表了学术和研究用途的免费数据挖掘软件。它提供了探索性数据分析、统计学习、机器学习和数据库领域的多种数据挖掘方法。它是SIPINA的后继者,这意味着它提供了各种监督学习算法,尤其是决策树的交互式和可视化构建。因为它不仅包含了监督学习,还包含了聚类、因子分析、参数和非参数统计、关联规则、特征选择和构造算法等其他范式,所以Tanagra非常强大。

16 Rattle GUI
Rattle是免费的开源软件,源代码可以从Bitbucket仓库中获得。Rattle给用户提供了审查代码的自由,用户可以将其用于任何用户喜欢的目的,也可以随意扩展,不受限制。Rattle是一个流行的使用R进行数据挖掘的GUI,它可以呈现数据的统计和可视化摘要,转换可以随时建模的数据,从数据中建立无监督和监督模型,以图形方式呈现模型的性能,并对新数据集进行评分。

17 CMSR Data Miner
StarProbe Data Miner或CMSR Data Miner Suite是一款软件,它为预测建模、分割、数据可视化、统计数据分析和基于规则的模型评估提供了一个集成环境。对于高级用户,还提供了集成分析和规则引擎环境。该软件具有很多特点,如:深度学习建模RME-EP代表了非常强大的专家系统外壳规则引擎,支持神经网络、自组织地图、决策树、回归等预测建模。它在开发过程中使用了类似SQL的表达式,用户可以非常方便快捷的学习。

18 OpenNN
OpenNN是一个用C++编程语言编写的开源类库,它实现了机器学习研究的主要领域–神经网络。该库实现了任意层数的非线性处理单元,用于监督学习。这种深度架构可以设计出具有通用近似特性的神经网络。OpenNN的主要优势是其高性能。它采用C++开发,以实现更好的内存管理和更高的处理速度,并通过OpenMP实现CPU并行化,用CUDA实现GPU加速。OpenNN是用ANSI C++编写的。

19 Dataiku DSS Community
Dataiku DSS是数据科学家、数据分析师和工程师团队的协作式数据科学软件平台,可供数据科学家、数据分析师和工程师团队更高效地探索、原型化、构建和交付自己的数据产品。Dataiku开发了独特的高级分析软件解决方案,使企业能够更高效地构建和交付自己的数据产品。Dataiku DSS为数据科学家和初级分析师提供了一个协作和基于团队的用户界面,为数据项目的开发和部署提供了一个统一的框架,并可立即访问从头开始设计数据产品所需的所有功能和工具。

20 DataPreparator
DataPreparator是一款免费的软件工具,旨在协助完成数据分析和数据挖掘中常见的数据准备(或数据预处理)任务。DataPreparator提供的功能包括:字符删除、文本替换、日期转换、删除所选属性、移动所选属性、等宽、等频、等频从分组数据中删除含有缺失值的记录、删除含有缺失值的属性、推算缺失值、从模型中预测缺失值(依赖树、奈夫贝叶斯模型)、包括缺失值模式、Z-score metho。方块图法,创建二元属性,用指数替换名义值,减少标签数量,十进制,线性,双曲正切,软最大……

21 LIBLINEAR
LIBLINEAR是一个开源库,数据科学家、开发者和终端用户都使用它来执行大规模的线性分类。LIBLINEAR易于使用的命令工具和库调用使数据科学家和开发人员能够使用LIBLINEAR来执行向量机的物流、回归和线性支持。有了LIBLINEAR,开发人员和数据科学家能够使用与LINLINEAR通用SVM求解器中的LIBSVM相同的数据格式,LINLINEAR通用SVM求解器也有类似的用法。LINLINEAR提供了几个机器语言接口,可供数据科学家和开发人员使用。

22 Chemicalize.org
Chemicalize提供即时的化学信息学解决方案。它是一个强大的化学计算、搜索和文本处理的在线平台。计算视图为任何分子结构提供基于结构的预测。可用的计算包括元素分析,名称和标识符,pKa,logP/logD,以及溶解度。搜索视图可以让你对Chemicalize数据库进行基于文本和基于结构的搜索,以找到网页来源和相关结构的结果。您甚至可以结合基于文本和结构的查询来实现高级搜索功能。

23 Vowpal Wabbit
Vowpal Wabbit(VW)项目是由Microsoft Research和(先前)Yahoo!赞助的一种快速的核心学习系统。研究。可通过邮件列表获得支持。拥有快速学习算法的方法有两种:(a)从慢速算法开始并加快速度,或者(b)建立本质上快速的学习算法。这个项目是关于方法(b)的,目前它已经成为一种状态,对于其他人来说,它可以作为研究和实验的平台。

24 mlpy
Mlpy被称为机器学习Python,代表了一种基于NumPy / SciPy(用于数学,科学和工程的基于Python的开源软件生态系统)和GNU科学库(代表C和C的数值库)构建的Python机器学习方法。提供大量数学例程(例如随机数生成器,特殊函数和最小二乘拟合)的C++程序员。针对有监督和无监督的问题提供了广泛的最新机器学习方法,mlpy旨在在模块化,可维护性,可再现性,可用性和效率之间找到合理的折衷方案。
25 Dlib
lib是一个现代的C ++工具包,其中包含机器学习算法和工具,以便使用C ++创建复杂的软件来解决实际问题。它被广泛用于机器人,嵌入式设备,移动电话和大型高性能计算环境等领域。它是免费的,这意味着用户可以在任何应用程序中使用它。Dlib的主要功能是:文档–它为每个类和函数提供完整而精确的文档,提供了许多示例程序。

26 CLUTO
Cluto是一个软件包,用于对低维和高维数据集进行聚类,并分析各种聚类的特征。它非常适合于聚类数据集,出现在许多不同的应用领域,包括信息检索,客户购买交易,网络,地理信息系统,科学和生物学。CLUTO的发行版包括独立程序和一个库,通过这个库,应用程序可以直接访问CLUTO中实现的各种聚类和分析算法。该软件有几个特点,如多类聚类算法–基于分区、聚类与图分区;多种相似性/距离函数–欧氏距离、余弦、相关系数、扩展Jaccard……

27 TraMineR
TraMineR代表的是R-package(用于统计计算和图形的免费软件环境,它可以在UNIX平台、Windows和MacOS等多种平台上编译和运行),旨在挖掘、描述和可视化状态或事件的序列,更一般的是离散序列数据。分析社会科学中的传记纵向、数据,如描述职业或家庭轨迹的数据,是其主要目标。这个平台有很多功能,可以适用于很多其他种类的分类序列数据。

28 ROSETTA
ROSETTA是一个在粗糙集理论框架内分析表格数据的工具包。它是为支持整个数据挖掘和知识发现过程而设计的。从最初的数据浏览和预处理,通过计算最小属性集和生成if-then规则或描述性模式,到验证和分析诱导规则或模式。这个工具箱并不是专门针对任何特定的应用领域,而是作为一个基于辨识度建模的通用工具。它提供了高度直观的GUI环境,在这个环境中,数据导航能力得到了强调。

29 Pandas
Pandas 是一个开源的 BSD 许可库,为 Python 编程语言提供高性能、易用的数据结构和数据分析工具。Pandas 是 NUMFocus 赞助的项目。这将有助于确保 pandas 作为一个世界级的开源项目的成功开发,并使其有可能对项目进行捐赠。获取 pandas 的最佳方式是通过 conda 安装,Python 2.7、Python 3.4 和 Python 3.5 的 osx-64、linux-64、linux-32、win-64、win-32 的 Builds 都可用。

30 Fityk
Fityk是一个数据处理和非线性曲线拟合的程序。它主要用于分析粉末衍射、色谱、光致发光和光电光谱、红外和拉曼光谱等实验技术数据的科学家,也用于拟合峰-钟形函数(高斯、洛伦兹、Voigt、Pearson VII、二叉高斯。EMG、Doniach-Sunjic等),但它适用于任何曲线与二维(x,y)数据的拟合。

31 KEEL
KEEL(Knowledge Extraction based on Evolutionary Learning)是一个开源(GPLv3)的Java软件工具,可用于大量不同的知识数据发现任务。KEEL提供了一个简单的基于数据流的GUI,用于设计不同数据集和计算智能算法(特别关注进化算法)的实验,以评估算法的行为。它包含了各种经典的知识提取算法、预处理技术(训练集选择、特征选择、离散化、缺失值的推算方法等)、基于计算智能的学习算法、混合模型、对比实验的统计方法等。

32 ADaMSoft
ADaMSoft是一个免费开源的数据管理、数据和网络挖掘、统计分析系统。ADaMSoft提供的程序有:主成分分析、文本挖掘、网络挖掘、三路时间数组分析、模糊因变量线性回归、实用程序、合成表、在ADaMSoft中导入数据表(文件)(创建字典)、图表、神经网络(MLP)、定性变量的关联测量。线性代数、评估函数逼近的结果、数据管理、函数拟合、误差定位和数据推算、决策树、定量变量的统计、记录联系、评估分类模型的结果、聚类分析(k-means法)、对应分析、等……

33 Sentic API
Sentic API提供了SenticNet 4的语义和感性,如与概念相关的指代和内涵信息,SenticNet 4是一个常识性知识的语义网络,它包含了5万个单词和多词表达的节点,以及节点之间关系的数千个连接。Sentic API有40种不同的语言,用户可以有选择地在线访问最新版本的知识库。

34 ML-Flex
ML-Flex使用机器学习算法从独立变量中导出模型,目的是预测因变量(类变量)的值。例如,机器学习算法早已应用于Ronald Fisher爵士于1936年引入的Iris数据集,该数据集包含四个独立变量(萼片长度、萼片宽度、花瓣长度、花瓣宽度)和一个因变量(Iris花的种类=setosa、versicolor或virginica)。从四个独立变量中推导出预测模型,机器学习算法通常可以以近乎完美的精度区分。

35 Databionic ESOM
Databionics ESOM工具提供了许多使用新兴自组织地图(ESOM)的数据挖掘任务。使用数据仿生学原理对高维数据进行可视化、聚类和分类,可以交互式或自动进行。它的功能包括ESOM训练、U-Matrix可视化、探索性数据分析和聚类、ESOM分类以及U-Maps的创建。Databionic ESOM Tools是一套程序,用于执行数据挖掘任务,如使用新兴自组织地图(ESOM)进行聚类、可视化和分类。其特点包括使用不同的初始化方法、训练算法、距离函数、参数冷却策略、ESOM网格拓扑结构和邻域核来训练ESOM。

36 MALLET
MALLET被称为Machine Learning for LanguagE Toolkit,是一个基于Java的软件包,用于自然语言统计处理、文档分类、聚类、主题建模、信息提取和其他机器学习应用于文本。它提供了复杂的文档分类工具–用于将文本转换为 "特征 "的高效例程、多种算法(包括奈夫贝叶斯、最大熵和决策树),以及使用几种常用指标评估分类器性能的代码。它还提供了用于从文本中提取命名实体等应用的序列标记工具。

37 streamDM
streamDM是一款使用Spark Streaming挖掘大数据流的开源软件,由华为诺亚方舟实验室开发。本软件采用Apache Software License v2.0授权。如今,大数据流学习更具挑战性,因为数据在流的生命周期内可能不会保持相同的分布。学习算法需要非常高效,因为每一个流来的例子都可以处理一次,或者这些例子需要用很小的内存占用来总结。

38 ADaM
ADaM用于将数据挖掘技术应用于遥感数据和其他科学数据。挖掘和图像处理工具包由可互操作的组件组成,这些组件可以通过各种方式连接在一起,应用于不同的问题领域。ADaM有超过100个组件,可以进行配置,以创建定制的挖掘过程。预处理和分析工具帮助用户将数据挖掘应用于其具体问题。

39 MiningMart
MiningMart可以帮助缩短这个时间。MiningMart项目旨在为决策者提供新的技术,使他们能够直接访问存储在数据库、数据仓库和知识库中的信息。其主要目标是通过提供以下目标来支持用户做出智能选择。直接进入数据库的预处理操作员;使用机器学习进行预处理;详细记录成功的案例;高质量的发现结果;可扩展到非常大的数据库和自动选择或改变表示的技术。

40 Modular toolkit for Data Processing
模块化数据处理工具包(MDP)是一个广泛使用的数据处理算法库,可以按照流水线类比进行组合,构建更复杂的数据处理软件。从用户的角度来看,MDP由监督和非监督学习算法的集合,以及其他数据处理单元(节点)组成,这些单元可以组合成数据处理序列(流)和更复杂的前馈网络架构。给定一组输入数据,MDP负责连续训练或执行网络中的所有节点。

41 Jubatus
Jubatus支持的基本任务包括分类、回归、聚类、最近邻、离群检测和推荐。Jubatus是第一个在大数据数据流上进行在线分布式机器学习的开源平台。Jubatus采用松散的模型共享架构,通过定义三个基本操作,实现机器学习模型的高效训练和共享。更新、混合和分析,与Hadoop中的Map和Reduce操作方式类似。此外,Jubatus还支持可扩展的机器学习处理。它可以使用商品硬件集群每秒处理100000个或更多数据。

42 LIBSVM
LIBSVM是一个支持向量机(SVM)的库。LIBSVM提供的工具有:多核LIBLINEAR、分布式LIBLINEAR、增量学习和减量学习的LIBLINEAR、单对单多类分类的LIBLINEAR、大规模rankSVM、超过2^32个实例/特征的LIBLINEAR(实验)、数据无法放入内存时的大型线性分类、数据实例的权重。

43 Arcadia Data Instant
Arcadia Data Instan使用智能加速技术,通过灵活的拖放式访问实现超快的分析和BI。Arcadia Data Instant提供了一个集群内执行引擎,可以在Apache Hadoop和其他现代数据平台上实现无数据移动的扩展性能。Arcadia Data Instant支持Apache Kafka上的可视化。通过这一点,用户有一个很好的平台来快速下载一个工具包,并开始探索Kafka主题的可视化。Arcadia Data Instant提供的主要功能包括连接、发现、建模、可视化、交互、管理、扩展、优化、安全、共享和发布以及高级分析。

你可能感兴趣的:(架构师成长之路)