大数据 多维分析与商业智能
企业界正在发生变化。 客户动态正在发生变化。 客户在变化。 每个人都在努力找出原因,而不仅仅是谁或如何。 仅仅了解一家公司从A点到B点的方式已经不再可行。企业正在进行实时竞争,以了解客户何时购买商品,在哪里购买以及在进入商店之前的想法。或访问网站。 大数据,大数据分析以及集成的商业智能(BI)和大数据分析平台的功能可以提供帮助。
大数据分析还很年轻,敏捷BI是一个新概念。 您如何整合这些相似但不同的概念? 它不仅仅涉及数据或技术,还包括所有内容,包括社交媒体,客户行为和客户细分。 您无法插入某些大数据设备,并期望看到未来。 BI,主数据管理(MDM),大数据和分析必须集成到一个平台中,并汇总为一个视觉上创新的解决方案。
BI不是一个新概念。 数据仓库,数据挖掘和数据库技术已经以多种形式存在了多年。 大数据一词可能是新的,但多年来,许多IT专业人员已在各个行业中处理大量数据。
但是,现在大数据不仅涉及大量数据。 挖掘和分析半结构化和非结构化数据是新的。 十五年前,我们没有分析电子邮件,PDF文件或视频。 互联网只是一种时尚。 分布式计算并不是昨天创建的,但是能够在短时间内以较小的预算分配和扩展系统是新的。 同样,预测未来并不是一个新概念,但是能够访问和存储所有创建的数据是新的。
各种消息来源称,今天存在的数据中有90%仅存在两年之久。 而且数据正在快速增长。 如果世界上所有数据的90%是在过去两年中创建的,那对数据有何看法?
许多企业拥有多个数据库和多个数据库供应商,它们的数据量达到TB甚至是PB。 其中一些系统在30或40年内积累了数据。 许多企业使用此旧数据构建了整个数据仓库和分析平台。 大型零售公司,例如沃尔玛,早在大数据出现之前就已经成为价值数十亿美元的公司。 因此,推动业务发展的并不是数据。
数据即服务可以推动业务发展。 想想亚马逊。 这是一家在线电子商务产品公司。 现在,人们将亚马逊视为平台即服务,软件即服务,大数据即服务以及云数据中心公司。 多年来,亚马逊通过各种开源技术构建了令人难以置信的推荐引擎。 Facebook游戏公司Zynga以诸如Farmville之类的热门游戏而闻名,它使用亚马逊的云服务来扩展自己的数据库和分析。
为了使数据对用户有用,它必须将客户与财务和销售数据,产品数据,营销数据,社交媒体,人口统计数据,竞争对手的数据等集成在一起。
设计集成平台绝非易事。 提取,传输和加载(ETL)始终是数据仓库项目中最长的阶段。 有各种各样的ETL最佳实践,有时它们有用,有时却没有。 如果ETL做得不好,您突然会有不正确和不可信的数据。 不信任的数据成为不信任和未使用的系统。 没有人想要。
您可能会觉得像产品数据库这样的事情会很容易。 但是它变成了基于位置的版本,错误,更新,不同的发行版,不同的发行周期,不同的许可证以及不同的许可证的游戏。 那只是在一家拥有几种产品的公司中。 对于拥有数千种不同产品的零售公司而言,情况变得更加复杂。
集成的BI和大数据平台可能具有来自电子邮件的非结构化数据。 它们可能包括来自日志的半结构化数据。 电子邮件系统可能分散在全球多个数据中心的各种数据库中。 添加一些防火墙,突然将数据从一个地方移动到另一个地方就成了后勤上的噩梦,这本身就是一个项目。 系统日志可能是未格式化,半格式化或乱七八糟的本身的另一个项目。
有一个原因为什么像Apache Hadoop这样的大数据技术鼓励将系统移动到数据所在的位置,而不是将数据移动到系统。 在防火墙之间跨网络传输数据需要花费时间。 您会丢失数据,数据包,文件。 信任成为一个大问题。
noSQL和Hadoop的核心概念是将应用程序移至数据,但并非如此简单。 如果您有100个不同的系统,是否要向每个系统添加100个同一应用程序的实例? 尽管有些人可能会认为他们掌握了MDM,但没有人知道。 当您拥有一个不容易集成或加入的产品MDM,销售MDM和客户MDM时,向每个系统添加应用程序不会突然集成或加入其中的任何一个。 它仍然是一个有许多孤岛的系统,没有人可以连接。
即使企业将大数据应用程序安装在一个完美的平台上,该平台集成并连接了所有不同形式的数据,也将存在重大问题。 事实是,您不能突然在用户正在使用的实时系统上运行复杂的算法。 它可能会失败。 这可能会降低性能。 这可能会破坏数据。 可能存在安全问题。 安装需要大量空间,内存和速度的应用程序可能会导致旧系统出现故障。 在这些旧系统上,它甚至可能无法正常工作。 如果可以,它与现有的,未连接的MDM或BI系统有何不同?
BI和大数据分析平台必须创新。 它必须是下一代。 它必须使用内存技术或配置系统以使用诸如Hadoop和Apache Cassandra之类的工具作为暂存区,沙箱,存储系统,并成为新的且经过改进的ETL系统。 它必须集成结构化,非结构化和半结构化数据。 这个难题有很多方面。
集成的BI和大数据分析平台是一个不同的系统。 您可以选择建造还是购买选项。 您必须考虑现有系统,用例以及员工的经验水平和能力。 一些公司可能只想使用香草Hadoop(Hadoop分布式文件系统[HDFS]和MapReduce),Zookeeper,Solr,Sqoop,Hive,HBase,Nagios和Cacti构建一个完整的开源系统,而其他人可能只是寻找更多支持,并尝试使用IBM®InfoSphere®BigInsights™和IBM Netezza构建系统。 其他公司可能希望分离结构化数据和非结构化数据,并为用户,高级用户和应用程序构建图形用户界面(GUI)层。
这真的取决于公司。 它不仅是即插即用系统。 无论是建造还是购买,每个级别都有多个部分。
ETL,数据提取以及涉及的所有过程始终是重要的第一步,第二步,第三步等等。 您不能将大数据应用程序转储到事务系统上,并期望事情能够正常进行而不会降低原始系统的性能,也不能期望它与除使用中的系统以外的任何其他组件良好地集成。 因此,有必要将一些数据提取到Hadoop或任何其他noSQL系统或大规模并行处理(MPP)数据仓库中。 有多种工具和方法可以遵循,并且在很大程度上取决于系统,源,数据,规模和人员。
您可能从Sqoop之类的东西开始。 它是从关系数据库管理系统提取数据的好工具。 添加其他开源工具(例如Flume或Scribe)可以帮助处理日志。 还有Talend或IBM InfoSphereDataStage®之类的ETL工具,它们现在都有大数据集成商。 这些工具更加可视化,不需要计算机科学博士学位即可构建基础架构。 两种工具都提供技术文档,更新和GUI可视化工具。 他们总是在进步; 它们已在许多行业和企业中使用。
一些公司只喜欢开源。 其他公司可能有许多基于各种IBM产品构建的系统。 显然,将已经使用的技术与新技术集成是一个重要的考虑因素。
构建您自己的ETL系统非常耗时,如果结果不能满足您的要求,那么这样做可能会令人心碎。 Hadoop有很多部分,您可能需要的不仅仅是Sqoop。 集成和添加多个组件可能会很痛苦,尤其是如果您缺乏经验和知识,或者想构建自己的ETL工具。 该过程需要时间和耐心。 您也可能会遇到干扰。 您可以使用社区稍后转储的开源工具。 或者,您可能使用各种内部应用程序和开放源代码工具配置和开发自己的ETL工具,然后开放源代码社区更改了几件事,或者您的一些开发人员离开了,突然之间您有了一个没人知道如何维护的系统或修复。
明智的企业会考虑自己的员工,经验,预算和潜力,并且是现实的。 例如,如果企业的IT员工相对较少,那么查看Google或Facebook如何构建其系统就不是一个好主意。 请勿将您的小型IT商店与拥有多个服务器和计算机科学专业毕业生的公司进行比较,这些公司都在那些特定的基础结构和系统上工作。 有时,使用云服务或外部人员可能是唯一的选择。 有时,Netezza等大数据设备是最佳选择。
数据存储是一个巨大的因素,可能需要您使用各种技术。 在Hadoop系统中,有HBase。 但是有些公司根据需要使用Cassandra,Neo4j,Netezza,HDFS和其他技术。 HDFS是文件存储系统。 HBase是类似于Cassandra的列式存储。 许多公司使用Cassandra进行更多的近实时分析。 但是HBase正在改进。
当您想使用开源数据库管理系统进行大数据分析时,可以考虑使用HBase或Cassandra。 就数据仓库平台而言,Netezza是分析和BI行业中的顶级技术之一。 大数据集成的最佳选择是使用一个集成平台,该平台由Hadoop和Cassandra组成,用于非结构化或半结构化数据,而Netezza则用于结构化数据。
IBM Netezza客户智能设备将几种不同的技术组合到一个平台中。 在顶层(即用户层),它依赖于IBMCognos®BI软件,这是一种商业智能和报告产品。 Cognos BI是令人印象深刻的产品,许多企业都将其用于各种BI和数据仓库需求。 在数据仓库存储层,Netezza非常适合其MPP数据库系统。 该系统适用于结构化数据,但是当您将Hadoop或Cassandra用于非结构化和半结构化数据时,您将创建一个集成的BI和大数据分析平台。
在GUI和用户前端层,系统还有许多其他功能。 超级用户可能会使用IBMSPSS®Statistics或R之类的工具进行数据挖掘,预测建模,机器学习以及构建复杂的算法和模型。 您的日常销售人员可能会使用Cognos之类的工具来进行BI报告,大数据报告,仪表板和记分卡。 像Cognos这样的工具非常适合为各种用户提供浏览数据或查看简单报表的机会。
GUI和前端层还有其他部分,例如机器学习工具(例如Apache Mahout)或Apache Hive(用于结构化查询语言),但是这些工具也可以是基础结构的一部分。 最大的因素是将结构化数据和非结构化数据集成为BI和数据仓库以及大数据分析基础架构的一部分。 是服务吗? 谁是用户?
用户不在乎基础架构。 他们不在乎它是否集成。 他们只关心是否能够在正确的时间获得正确的数据。
集成BI和大数据分析并非易事。 任何数据或分析系统的目标都是使数据有用并尽可能多地供用户使用。 大数据设备是其中一种方法。 开源Hadoop系统是另一种方式。 两者都需要时间,耐心和创新。
开源系统的实现速度要快得多,花费也要便宜得多,但是您需要具有这种经验的人员。 如果您没有使用大数据的经验,那么大数据供应商的设备可能会是更好的选择,尽管价格昂贵。 请记住,并非每个人都想成为软件或硬件公司。 有时,构建集成的BI和大数据平台需要一些构建和购买才能到达必须去的地方。
翻译自: https://www.ibm.com/developerworks/analytics/library/ba-big-data-bi/index.html
大数据 多维分析与商业智能