浅谈大数据如何应用?

浅谈大数据如何应用?_第1张图片
大数据所面临的五大问题中最后一个是大数据应用,也是大数据问题的具象和最终展现形式。如果用更高度的概括来表述大数据的生命周期,可以归纳为:大数据来源+大数据技术+大数据应用。三者缺一不可、彼此相承,见下图:
浅谈大数据如何应用?_第2张图片
**

一|大数据应用特点

**
大数据应用通常被划分为第三平台应用,以此来区别于第二平台的应用。大数据应用有如下四大特点:

· 弹性(Elasticity)
· 敏捷性(Agility)
· 数据为中心(Data-centric)
·应用服务化(As-a-Service)
浅谈大数据如何应用?_第3张图片

(1)应用弹性
大数据应用的弹性与所有第三平台应用一模一样,从云基础架构(IaaS)的角度解读是基础架构级资源可以随着业务、应用的需求变化而具有水平或垂直伸缩能力(Scale-Up/Down/ Out/In),从PaaS角度看是指服务于应用的各类数据服务、编程接口、消息队列等平台级资源的按需可调节性。IaaS与PaaS结合起来保证了顶层应用的弹性。
(2)应用敏捷性
大数据应用的敏捷性有两层含义,一层是从应用的开发与交付采用敏捷模式,如Scrum/Waterscrumfall等敏捷开发模式、DevOps、持续集成等概念;另一层指的是应用生命周期中通常以事件或时间为驱动,当侦测到符合某种特征的事件,如寻找热点时间、舆情监控)发生或在某时间范围内,如春晚需要对海量数据进行高时效性,如实时处理时,大数据应用能及时根据数据趋势做出分析统计、预测以及调整商务策略。
(3)数据中心化
数据为中心指的是随着大数据处理技术的发展,大数据应用越来越面向丰富的数据集,有调研26表明通常企业收集存储的信息只有三分之一是文本与静态图片信息,而剩下的三分之二则是视频与音频信息,也就是说大数据应用在这些更为动态的数据集中可以获取更多有价值的信息。绝大多数人都相信我们身处一个越来越依赖数据,依赖海量数据来辅助我们做出有根据的(Informed)决策的时代。
(4)应用服务化
应用服务化对于大数据应用而言就是Big-Data-as-a-Service(大数据即服务),特别是在云计算已经几乎唾手可得的时代,越来越多的大数据分析与管理服务可以在各种形态的云架构上获得,它们与之前的XaaS类型服务如出一辙,按需分配资源,按使用额度精细计费,支持多租户场景,从供给方角度通过资源共享实现低资源闲置率→高服务营收。应用服务化带来的另一个好处是可以避免重新发明轮子类,如重复建设的企业多部门间资源浪费。
二 |大数据应用优势
大数据应用能为企业带来哪些好处呢?见下图:
浅谈大数据如何应用?_第4张图片
(1)产品快速迭代,缩小产品推向市场的时间
产品部门通过大数据的应用可以减少产品推向市场、更新换代(迭代)的时间。以制药企业为例,一款新药的研发、临床耗时长而且费用极高,有统计表明平均一款新药的开发费用超过5亿美元,使用大数据分析与建模可以在研发的早期阶段就模拟中后期场景从而大幅缩短制药周期(如早期预测失败以避免全面失败。
(2)优化资源分配
优化企业资源分配是大数据的一类典型应用。以人力资源部门、招聘部门为例,通过对在职、离职员工的反馈、KPI表现、评估等数据分析可以对新员工招聘做出指导意见,并能提高员工顺利融入团队,对提高ROI产生积极意义。
资源分配优化还有另一个维度,那就是从数据库和数仓的角度来看问题。上文中我们提到了数据中心化,它指的就是所有的数据都是最终存储在某种、某个数仓或数据库中。两者的区别在于数仓侧重于完成AP类型的批处理操作,而数据库侧重于TP类型的实时交易化数据处理。当然,两者之间的边界很多时候并没有很清晰的边界。
我们知道在过去的10年的大数据与云计算的突飞猛进的发展过程中,任何一个数据中心没有成千上万台服务器都不好意思出来拿出来吹牛。然而,我们真的做到了资源优化分配吗?那么多台机器真的在高效的运行在解决客户的问题吗?回答这个问题,需要全面的从云计算(或大数据)的三要素来衡量,包括计算(如CPU)的利用率、存储利用率、网络利用率等。举个简单的例子,很多数仓、数据库产品,皇皇千八百太机器,然而每台的利用率只有单线程的水平,现代CPU都是32线程、56核的量级,只有单线程,就意味着95%, 99%都在空转。特别是在一些分布式系统中,这种资源浪费是惊人的。例如某开源NewSQL类数据库,在某知名实验室中压测结果爆出六台实例的集群处理能力堪堪与传统的一台机器的MySQL持平。然后他们的工程师只能说,我们至少是分布式的啊 – 非常有趣的一个现象 – 从白嫖开源,到打着优化资源的旗号,从事着资源浪费的实际工作。
真正的大数据,需要能解决客户的实际问题,而不是通过所谓的颠覆式创新来,以浪费资源或低效利用资源的方式 – 让用户部署了各种所谓的大规模成千上万台服务器的水平分布式系统,实际效果却不如之前的IOE系统 – 这种”优化“,不要也罢。
笔者曾经对比过不同类型的大数据系统对于资源利用率的比较,传统SQL类的系统,动辄几十台上百台服务器的集群,在数据处理能力上,比只有十分之一硬件规模图数据库系统,还有低一个数量级。如下图所示:
浅谈大数据如何应用?_第5张图片
图:资源利用:图数据库指数级优于传统数据库、数仓

在某股份制银行的实时决策RTD系统中,Ultipa图数据库用了:
1/10的集群规模,实现了,
15倍的性能提升、更高的并发规模,更低的系统延迟
13倍的数据存储量提升 (7天到90天的大幅提升)
对超级节点的处理
对更深度查询的实时化支持能力
(3)提高财务业绩
提高财务业绩是另一大类大数据典型应用。有了大数据预测的帮助,CFO团队从原有的定期做报表演进到可以识别高风险客户、监控供应商、打击诈骗以及帮助制定更高效的业务模式。有统计数据表明美国每年受天气影响的GDP高达5,000亿美元,零售商通过IBM旗下的The Weather Company提供的天气预测数据(每天超过100亿次)来有效调整人员配置以及供应链管理策略,从而实现资源配置优化以提高财务表现。
(4)智慧销售
智慧销售、智慧市场推广也是大数据应用的重要领域。基于大数据、精准数据分析,电子商务公司可以根据每一个用户的以往购物经历来定制化推送市场推广邮件,从而实现更高的用户返还率(Return Rate)。以大型连锁零售商Kroger为例,通过大数据驱动的定制电子邮件优惠券推广,它们的客户返还率高达70%,而市场平均的返还率仅有3.7%,几乎是2000%的增长,这大概也解释了为什么Kroger可以连续45个季度实现盈利正增长。
(5)最小化资产损失
最小化设备失败与资产损失对于维修、采购、工程、IT部门而言意义重大。以美国通用为例,每天全世界有上万家飞机使用通用的发动机,每台发动机上成上千上万的传感器每五个小时的飞行会产生1~2TB的数据,平均一天有超过10~20PB的数据,一年就是3.65~7.3EB(1EB=2 60B),对这些典型IOT监控数据的分析可以实现主动维修,甚至预测故障发生而提早预备配件以实现资源分配优化,降低维修成本。
(6)最大化客户价值
最大化客户价值对于企业而言意味着贴近客户,实现高客户满意度进而收获一位终生客户。保险公司当然希望购买人寿保险的用户可以身体健康(出于众所周知的原因)。以国内某大型寿险公司为例,采用了康健德科技的基于大数据模型的个性化健康评估、健康管理服务来为其寿险客户提供增值服务,对于用户而言获得了专业化的健康服务,提高了依从性与健康品质,而对于保险公司而言则意味着可以为客户提供定制化保险服务以及围绕健康医疗衍生的多重增值服务,何乐而不为。
·文/ 老孙(孙宇熙:云计算、大数据、高性能存储与计算系统架构专家 )
·END·

你可能感兴趣的:(老孙解密大数据,大数据,数据库)